Audio Bit Depth Super-Resolution with Neural Networks
作者:Thomas Liu、Taylor Lundy、William Qi
摘要
Audio Bit Depth Super-Resolution是一个尚未通过深度学习的视角来研究的问题,目前使用的有效方法很少。在本文中,我们提出了一种基于WavaNet结构来实现低分辨率8位音频输入的升级,从而产生高保真16位输出,(将语音从8kHz音频,转化为16kHz音频)。消除了过程中的噪声和artifacts(伪影)。我们还探索了几种不同的方法来提高该问题的计算可操作性,并对每种方法的优缺点进行了深入的分析。
1 引言
在语音信号处理领域,存在着大量的上采样和超分辨率问题,有待于通过深度学习的视角来研究。与视觉领域相比,语音信号处理相对缺乏进展的一个主要原因是处理高维音频数据的固有困难。为了减轻这种高维的诅咒所带来的计算负担,以前许多基于学习的信号处理方法都将重点放在使用time-frequency(时频)音频表示(如频谱图)作为输入[15,1,16]。
近年来,基于WaveNet的[12]方法的结果表明,在合理的内存约束下,确实可以直接对原始音频输入进行操作。通过改进对数据中时间信息的访问,这些产生式[8,7]和判别式[9]方法已经能够利用有价值的时间相关特征,例如信号相位,扩展了机器学习技术可以解决的音频任务的范围。
Audio Bit Depth Super-Resolution任务中从时间信息的可用性中受益。本文中使用的Bit-Depth是指用于表示音频信号中每个采样的位数。重要的是,该变量控制音频信号能够表示的音量范围(动态范围),在判断音频质量方面起着重要作用。由于更大动态范围的精度表示需要在每个采样点使用更多的bit,因此通常必须在音频文件的大小和保真度之间进行权衡。通常执行的下采样操作包括从24位录音室质量输入下采样到16位CD质量输出,以及从16位缩小到8位音频。
由于许多压缩音频编码都是有损压缩的[2],从低分辨率音频输入中恢复高保真音频是一个定义不清且很难解决的问题。为了减轻分辨率降低的负面影响,人们已经提出了许多技术。一种方法,oversampling,牺牲音频bit-rate(比特率)和信号噪声,以换取更高的模拟音频比特深度。另一种方法,dithering,在下采样步骤引入噪声,以增加低分辨率(lr)信号的感知动态范围。到目前为止,我们还没有发现任何利用深度网络通过学习lr输入和hr源音频之间的关系,来提高音频比特深度的方法。
即使应用了这些降噪技术,源音频信号和压缩音频信号之间在数量和质量上仍然存在显著差异。我们假设通过利用原始音频格式固有的时间依赖性,我们可以通过超分辨lr信号的bit-depth来进一步减小信号质量的差异。这种从8位输入到16位输出的映射可以使用我们称之为DBSR的WaveNet架构的改进版本以有监督的方式学习。
这种方法的成功依赖于音频信号中语义结构的存在,而语义结构在不同的音频源之间可能存在差异。为了探究这个问题,我们对我们的模型进行了评估,评估对象是两种不同的常见的音频、音乐和语音类别。
2 相关工作
音频生成已经在不同但相关的任务上进行了探索,如文本到语音、音频去噪和带宽扩展。WaveNet架构[12]是与PixelCNN[13]等效的音频域。Wavenet已经演示了高质量的音频生成,使用一个dilated(扩张)的CNN结构来保留一个大的接收域,同时仍然保持每秒包含16,000个样本的原始音频波形的计算可处理性。WaveNet最初的论文关注的是文本到语音的合成,而派生工作已经在诸如音乐生成[3]和音频去噪[9]等任务上尝试使用该架构。
与我们的任务最相关的衍生工作是Rethage等人所做的语音去噪工作。与位深超分辨率相似,语音去噪需要输入和输出样本之间一对一对应的判别模型,而不是原始Wavenet结构的自回归性质。此外,由于问题的判别性质,在预测过程中有可能放松WaveNet的因果约束,以及对未来时间步长的输入样本的条件。与自回归生成不同的是,在测试期间,未来的样本根本不存在,而我们的鉴别位深超分辨率问题,来自过去和未来的样本都可能提供有价值的上下文信息。
基于RNNs的网络结构,传统上是序列数据的自然拟合,也得到了探索。值得注意的是,SampleRNN[6]提出了一个分层的GRU模型,在使用更简单的网络和提供更快的推理的同时,生成与wavenet质量相当的音频。这种层次结构试图解决经验表明的接收能力较差的RNNs领域,否则,在几秒钟的音频中包含数万个样本,就会出现问题。
需要注意的一个问题是,由于评估16位以上的softmax分布(每个样本的概率为65536)是困难的,原始WaveNet和SampleRNN都产生8位音频作为输出,将输出降低到每个样本只有256个概率。由于大多数现代音频都是16位编码的,并且在传统的8位音轨(如视频游戏音乐)上存在一个有趣的探索位深度超分辨率的用例,因此我们寻求一种可处理性产生16位输出的方法。PixelCNN++[10]中针对类似的过像素图像生成任务,提出了一种潜在的解决方案,即使用离散逻辑混合对256路(本例中为65536路)分类分布进行建模。在并行化WaveNet优化[1
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/159213.html