使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机程序制造方法及图纸

技术编号:24808159 阅读:23 留言:0更新日期:2020-07-07 22:44
一种用于从具有输入音频信号频率范围的输入音频信号(50)生成带宽增强的音频信号的装置,包括:原始信号发生器(10),被配置用于生成具有增强频率范围的原始信号(60),其中增强频率范围不包括在输入音频信号频率范围中;神经网络处理器(30),被配置用于使用输入音频信号的输入音频信号频率范围和经训练的神经网络(31)生成增强频率范围的参数表示(70);以及原始信号处理器(20),用于使用增强频率范围的参数表示(70)处理原始信号(60),以获得具有增强频率范围中的频率分量的经处理的原始信号(80),其中经处理的原始信号(80)或经处理的原始信号和输入音频信号的输入音频信号频率范围表示带宽增强的音频信号。

【技术实现步骤摘要】
【国外来华专利技术】使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机程序
本专利技术涉及音频处理,以及特别地,涉及用于音频信号的带宽增强技术,诸如带宽扩展或智能间隙填充。
技术介绍
当今最常用的用于移动语音通信的编解码器仍然是AMR-NB,其仅对从200到3400Hz的频率(通常称为窄频带(NB))进行编码。然而,人类语音信号具有宽得多的带宽,尤其是摩擦音通常具有其大部分能量在4kHz以上。限制语音的频率范围不仅听起来不太舒适,而且也不太容易理解[1,2]。像EVS[3]的现有技术音频编解码器能够对更宽的信号频率范围进行编码,但是使用这些编解码器将需要改变包括接收设备的整个通信网络。这是巨大的努力并且已知持续了若干年。盲带宽扩展(BBWE-也称为人工带宽扩展或盲带宽扩张)能够扩展信号的频率范围而无需额外的位。它们仅被应用于解码信号,并且不需要网络或发送设备的任何适配。虽然是窄频带编解码器的有限带宽问题的吸引人的解决方案,但是许多系统未能改善语音信号的质量。在对最新带宽扩展的联合评估中,12个系统中只有四个被管理显著地改善对于所有测试的语言的感知的质量[4]。遵循语音产生的源滤波器模型,大多数带宽扩展(盲目式或非盲目式)具有两个主要构造块-激励信号的生成和声道形状的估计。这也是提出的系统遵循的方法。用于生成激励信号的常用技术是频谱折叠、平移或非线性处理。声道形状可由高斯混合模型(GMM)、隐马尔可夫模型(HMM)、神经网络或深度神经网络(DNN)生成。这些模型根据对语音信号计算的特征预测声道形状。>在[5]和[6]中,通过频谱折叠生成激励信号,以及声道滤波器由HMM实现为时域中的全极点滤波器。首先,通过矢量量化创建包括上频带语音信号的帧上计算的线性预测系数(LPC)的码本。在解码器侧,对解码的语音信号计算特征,以及给定特征,使用HMM对码本条目的条件概率进行建模。最终的包络是所有码本条目的加权和,概率是权重。在[6]中,神经网络额外地强调摩擦声。在[7]中,激励信号也通过频谱折叠生成,以及声道通过神经网络建模,神经网络输出在Mel滤波器组域中应用于折叠的信号的增益。在[8]中,DNN用于预测频谱折叠的激励信号的频谱包络(在此称为成像的相位)。[9]中的系统还使用频谱折叠的激励信号,并且通过包括LSTM层的DNN整形包络。使用音频的若干帧作为用于DNN的输入,这两个系统具有对于实时电信来说过高的算法延迟。最近的方法使用类似于WaveNet[11]的体系结构,以0到32ms的算法延迟直接对时域中丢失的信号进行建模[10]。当语音被发送用于电信时,其频率范围通常受到例如频带限制和下采样的限制。如果这种频带限制是从信号中去除太多带宽,则语音的感知的质量显著降低。克服这个问题的一种方法是通过发送更多的带宽暗示编解码器的变化。这通常涉及整个网络基础设施的改变,这是非常昂贵的并且可以持续若干年。扩展频率的另一方式是通过带宽扩展人为地扩展频率范围。在带宽扩展为盲目的情况下,没有边信息从编码器传送到解码器。不必对发送基础设施进行改变。
技术实现思路
本专利技术的目的是提供一种用于生成带宽增强的音频信号的改进的概念。该目的通过如权利要求1所述的用于生成带宽增强的音频信号的装置、如权利要求26或权利要求27所述的用于处理音频信号的系统、如权利要求29所述的生成带宽增强的音频信号的方法,或如权利要求30或权利要求31所述的处理音频信号的方法、或如权利要求32所述的计算机程序实现。本专利技术基于这样的发现:神经网络可以有利地用于生成带宽扩展的音频信号。然而,实现神经网络的神经网络处理器不用于生成完整的增强频率范围,即增强频率范围中的单独的频谱线。相反,神经网络处理器接收输入音频信号频率范围作为输入,并且输出用于增强频率范围的参数表示。这个参数表示用于对已经由分离的原始信号发生器生成的原始信号执行原始信号处理。原始信号发生器可以是用于增强频率范围的任何类型的信号合成器,例如从诸如频谱带复制过程的带宽扩展或从智能间隙填充过程已知的修补器。然后,可以对修补的信号进行频谱白化,或者可替换地,可以在修补之前对信号进行频谱白化。以及然后,由原始信号处理器使用从神经网络提供的参数表示进一步处理作为频谱白化的修补的信号的原始信号,以获得具有增强频率范围中的频率分量的经处理的原始信号。在输入音频信号是窄频带或低频带信号的直接带宽扩展的应用场景中,增强频率范围是高频带。可替换地,增强频率范围是指由智能间隙填充过程填充的最大频率与一定最小频率之间的一定频谱空洞。可替换地,原始信号发生器也可以被实现为使用任何种类的非线性处理或噪声处理或噪声生成来生成增强频率范围信号。由于神经网络仅用于提供高频带的参数表示而不是全高频带或完整增强频率范围,因此神经网络可以被制造得不太复杂,并且因此与其中神经网络用于生成全高频带信号的其他过程相比是高效的。另一方面,向神经网络馈送低频带信号,以及因此不需要从低频带信号中进行额外的特征提取(如从神经网络控制的带宽扩展过程已知的)。另外,已经发现,可以以直接的方式并且因此非常有效地在没有神经网络处理的情况下进行用于增强频率范围的原始信号的生成,以及还可以在没有任何特殊的神经网络支持的情况下进行原始信号的后续缩放或者通常地后续原始信号处理。相反,仅需要神经网络支持用于生成增强频率范围信号的参数表示,并且因此,在一方面用于生成增强频率范围的原始信号和原始信号的整形或处理的常规信号处理与额外地最后生成由原始信号处理器使用的参数表示的非常规神经网络处理之间找到最优折衷。传统处理和神经网络处理之间的这种分布提供了关于音频质量,以及关于神经网络训练以及必须在任一带宽增强处理器中执行的神经网络应用的神经网络复杂度的最优折衷。优选实施例依赖于不同的时间分辨率,即,相当低的时间分辨率,并且优选地,相当高的频率分辨率,用于生成经白化的原始信号。另一方面,神经网络处理器和原始信号处理器基于高时间分辨率操作,因此优选地基于低频率分辨率操作。然而,也可以存在低时间分辨率伴随有高频率分辨率或高时间分辨率的情况,因此,再次在神经网络具有例如关于频率比全幅度表示更粗糙的参数分辨率的事实之间找到最优折衷。另外,通过以较高时间分辨率操作,神经网络处理器可以最优地利用时间历史,即,可以高效地依赖于用于参数表示的参数的时间改变,参数的时间改变对于音频处理特别有用,并且特别地,对于带宽扩展或带宽增强过程特别有用。本专利技术的另外的优选方面依赖于某些有用的白化过程,白化过程将初始生成的原始信号除以其频谱包络,频谱包络是通过利用非常简单的低通滤波器对功率谱进行低通滤波或一般的FIR滤波生成的,低通滤波器诸如三、四或五个抽头的低通滤波器,其中所有抽头都被设置为仅为1。该过程用于两个目的。第一个目的是从初始原始信号中去除共振峰结构,第二个目的是降低谐波的能量与噪声的能量的比率。因此,这种白化信号听起来比例如LPC残差信号自然得多,并且这种信号特别适合于使用由神经网络处理器生成的参数表示的参数处理。...

【技术保护点】
1.一种用于从具有输入音频信号频率范围的输入音频信号(50)生成带宽增强的音频信号的装置,包括:/n原始信号发生器(10),被配置用于生成具有增强频率范围的原始信号(60),其中所述增强频率范围不包括在所述输入音频信号频率范围中;/n神经网络处理器(30),被配置用于使用所述输入音频信号的所述输入音频信号频率范围和经训练的神经网络(31)生成所述增强频率范围的参数表示(70);以及/n原始信号处理器(20),用于使用所述增强频率范围的所述参数表示(70)处理所述原始信号(60),以获得具有所述增强频率范围中的频率分量的经处理的原始信号(80),/n其中所述经处理的原始信号(80)或所述经处理的原始信号和所述输入音频信号的所述输入音频信号频率范围表示所述带宽增强的音频信号。/n

【技术特征摘要】
【国外来华专利技术】20171027 EP 17198997.31.一种用于从具有输入音频信号频率范围的输入音频信号(50)生成带宽增强的音频信号的装置,包括:
原始信号发生器(10),被配置用于生成具有增强频率范围的原始信号(60),其中所述增强频率范围不包括在所述输入音频信号频率范围中;
神经网络处理器(30),被配置用于使用所述输入音频信号的所述输入音频信号频率范围和经训练的神经网络(31)生成所述增强频率范围的参数表示(70);以及
原始信号处理器(20),用于使用所述增强频率范围的所述参数表示(70)处理所述原始信号(60),以获得具有所述增强频率范围中的频率分量的经处理的原始信号(80),
其中所述经处理的原始信号(80)或所述经处理的原始信号和所述输入音频信号的所述输入音频信号频率范围表示所述带宽增强的音频信号。


2.如权利要求1所述的装置,其中所述原始信号发生器(10)被配置用于
生成(11a)具有第一音调的初始原始信号;以及
对所述初始原始信号进行频谱白化(11b)以获得所述原始信号,所述原始信号具有第二音调,所述第二音调低于所述第一音调。


3.如权利要求1或2所述的装置,
其中,所述原始信号发生器(10)被配置为使用第一时间分辨率(12)执行所述初始原始信号的频谱白化或者使用第一时间分辨率生成所述原始信号(60),或者其中所述原始信号发生器(10)被配置为使用第一频率分辨率(12)执行所述初始原始信号的频谱白化或者使用第一频率分辨率生成所述原始信号(60),以及
其中所述神经网络处理器(30)被配置为以第二时间分辨率生成(32)所述参数表示,所述第二时间分辨率高于所述第一时间分辨率,或者其中所述神经网络处理器(30)被配置为以第二频率分辨率生成(32)所述参数表示,所述第二频率分辨率低于所述第一频率分辨率,以及
其中所述原始信号处理器(20)被配置为使用(22)具有所述第二时间分辨率或第二频率分辨率的所述参数表示处理所述原始信号,以获得所述经处理的原始信号(80)。


4.如前述权利要求中一项所述的装置,
其中所述原始信号发生器(10)包括修补器(18),所述修补器(18)用于将所述输入音频信号的频谱部分修补到所述增强频率范围中,所述修补包括单个修补操作或多个修补操作,其中,在所述多个修补操作中,所述输入音频信号的特定频谱部分被修补到所述增强频率范围的两个或更多个频谱部分。


5.如前述权利要求中一项所述的装置,
其中所述原始信号处理器(20)包括时间-频率转换器(17),所述时间-频率转换器(17)用于将输入信号转换为频谱表示,所述频谱表示包括频谱帧的时间序列,频谱帧具有频谱值,
其中所述神经网络处理器(30)被配置为将所述频谱帧馈送到所述经训练的神经网络(31)中,或者处理(32)所述频谱帧以获得经处理的频谱帧,其中所述频谱值被转换到具有1.5与4.5之间的幂、优选地具有2或3的幂的幂域中,以及
其中所述神经网络(31)被配置为输出关于所述幂域的所述参数表示,以及
其中所述原始信号处理器(20)被配置为将所述参数表示转换(26)为线性域,以及将线性域参数表示应用(27)到所述频谱帧的时间序列。


6.如前述权利要求中一项所述的装置,
其中所述神经网络处理器(30)被配置为以具有低于0.9的相关的幂的对数表示或压缩表示输出所述参数表示(70),以及
其中所述原始信号处理器(20)被配置为将所述参数表示从所述对数表示或所述压缩表示转换(26)为线性表示。


7.如前述权利要求中一项所述的装置,其中所述原始信号发生器(10)包括:
时间-频率转换器(17),用于将输入音频信号转换为频谱帧序列,频谱帧具有值序列;
修补器(18),用于使用所述时间-频率转换器(17)的输出为每个频谱帧生成修补的信号;
白化级(11b),用于在由所述修补器执行修补操作之前,为每个频谱帧而频谱白化修补的信号,或者用于白化来自所述时间-频率转换器(17)的对应的信号;以及
频率-时间转换器(19),用于将包括修补的且频谱白化的帧的帧序列转换到时域中以获得所述原始信号(60),其中频率-时间转换器被配置为覆盖所述增强频率范围。


8.如前述权利要求中任一项所述的装置,其中所述原始信号处理器内的白化级(11b)包括:
低通滤波器,用于对频谱帧或所述频谱帧的功率表示(13)进行低通滤波(14),以获得用于所述频谱帧的包络估计;以及
计算器,用于通过将所述频谱帧除以所述包络估计而计算(16)白化信号,其中,当从所述功率表示得出所述包络时,所述除法器计算频谱值(15)的线性加权因子,并将所述频谱值除以所述线性加权因子。


9.如前述权利要求中一项所述的装置,
其中所述原始信号处理器(20)包括时间-频率转换器(22),所述时间-频率转换器(22)用于将所述输入音频信号或从所述输入音频信号和所述原始信号(60)得出的信号转换为频谱表示,
其中所述神经网络处理器(30)被配置为接收所述输入音频信号频率范围的频谱表示,
其中所述原始信号处理器(20)包括频谱处理器(23),所述频谱处理器(23)用于将由所述神经网络处理器(30)响应于所述输入音频信号频率范围的所述频谱表示而提供的所述参数表示(70)应用于所述原始信号(60)的所述频谱表示;以及
其中所述原始信号处理器(20)还包括频率-时间转换器(24),所述频率-时间转换器(24)用于将所述原始信号的经处理的频谱表示转换到时域,
其中所述装置被配置为通过将所述经处理的频谱表示以及所述输入音频信号频率范围的所述频谱表示馈送到所述频率-时间转换器(24)或通过在所述时域中组合所述输入音频信号频率范围的时间表示以及所述经处理的原始信号(80)的时间表示,执行所述经处理的原始信号以及所述输入音频信号频率范围的组合。


10.如前述权利要求中一项所述的装置,
其中所述神经网络处理器(30)包括具有输入层(32)和输出层(34)的神经网络(31),其中所述神经网络处理器被配置为在所述输入层处接收从所述输入音频信号得出的频谱图,所述频谱图包括频谱帧的时间序列,频谱帧具有多个频谱值,以及所述神经网络处理器被配置为在所述输出层(34)处输出所述参数表示(70)的各个参数,
其中所述频谱值是线性频谱值或使用1.5和4.5之间的幂处理的功率频谱值或经处理的功率值,其中所述处理包括使用对数函数或具有小于1的幂的幂函数的压缩。


11.如权利要求10所述的装置,其中所述输入层(32)或一个或多个中间层(33)被形成为包括一个或多个卷积核的卷积层,其中卷积核被配置为执行来自所述频谱帧的时间序列中的至少两个不同的帧的多个频谱值的卷积处理。


12.如权利要求11所述的装置,
其中所述卷积核被配置为执行二维卷积处理,所述二维卷积处理涉及帧的所述时间序列中的每帧的第一数量的频谱值和第二数量的帧,其中所述第一数量和所述第二数量至少为二并且小于十。


13.如权利要求11或12所述的装置,
其中所述输入层(32)或所述第一中间层(33)包括处理在频率上相邻且在时间上相邻的频谱值的至少一个核,
以及其中所述神经网络(31)还包括基于扩张因子进行操作的中间卷积层(33b),使得相对于时间索引,仅层堆叠中的先前层的每第二个或每第三个结果被所述卷积层接收作为输入。


14.如前述权利要求10至13中一项所述的装置,
其中所述神经网络包括作为所述输出层(34)的递归层,或者除了所述输出层(34)之外还包...

【专利技术属性】
技术研发人员:康斯坦丁·施密特克里斯蒂安·乌勒贝恩德·埃德勒
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利