语音信号的噪声抑制方法、装置、设备及存储介质制造方法及图纸

技术编号:25918335 阅读:39 留言:0更新日期:2020-10-13 10:37
本申请提供了一种语音信号的噪声抑制方法、装置、设备及存储介质,涉及音频处理技术领域。所述方法包括:获取带噪语音信号的特征数据;对特征数据进行变换处理,得到变换后的特征数据;对特征数据和变换后的特征数据进行两步递归处理,得到递归处理后数据;根据递归处理后数据生成增益信息;基于增益信息对带噪语音信号进行噪声抑制处理,得到降噪语音信号。本申请实施例提供了一种低复杂度的噪声抑制方案,通过简化模型结构,降低计算复杂度。

【技术实现步骤摘要】
语音信号的噪声抑制方法、装置、设备及存储介质
本申请实施例涉及音频处理
,特别涉及一种语音信号的噪声抑制方法、装置、设备及存储介质。
技术介绍
啸叫是一种回授音,在声源与扩音设备之间因距离过近等问题导致能量发生自激的情况下,就会产生啸叫。在相关技术中,提出了基于神经网络模型的啸叫抑制方法,但这种方法通常需要较为复杂的网络结构,从而导致计算复杂度较高。
技术实现思路
本申请实施例提供了一种语音信号的噪声抑制方法、装置、设备及存储介质,能够简化用于噪声抑制的模型网络结构,降低计算复杂度。所述技术方案如下:根据本申请实施例的一个方面,提供一种语音信号的噪声抑制方法,所述方法包括:获取带噪语音信号的特征数据,所述特征数据包括用于反映所述带噪语音信号的频谱特征的参数;对所述特征数据进行变换处理,得到变换后的特征数据;对所述特征数据和所述变换后的特征数据进行两步递归处理,得到递归处理后数据;根据所述递归处理后数据生成增益信息,所述增益信息包括应用于所述带噪语音信号的不同频带的增益值;基于所述增益信息对所述带噪语音信号进行噪声抑制处理,得到降噪语音信号。根据本申请实施例的一个方面,提供一种噪声抑制模型的训练方法,所述方法包括:获取训练样本,所述训练样本的样本数据包括带噪语音信号,所述训练样本的标签数据包括所述带噪语音信号对应的真实增益信息,所述真实增益信息包括应用于所述带噪语音信号的不同频带的真实增益值;获取所述带噪语音信号的特征数据,所述特征数据包括用于反映所述带噪语音信号的频谱特征的参数;通过噪声抑制模型基于所述特征数据,生成预估增益信息;其中,所述预估增益信息包括应用于所述带噪语音信号的不同频带的预估增益值,所述噪声抑制模型用于对所述特征数据和变换后的特征数据进行两步递归处理后,根据递归处理后数据生成所述预估增益信息;基于所述预估增益信息和所述真实增益信息,计算所述噪声抑制模型的损失函数值;基于所述损失函数值调整所述噪声抑制模型的参数,对所述噪声抑制模型进行训练。根据本申请实施例的一个方面,提供一种语音信号的噪声抑制装置,所述装置包括:特征获取模块,用于获取带噪语音信号的特征数据,所述特征数据包括用于反映所述带噪语音信号的频谱特征的参数;特征变换模块,用于对所述特征数据进行变换处理,得到变换后的特征数据;递归处理模块,用于对所述特征数据和所述变换后的特征数据进行两步递归处理,得到递归处理后数据;增益生成模块,用于根据所述递归处理后数据生成增益信息,所述增益信息包括应用于所述带噪语音信号的不同频带的增益值;噪声抑制模块,用于基于所述增益信息对所述带噪语音信号进行噪声抑制处理,得到降噪语音信号。根据本申请实施例的一个方面,提供一种噪声抑制模型的训练装置,所述装置包括:样本获取模块,用于获取训练样本,所述训练样本的样本数据包括带噪语音信号,所述训练样本的标签数据包括所述带噪语音信号对应的真实增益信息,所述真实增益信息包括应用于所述带噪语音信号的不同频带的真实增益值;特征获取模块,用于获取所述带噪语音信号的特征数据,所述特征数据包括用于反映所述带噪语音信号的频谱特征的参数;模型处理模块,用于通过噪声抑制模型基于所述特征数据,生成预估增益信息;其中,所述预估增益信息包括应用于所述带噪语音信号的不同频带的预估增益值,所述噪声抑制模型用于对所述特征数据和变换后的特征数据进行两步递归处理后,根据递归处理后数据生成所述预估增益信息;损失计算模块,用于基于所述预估增益信息和所述真实增益信息,计算所述噪声抑制模型的损失函数值;参数调整模块,用于基于所述损失函数值调整所述噪声抑制模型的参数,对所述噪声抑制模型进行训练。根据本申请实施例的一个方面,提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述语音信号的噪声抑制方法。根据本申请实施例的一个方面,提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述噪声抑制模型的训练方法。根据本申请实施例的一个方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述语音信号的噪声抑制方法。根据本申请实施例的一个方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述噪声抑制模型的训练方法。根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述语音信号的噪声抑制方法。根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述噪声抑制模型的训练方法。本申请实施例提供的技术方案可以包括如下有益效果:本申请实施例提供的技术方案,提供了一种低复杂度的噪声抑制方案,通过简化模型结构,将模型用于对输入的特征数据进行递归计算的循环神经网络单元的数量从3个减少为2个,这样仅需执行2步递归计算即可,不需要执行3步递归计算,且不再计算VAD(VoiceActivityDetection,语音活动检测)结果,从而简化模型网络结构,降低计算复杂度。附图说明图1是相关技术提供的经典RNNoise算法的原理框图;图2是本申请技术方案涉及的一种可能的应用场景的示意图;图3是本申请一个实施例提供的语音信号的噪声抑制方法的流程图;图4是本申请另一个实施例提供的语音信号的噪声抑制方法的流程图;图5是本申请一个实施例提供的方案实施示意图;图6是本申请一个实施例提供的噪声抑制模型的示意图;图7是本申请一个实施例提供的噪声抑制模型的训练方法的流程图;图8是本申请一个实施例提供的语音信号的噪声抑制装置的框图;图9是本申请一个实施例提供的噪声抑制模型的训练装置的框图;图10是本申请一个实施例提供的计算机设备的结构框图。具体实施方式为使本申请的目的、技本文档来自技高网...

【技术保护点】
1.一种语音信号的噪声抑制方法,其特征在于,所述方法包括:/n获取带噪语音信号的特征数据,所述特征数据包括用于反映所述带噪语音信号的频谱特征的参数;/n对所述特征数据进行变换处理,得到变换后的特征数据;/n对所述特征数据和所述变换后的特征数据进行两步递归处理,得到递归处理后数据;/n根据所述递归处理后数据生成增益信息,所述增益信息包括应用于所述带噪语音信号的不同频带的增益值;/n基于所述增益信息对所述带噪语音信号进行噪声抑制处理,得到降噪语音信号。/n

【技术特征摘要】
1.一种语音信号的噪声抑制方法,其特征在于,所述方法包括:
获取带噪语音信号的特征数据,所述特征数据包括用于反映所述带噪语音信号的频谱特征的参数;
对所述特征数据进行变换处理,得到变换后的特征数据;
对所述特征数据和所述变换后的特征数据进行两步递归处理,得到递归处理后数据;
根据所述递归处理后数据生成增益信息,所述增益信息包括应用于所述带噪语音信号的不同频带的增益值;
基于所述增益信息对所述带噪语音信号进行噪声抑制处理,得到降噪语音信号。


2.根据权利要求1所述的方法,其特征在于,所述对所述特征数据和所述变换后的特征数据进行两步递归处理,得到递归处理后数据,包括:
通过两层神经网络对所述特征数据和所述变换后的特征数据进行所述两步递归处理,得到所述递归处理后数据。


3.根据权利要求2所述的方法,其特征在于,所述两层神经网络包括第一神经网络层和第二神经网络层;
所述通过两层神经网络对所述特征数据和所述变换后的特征数据进行所述两步递归处理,得到所述递归处理后数据,包括:
通过所述第一神经网络层对所述特征数据和所述变换后的特征数据的融合结果进行处理,得到所述第一神经网络层的输出数据;
通过所述第二神经网络层对所述特征数据和所述第一神经网络层的输出数据的融合结果进行处理,得到所述递归处理后数据。


4.根据权利要求3所述的方法,其特征在于,所述通过所述第一神经网络层对所述特征数据和所述变换后的特征数据的融合结果进行处理,得到所述第一神经网络层的输出数据,包括:
对所述特征数据和所述变换后的特征数据进行融合处理,得到第一融合结果;
通过所述第一神经网络层对所述第一融合结果进行处理,得到所述第一神经网络层的输出数据。


5.根据权利要求3所述的方法,其特征在于,所述通过所述第二神经网络层对所述特征数据和所述第一神经网络层的输出数据的融合结果进行处理,得到所述递归处理后数据,包括:
对所述特征数据和所述第一神经网络层的输出数据进行融合处理,得到第二融合结果;
通过所述第二神经网络层对所述第二融合结果进行处理,得到所述递归处理后数据。


6.根据权利要求1所述的方法,其特征在于,所述获取带噪语音信号的特征数据,包括:
对所述带噪语音信号进行分帧处理,得到n个音频帧,所述n为正整数;
提取所述n个音频帧分别对应的特征数据;
其中,所述音频帧对应的特征数据包括:所述音频帧在巴克Bark频率尺度的k个频带上的频谱特征参数和能量参数,所述k为正整数。


7.根据权利要求1所述的方法,其特征在于,所述对所述特征数据进行变换处理,得到变换后的特征数据,包括:
对所述特征数据进行线性变换处理,得到所述变换后的特征数据;
或者,
对所述特征数据进行非线性变换处理,得到所述变换后的特征数据。


8.根据权利要求1所述的方法,其特征在于,所述基于所述增益信息对所述带噪语音信号进行噪声抑制处理,得到降噪语音信号,包括:
对于所述带噪语音信号在不同频带的频域信号,采用相应的增益值对所述频域信号进行处理,得到处理后频域信号;
将所述处理后频域信号进行频域到时域的转换,得到所述降噪语音信号。


9.根据权利要求1至8任一项所述的方法,其特征在于,用于对所述带噪语音信号进行噪声抑制处理的噪声抑制模型包括:输入层、第一激活函数层、第一神经网络层、第二神经网络层、第二激活函数层和输出层;其中:
所述输入层用于输入所述带噪语音信号的特征数据,所述输入层的神经元数量为44;
所述第一激活函数层用于对所述特征数据进行变换处理,得到变换后的特征数据,所述第一激活函数层的神经元数量为20;
所述第一神经网络层用于对所述特征数据和所述变换后的特征数据的融合结果进行处理,所述第一神经网络层的神经元数量为30;
所述第二神经网络层用于对所述特征数据和所述第一神经网络层的输出数据的融合结果进行处理,所述第二神经网络层的神经元数量为60;
所述第...

【专利技术属性】
技术研发人员:鲍枫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1