System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 音频降噪方法、降噪模型训练方法、电子设备和存储介质技术_技高网

音频降噪方法、降噪模型训练方法、电子设备和存储介质技术

技术编号:42363518 阅读:3 留言:0更新日期:2024-08-16 14:46
本申请提供一种音频降噪方法、音频降噪模型训练方法、电子设备和计算机可读存储介质。音频降噪方法包括:获取待降噪音频;逐帧将待降噪音频从时域转至频域,得到频域待降噪音频;对频域待降噪音频中各帧的幅值进行拼接和对各帧的相位进行拼接,生成拼接特征;将拼接特征输入音频降噪模型;通过编码器模块对拼接特征进行幅值特征提取和相位特征提取,得到第一频域降噪特征,通过循环神经网络层对第一降噪频域特征进行特征提取,得到第二频域降噪特征;通过解码器模块对第二频域降噪特征进行幅值特征重建和相位特征重建,得到信号掩膜并进行处理,得到降噪音频。本申请提高了音频降噪效果,降噪模型结构得以简化,更易于在嵌入式端集成。

【技术实现步骤摘要】

本申请实施例涉及音频处理,具体涉及一种音频降噪方法、音频降噪模型训练方法、电子设备和计算机可读存储介质。


技术介绍

1、音频降噪是指通过一系列信号处理技术,减少或去除音频信号中的噪声成分,以提高音频的质量和清晰度。早期的音频降噪技术以传统数字信号处理方法为主,包括谱减法、维纳滤波法等。在谱减法中,需要估计噪声的频谱特性,并将估计的噪声频谱从信号频谱中减去,由此减少音频中的噪声成分。维纳滤波法则通过最小化信号与噪声之间的均方误差来达到降噪的目的。噪声按信号随时间的变化情况可分为平稳噪声(如机器底噪、白噪声等)和非平稳噪声(如风声、电机转动声音等)。基于传统数字信号处理的音频降噪方法无法有效抑制非平稳噪声,处理过程中存在对听感影响较大的噪声残留,且会抑制非噪声信号,造成音频失真。

2、随着人工智能技术的发展,基于深度学习的音频信号处理方法逐渐兴起。深度学习是一种多层的表示学习方法,通过非线性变换将上一层输入转换为具有高层语义信息的抽象表示,从而学习输入和标签之间的复杂映射关系。基于深度学习的音频降噪技术是通过深度神经网络模型学习信号的特征和噪声的统计规律,从而去除噪声并恢复干净的音频信号。目前使用的深度神经网络模型通常尺寸偏大、结构复杂,而大部分嵌入式平台对深度神经网络模型的尺寸和结构均有明确限制,导致现有的深度神经网络模型无法在部分嵌入式端集成部署,无法满足移植或实时性要求。


技术实现思路

1、鉴于上述问题,本申请提供了一种音频降噪方法、音频降噪模型训练方法、电子设备和计算机可读存储介质,用于解决现有技术中存在的造成音频失真以及无法在部分嵌入式端集成部署的问题。

2、根据本申请的一个方面,提供了一种音频降噪方法,所述方法包括:获取待降噪音频;逐帧将所述待降噪音频从时域转至频域,得到频域待降噪音频;对所述频域待降噪音频中各帧的幅值进行拼接以及对各帧的相位进行拼接,生成拼接特征,其中,所述拼接特征的维度包括特征通道、帧长和帧数,所述特征通道包括幅值通道和相位通道;将所述拼接特征输入音频降噪模型,其中,所述音频降噪模型包括编码器模块、循环神经网络层和解码器模块;通过所述编码器模块采用二维卷积对所述拼接特征在所述幅值通道和所述相位通道同时在帧长和帧数两个维度进行滑窗操作,以分别进行幅值特征提取和相位特征提取,得到第一频域降噪特征;通过所述循环神经网络层根据所述第一频域降噪特征在时间上的上下文信息对所述第一降噪频域特征进行特征提取,得到第二频域降噪特征;通过所述解码器模块采用二维转置卷积对所述第二频域降噪特征在幅值通道和所述相位通道同时在帧长和帧数两个维度进行滑窗操作,以分别进行幅值特征重建和相位特征重建,得到降噪后的信号掩膜;对所述降噪后的信号掩膜进行后处理,得到降噪音频。

3、在一种可选的方式中,所述对所述频域待降噪音频中各帧的幅值进行拼接以及对各帧的相位进行拼接,生成拼接特征,包括:对所述频域待降噪音频中各帧的幅值在帧长和帧数两个维度进行拼接,得到幅值特征图,其中,所述幅值特征图的长度为所述帧长,所述幅值特征图的宽度为所述帧数;对所述频域待降噪音频中各帧的相位在帧长和帧数两个维度进行拼接,得到相位特征图,其中,所述相位特征图的长度为所述帧长,所述相位特征图的宽度为所述帧数;对所述幅值特征图和所述相位特征图进行通道拼接,生成所述拼接特征。

4、在一种可选的方式中,所述编码器模块包括依次级联的第一编码器、第二编码器和第三编码器,每个编码器包括依次级联的第一卷积层、第一正则化层、第一激活层、第二卷积层、第二正则化层和第二激活层;所述解码器模块包括依次级联的第一解码器、第二解码器和第三解码器,每个解码器包括依次级联的第一转置卷积层、第三正则化层、第三激活层、第二转置卷积层、第四正则化层和第五激活层;所述循环神经网络层为长短期记忆网络。

5、在一种可选的方式中,所述对所述音频降噪模型的输出进行后处理,得到降噪音频,包括:将所述第三解码器的输出与所述拼接特征进行逐元素相乘,得到降噪后各帧的幅值和相位;逐帧将所述降噪后各帧的幅值和相位从频域转至时域,得到降噪后各帧的时域数据;将所述降噪后各帧的时域数据中相邻帧的重叠部分进行加权平均,得到在时域上连续的所述降噪音频。

6、在一种可选的方式中,所述音频降噪方法还包括:获取目标降噪等级;根据所述目标降噪等级确定与所述目标降噪等级对应的第一权重和第二权重,其中,所述第一权重和所述第二权重的和等于1;将所述降噪音频和所述待降噪音频分别按所述第一权重和所述第二权重进行混合,得到目标降噪音频。

7、本申请通过将待降噪音频从时域转至频域以提取幅值和相位特征,将待降噪音频中各帧数据分别进行幅值拼接和相位拼接,从而得到拼接特征,拼接特征包含两个特征通道:幅值通道和相位通道,且拼接特征包括特征通道、帧长和帧数等维度,上述维度作为单独维度均被音频降噪模型用于特征学习,提高模型降噪效果;将幅值和相位分成不同的特征通道,在音频降噪模型中结合二维卷积在幅值和相位两个特征通道上进行特征提取,方便模型分别拟合相应的幅值和相位,模型结构得以简化,模型尺寸得以压缩,使本申请更易于在嵌入式端集成。

8、根据本申请的另一方面,提供了一种音频降噪模型训练方法,所述方法包括:构建样本数据集,其中,所述样本数据集包括多个标识有标签的带噪音频,所述标签为与所述带噪音频对应的干净音频;逐帧将所述带噪音频从时域转至频域,得到频域带噪音频;对所述频域带噪音频中各帧的幅值进行拼接以及对各帧的相位进行拼接,生成拼接特征,其中,所述拼接特征的维度包括数据批次、特征通道、帧长和帧数,所述特征通道包括幅值通道和相位通道;将所述拼接特征输入深度神经网络,其中,所述深度神经网络包括编码器模块、循环神经网络层和解码器模块;通过所述编码器模块采用二维卷积对所述拼接特征在所述幅值通道和所述相位通道同时在帧长和帧数两个维度进行滑窗操作,以分别进行幅值特征提取和相位特征提取,得到第一频域降噪特征;通过所述循环神经网络层根据所述第一频域降噪特征在时间上的上下文信息对所述第一降噪频域特征进行特征提取,得到第二频域降噪特征;通过所述解码器模块采用二维转置卷积对所述第二频域降噪特征在幅值通道和所述相位通道同时在帧长和帧数两个维度进行滑窗操作,以分别进行幅值特征重建和相位特征重建,得到降噪后的信号掩膜;对所述得到降噪后的信号掩膜进行后处理,得到降噪音频;基于所述降噪音频和所述干净音频,通过损失函数优化所述深度神经网络的参数,得到音频降噪模型。

9、在一种可选的方式中,所述构建样本数据集,包括:获取多个干净音频、多个房间脉冲响应和多个噪声数据;从所述多个干净音频、所述多个房间脉冲响应和所述多个噪声数据中随机选择干净音频、房间脉冲响应和噪声数据;对所述干净音频和所述房间脉冲响应进行卷积,得到混响音频;按随机信噪比混合所述混响音频和所述噪声数据,得到带噪音频;基于多个所述带噪音频生成所述样本数据集。

10、在一种可选的方式中,所述基于所述降噪音频和所述干净本文档来自技高网...

【技术保护点】

1.一种音频降噪方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述频域待降噪音频中各帧的幅值进行拼接以及对各帧的相位进行拼接,生成拼接特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述编码器模块包括依次级联的第一编码器、第二编码器和第三编码器,每个编码器包括依次级联的第一卷积层、第一正则化层、第一激活层、第二卷积层、第二正则化层和第二激活层;所述解码器模块包括依次级联的第一解码器、第二解码器和第三解码器,每个解码器包括依次级联的第一转置卷积层、第三正则化层、第三激活层、第二转置卷积层、第四正则化层和第五激活层;所述循环神经网络层为长短期记忆网络。

4.根据权利要求1所述的方法,其特征在于,所述对所述降噪后的信号掩膜进行后处理,得到降噪音频,包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.一种音频降噪模型训练方法,其特征在于,所述方法包括:

7.根据权利要求6所述的方法,其特征在于,所述构建样本数据集包括:

8.根据权利要求6所述的方法,其特征在于,所述基于所述降噪音频和所述干净音频,通过损失函数优化所述深度神经网络的参数,得到音频降噪模型,包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1~5任一项所述的音频降噪方法或者6~8任一项所述的音频降噪模型训练方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1~5任一项所述的音频降噪方法或者6~8任一项所述的音频降噪模型训练方法。

...

【技术特征摘要】

1.一种音频降噪方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述频域待降噪音频中各帧的幅值进行拼接以及对各帧的相位进行拼接,生成拼接特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述编码器模块包括依次级联的第一编码器、第二编码器和第三编码器,每个编码器包括依次级联的第一卷积层、第一正则化层、第一激活层、第二卷积层、第二正则化层和第二激活层;所述解码器模块包括依次级联的第一解码器、第二解码器和第三解码器,每个解码器包括依次级联的第一转置卷积层、第三正则化层、第三激活层、第二转置卷积层、第四正则化层和第五激活层;所述循环神经网络层为长短期记忆网络。

4.根据权利要求1所述的方法,其特征在于,所述对所述降噪后的信号掩膜进行后处理,得到降噪音频,包括:

5.根据...

【专利技术属性】
技术研发人员:张仲思陈庆接柴彦冲姚培勇
申请(专利权)人:深圳市睿联技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1