System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数字信号处理及深度学习,尤其涉及一种语音增强模型的训练及语音增强方法、装置、设备及介质。
技术介绍
1、在音频处理领域,语音增强技术是一个至关重要的研究方向,它旨在从被噪声污染的语音信号中恢复出清晰、高质量的语音。这种技术在语音识别、语音通信、助听器设计以及音频编辑等多个应用场景中具有广泛的应用价值。然而,传统的语音增强方法往往依赖于复杂的信号处理算法或统计模型,这些方法在处理复杂多变的噪声环境时,效果往往不尽如人意,难以保证恢复语音的自然度和可懂度。
2、近年来,随着深度学习技术的快速发展,基于神经网络的语音增强模型逐渐成为研究热点。这些模型通过自动学习噪声与干净语音之间的映射关系,能够在复杂的噪声环境中实现更有效的语音恢复。然而,人耳对语音信号的频率响应具有显著的差异,例如,人耳能够感知的声音频率范围从20hz到20khz,但不同频段的声音对人耳的感受并不相同。例如,低频段(如20hz-60hz)的声音给人以强烈的震撼感,而中频段(如250hz-4khz)则主要影响声音的清晰度和音色。现有的许多语音增强模型在处理语音信号时,往往没有充分考虑人耳对不同频率语音的敏感度差异,无法准确反映人耳对语音信号的真实感受,导致最后得到的语音增强结果的听感非常差。
技术实现思路
1、本申请提供了一种语音增强模型的训练及语音增强方法、装置、设备及介质,用于解决现有的语音增强模型没有充分考虑人耳对不同频率语音的敏感度差异,无法准确反映人耳对语音信号的真实感受,导致最后得到的语
2、第一方面,本申请提供了一种语音增强模型的训练方法,所述方法包括:
3、基于干净语音信号集中的任一干净语音信号以及噪声信号集中包括的至少一条噪声信号,确定样本语音信号;
4、通过原始语音增强模型,基于所述样本语音信号,获取预测语音特征;
5、通过c幂次压缩的等响曲线,分别对所述预测语音特征以及所述干净语音信号的理想语音特征进行调整,以得到调整后的预测语音特征以及调整后的理想语音特征;其中,c大于0且小于1;
6、通过与时域相关的损失函数,基于所述调整后的预测语音特征以及所述调整后的理想语音特征,确定所述样本语音信号对应的损失值;
7、基于所述损失值,对所述原始语音增强模型进行训练,以得到训练完成的语音增强模型。
8、第二方面,本申请还提供了一种基于上述所述语音增强模型的语音增强方法,所述方法包括:
9、获取含噪语音信号;
10、通过预先训练的语音增强模型,基于所述含噪语音信号,获取预测干净语音。
11、第三方面,本申请还提供了一种语音增强模型的训练装置,所述装置包括:
12、获取单元,用于基于干净语音信号集中的任一干净语音信号以及噪声信号集中包括的至少一条噪声信号,确定样本语音信号;
13、第一处理单元,用于通过原始语音增强模型,基于所述样本语音信号,获取预测语音特征;
14、第二处理单元,用于通过c幂次压缩的等响曲线,分别对所述预测语音特征以及所述干净语音信号的理想语音特征进行调整,以得到调整后的预测语音特征以及调整后的理想语音特征;其中,c大于0且小于1;
15、第三处理单元,用于通过与时域相关的损失函数,基于所述调整后的预测语音特征以及所述调整后的理想语音特征,确定所述样本语音信号对应的损失值;
16、训练单元,用于基于所述损失值,对所述原始语音增强模型进行训练,以得到训练完成的语音增强模型。
17、第四方面,本申请还提供了一种基于上述所述模型的语音增强装置,所述装置包括:
18、获取模块,用于获取含噪语音信号;
19、处理模块,用于通过预先训练的语音增强模型,基于所述含噪语音信号,获取预测干净语音。
20、第五方面,本申请提供了一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述所述语音增强模型的训练方法的步骤,或,实现如上述所述语音增强方法的步骤。
21、第六方面,本申请提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述语音增强模型的训练方法的步骤,或,实现如上述所述语音增强方法的步骤。
22、本申请的有益效果如下:
23、1、通过等响曲线和c幂次压缩(其中c大于0且小于1),对预测语音特征和理想语音特征进行非线性调整。这种调整方法考虑了人耳对不同频率声音的感知差异,克服低频权值过小而影响低频噪声抑制的问题,对权系数做了幂次压缩,保持等响曲线形态,但压缩了动态范围,使得模型在降噪或增强的过程中更能符合人耳的听觉习惯。
24、2、采用与时域相关的损失函数,计算调整后的预测语音特征与理想语音特征之间的差异,实现了对每一频带和每一语音帧进行精细的特征差异计算和损失值计算,量化了模型的预测性能,并用于指导模型的训练过程,确保模型在降噪或增强过程中对不同频带和语音帧都有更加精准的控制和调整,从而提高整体的语音处理效果。
本文档来自技高网...【技术保护点】
1.一种语音增强模型的训练方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,若语音特征包括所述预测语音特征以及所述理想语音特征,则所述语音特征为频谱特征或时域特征。
3.如权利要求2所述的方法,其特征在于,若所述语音特征为频谱特征,所述通过与时域相关的损失函数,基于所述调整后的预测语音特征以及所述调整后的理想语音特征,确定所述样本语音信号对应的损失值,包括:
4.如权利要求3所述的方法,其特征在于,通过与时域相关的损失函数,基于所述调整后的预测时域特征以及所述调整后的理想时域特征,确定所述样本语音信号对应的损失值,包括:
5.如权利要求3所述的方法,其特征在于,通过与时域相关的损失函数,基于所述调整后的预测时域特征以及所述调整后的理想时域特征,确定所述样本语音信号对应的损失值,包括:
6.一种基于权利要求1-5任一所述语音增强模型的语音增强方法,其特征在于,所述方法包括:
7.一种语音增强模型的训练装置,其特征在于,所述装置包括:
8.一种基于权利要求1-5任一所述模型的语
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述权利要求1-5任一所述语音增强模型的训练方法的步骤,或,实现如上述权利要求6所述语音增强方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行如上述权利要求1-5任一所述语音增强模型的训练方法的步骤,或,实现如上述权利要求6所述语音增强方法的步骤。
...【技术特征摘要】
1.一种语音增强模型的训练方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,若语音特征包括所述预测语音特征以及所述理想语音特征,则所述语音特征为频谱特征或时域特征。
3.如权利要求2所述的方法,其特征在于,若所述语音特征为频谱特征,所述通过与时域相关的损失函数,基于所述调整后的预测语音特征以及所述调整后的理想语音特征,确定所述样本语音信号对应的损失值,包括:
4.如权利要求3所述的方法,其特征在于,通过与时域相关的损失函数,基于所述调整后的预测时域特征以及所述调整后的理想时域特征,确定所述样本语音信号对应的损失值,包括:
5.如权利要求3所述的方法,其特征在于,通过与时域相关的损失函数,基于所述调整后的预测时域特征以及所述调整后的理想时域特征,确定所述样本语音信号对应的损失值,...
【专利技术属性】
技术研发人员:关海欣,王光勇,谭小彬,梁家恩,
申请(专利权)人:云知声智能科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。