一种谐波保留语音降噪模型的训练方法、语音增强方法技术

技术编号：42032799 阅读：19 留言：0更新日期：2024-07-16 23:20

本发明专利技术实施例涉及音频技术领域，尤其涉及一种谐波保留语音降噪模型的训练方法、语音增强方法及电子设备。获取纯净语音样本信号和基于纯净语音样本信号获得的带噪语音样本信号，分别进行分帧操作，获得纯净语音样本信号帧和带噪语音样本信号帧，基于纯净语音样本信号帧获得谐波信号掩蔽系数，对带噪语音样本信号帧进行特征提取，获得第一带噪语音特征并输入到预设的神经网络模型，获得预测信号掩蔽系数，利用损失函数计算纯净语音样本信号帧与谐波信号掩蔽系数的乘积、带噪语音样本信号帧与预测信号掩蔽系数的乘积之间的损失，根据损失，对神经网络模型进行迭代训练，直至收敛，得到谐波保留语音降噪模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及音频，尤其涉及一种谐波保留语音降噪模型的训练方法、语音增强方法及电子设备。

技术介绍

1、语音增强指的是通过音频处理和音频算法来减少语音信号的噪声和干扰，从而来提高语音的质量和可懂度的过程。语音增强在语音通话，视频会议，助听器，语音识别等领域都有广泛地应用。传统的语音增强方法基于一系列的假设，能够抑制平稳噪声，但不能有效地抑制非平稳噪声。

技术实现思路

1、本专利技术实施例主要解决的技术问题是提供一种谐波保留语音降噪模型的训练方法、语音增强方法及电子设备，该方法得到的语音信号能有效地降低谐波间的噪声，增强语音的质量。

2、为解决上述技术问题，第一方面，本申请实施例中提供了一种谐波保留语音降噪模型的训练方法，包括：

3、获取纯净语音样本信号，并基于所述纯净语音样本信号获得带噪语音样本信号；

4、分别对所述纯净语音样本信号和所述带噪语音样本信号进行分帧操作，获得纯净语音样本信号帧和带噪语音样本信号帧；

5、基于所述纯净语音样本信号帧获得谐波信号掩蔽系数；

6、对所述带噪语音样本信号帧进行特征提取，获得第一带噪语音特征；

7、将所述第一带噪语音特征输入到预设的神经网络模型，获得预测信号掩蔽系数；

8、利用损失函数计算所述纯净语音样本信号帧与所述谐波信号掩蔽系数的乘积、所述带噪语音样本信号帧与所述预测信号掩蔽系数的乘积之间的损失；

9、根据所述损失，对所述神经网络模型进行迭代

10、在一些实施例中，所述基于所述纯净语音样本信号获得带噪语音样本信号，包括：

11、将所述纯净语音样本信号与噪音样本以第一信噪比进行混合，获得所述带噪语音样本信号。

12、在一些实施例中，所述基于所述纯净语音样本信号帧获得谐波信号掩蔽系数，包括：

13、对所述纯净语音样本信号帧进行短时傅里叶变换，得到所述纯净语音样本信号帧的频谱；

14、通过基频检测算法检测获得所述纯净语音样本信号帧的基频。

15、基于所述纯净语音样本信号帧的频谱和所述基频获得所述谐波信号掩蔽系数。

16、在一些实施例中，所述对所述带噪语音样本信号帧进行特征提取，包括：

17、对所述带噪语音样本信号帧进行短时傅里叶变换得到所述带噪语音样本信号的频谱；

18、对所述带噪语音样本信号的频谱进行特征提取，获得所述第一带噪语音特征。

19、在一些实施例中，所述基于所述纯净语音样本信号帧的频谱和所述基频获得所述谐波信号掩蔽系数，包括：

20、若所述纯净语音样本信号帧的基频等于0，则令所述纯净语音样本信号帧的谐波信号掩蔽系数等于1；

21、若所述纯净语音样本信号帧的基频不等于0，且所述纯净语音样本信号帧的频谱存在谐波频点、所述谐波频点对应的频率小于谐波掩蔽作用的最大频率，则令所述纯净语音样本信号帧的谐波信号掩蔽系数等于1；

22、若所述纯净语音样本信号帧的基频不等于0，且所述纯净语音样本信号帧的频谱存在非谐波频点、所述非谐波频点对应的频率小于谐波掩蔽作用的最大频率，则令所述纯净语音样本信号帧的谐波信号掩蔽系数等于0；

23、若所述纯净语音样本信号帧的基频不等于0，且所述纯净语音样本信号帧的频谱频点对应的频率大于谐波掩蔽作用的最大频率，则令所述纯净语音样本信号帧的谐波信号掩蔽系数等于1。

24、在一些实施例中，若存在正整数能够满足则频点是谐波频点；

25、若不存在能够满足则频点是非谐波频点；

26、其中，fmax表示谐波掩蔽作用的最大频率，f0(l)表示纯净语音样本信号帧的基频，l表示帧数的索引，符号表示向下取整，k表示短时傅里叶变换后的频点索引，fk表示频点索引k对应的频率，fs为音频采样率，n表示短时傅里叶变换后的频点个数。

27、在一些实施例中，所述利用损失函数计算所述纯净语音样本信号帧与所述谐波信号掩蔽系数的乘积、所述带噪语音样本信号帧与所述预测信号掩蔽系数的乘积之间的损失，包括：

28、通过以下公式计算损失：

29、loss＝f[s(k,l)*mask(k,l),y(k,l)*output(k,l)]

30、其中，f表示损失函数，s(k,l)表示纯净语音样本信号帧的频谱，mask(k,l)表示谐波信号掩蔽系数，y(k,l)表示带噪语音样本信号帧的频谱，output(k,l)表示预测信号掩蔽系数，所述损失函数为均方误差或平均绝对误差。

31、为解决上述技术问题，第二方面，本专利技术实施例中提供了一种语音增强方法，包括：

32、获取待增强语音信号帧；

33、对所述待增强语音信号帧进行特征提取，获得第二带噪语音特征；

34、将所述第二带噪语音特征输入到谐波保留语音降噪模型，获得预测信号掩蔽系数；

35、将所述待增强语音信号帧和所述预测信号掩蔽系数相乘，获得预测语音增强信号帧；

36、将预测语音增强信号帧进行重叠相加，获得预测语音增强信号；

37、其中，所述谐波保留语音降噪模型是采用如上第一方面所述的训练谐波保留语音降噪模型的方法训练得到的。

38、为解决上述技术问题，第三方面，本专利技术实施例中提供了一种电子设备，包括：

39、至少一个处理器，以及

40、存储器，所述存储器与所述至少一个处理器通信连接，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上第一方面和第二方面所述的方法。

41、为解决上述技术问题，第四方面，本专利技术实施例中提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，当所述计算机可执行指令被至少一个处理器执行时，使所述至少一个处理器执行如上第一方面和第二方面所述的方法。

42、本专利技术实施例的有效效果：区别于现有技术的情况，本专利技术实施例提供的谐波保留语音降噪模型的训练方法，首先获取纯净语音样本信号和带噪语音样本信号，分别对纯净语音样本信号和带噪语音样本信号进行分帧操作获得纯净语音样本信号帧和带噪语音样本信号帧。然后，基于纯净语音样本信号帧获得谐波信号掩蔽系数，对带噪语音样本信号帧进行特征提取得到第一带噪语音特征，将第一带噪语音特征输入到预设的神经网络模型得到预测信号掩蔽系数。最后，利用损失函数计算纯净语音样本信号帧与谐波信号掩蔽系数的乘积、带噪语音样本信号帧与预测信号掩蔽系数的乘积之间的损失，根据该损失对神经网络模型进行迭代训练，直至收敛，得到谐波保留语音降噪模型。

43、通过谐波信号掩蔽系数将纯净语音样本信号中的非谐波部分去除，通过神经网络模型输出预测信号掩蔽系数，将带噪语音样本信号帧与预测信号掩蔽系数相乘得到预测语音信号，利用本文档来自技高网...

【技术保护点】

1.一种谐波保留语音降噪模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述纯净语音样本信号获得带噪语音样本信号，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述纯净语音样本信号帧获得谐波信号掩蔽系数，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述带噪语音样本信号帧进行特征提取，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述纯净语音样本信号帧的频谱和所述基频获得所述谐波信号掩蔽系数，包括：

6.根据权利要求5所述的方法，其特征在于，其中，

7.根据权利要求4所述的方法，其特征在于，所述利用损失函数计算所述纯净语音样本信号帧与所述谐波信号掩蔽系数的乘积、所述带噪语音样本信号帧与所述预测信号掩蔽系数的乘积之间的损失，包括：

8.一种语音增强方法，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种非易失性计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，

...

【技术特征摘要】

1.一种谐波保留语音降噪模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述纯净语音样本信号获得带噪语音样本信号，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述纯净语音样本信号帧获得谐波信号掩蔽系数，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述带噪语音样本信号帧进行特征提取，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述纯净语音样本信号帧的频谱和所述基频获得所述谐波信号掩蔽系数，包括：

6.根据权利要...

【专利技术属性】
技术研发人员：兰宇，阎张懿，
申请(专利权)人：深圳市中科蓝讯科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人