一种多通道语音信号增强方法技术

技术编号：43546898 阅读：18 留言：0更新日期：2024-12-03 12:28

一种多通道语音信号增强方法，它属于多通道语音增强技术领域。本发明专利技术解决了现有方法难以在保证语音增强效果的同时有效抑制背景噪声、降低计算资源的消耗，以及在面对复杂噪声环境、低信噪比环境时的泛化能力不足的问题。本发明专利技术首先通过瞬时能量判定出信号中的语音段和噪声段，再通过波束成形得到第一次增强后的语音信号，由于FusionRNNoise网络适用于噪声段信号增强，MCRA‑OMLSA方法适用于信号段信号增强，因此结合FusionRNNoise网络和MCRA‑OMLSA方法对第一次增强后的语音信号进行第二次增强，得到最终增强后的语音信号。本发明专利技术方法可以应用于多通道语音增强领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多通道语音增强，具体涉及一种多通道语音信号增强方法。

技术介绍

1、多通道语音增强技术在语音通信、语音识别等领域有着广泛的应用。然而，实现高效的多通道语音增强仍面临诸多挑战。首先，自适应性不足的问题在复杂的声学环境中尤为明显。噪声特性和房间脉冲响应可能会快速变化，现有方法往往难以及时适应这些变化，导致增强效果不稳定。例如，mvdr方法在噪声协方差矩阵估计不准确时，性能会显著下降。其次，现有方法在语音质量与噪声抑制的权衡上存在困难，难以在保持语音自然度和可懂度的同时有效抑制背景噪声。过度的噪声抑制可能导致语音失真，而不充分的噪声抑制则会影响语音质量。此外，多路径效应在室内环境中尤为突出，语音信号经过多个路径到达麦克风阵列会产生反射和混响，这些多路径效应会干扰波束形成的性能，降低语音增强的效果。

2、计算资源占用量往往限制了语音增强技术在大规模语音信息处理系统、嵌入式系统中的应用。大规模语音信息处理系统的计算资源虽多，但重点处理在于后续的语音内容分析、识别等环节，可用于语音增强这一预处理环节的计算资源是受限的。而嵌入式平台的处理器、内存和能源供应都有较大限制。这些因素限制了可使用的语音增强算法的复杂度和模型大小，需要在性能和计算资源消耗之间进行权衡。其次，泛化能力不足的问题同样需要关注，许多现有方法在特定噪声环境下表现良好，但面对未见过的噪声类型或声学环境时，性能可能会急剧下降。最后，频谱估计偏差在低信噪比条件下尤为明显，传统的频谱减法等方法容易产生频谱估计偏差，导致语音失真或产生音乐噪声。

技术实现思路

1、本专利技术的目的是为解决现有方法难以在保证语音增强效果的同时有效抑制背景噪声、降低计算资源的消耗，以及在面对复杂噪声环境、低信噪比环境时的泛化能力不足的问题，而提出了一种多通道语音信号增强方法。

2、本专利技术为解决上述技术问题所采取的技术方案是：一种多通道语音信号增强方法，所述方法具体包括以下步骤：

3、步骤一、对麦克风阵列采集的多通道语音信号进行分帧处理，再根据各帧语音信号的瞬时能量判定出信号中的语音段和噪声段；

4、步骤二、计算各通道语音信号的协方差矩阵rxx，基于协方差矩阵rxx以及步骤一的判定结果计算全局噪声协方差矩阵；

5、步骤三、根据全局噪声协方差矩阵计算权重矩阵w，根据权重矩阵w计算各频率点对应的权重，并对由各频率点对应的权重组成的权重向量进行归一化，得到归一化后的权重向量；

6、再对归一化后的权重向量进行稀疏化，得到稀疏化后的权重向量，再基于稀疏化后的权重向量进行波束成形，得到第一次增强后的语音信号；

7、步骤四、对第一次增强后的语音信号进行傅里叶变换后，得到第一次增强后的语音信号对应的频域信号，再根据步骤一中的判定结果，获得频域信号中的语音短和噪声段；

8、步骤五、采用fusionrnnoise网络对步骤四中获得的噪声段进行第二次增强，采用mcra-omlsa方法对步骤四中获得的语音短进行第二次增强，利用第二次增强后的噪声段和语音段组成最终增强后的语音信号。

9、进一步地，所述步骤一中，对麦克风阵列采集的多通道语音信号进行分帧处理，再根据各帧语音信号的瞬时能量判定出语音段和噪声段；具体为：

10、步骤一一、分别对各通道语音信号进行傅里叶变换，得到各通道对应的频域信号；

11、步骤一二、分别对每个通道的频域信号进行分段处理，利用各通道的第1段信号组成第1帧信号，利用各通道的第2段信号组成第2帧信号，同理，依次获得各帧信号；

12、步骤一三、分别计算每帧信号的瞬时能量，并将各帧信号的瞬时能量与阈值进行比较；

13、若当前帧信号的瞬时能量大于等于阈值，则当前帧信号为语音段信号；

14、若当前帧信号的瞬时能量小于阈值，则当前帧信号为噪声段信号。

15、进一步地，所述分别计算每帧信号的瞬时能量，具体为：

16、以任意一帧信号为例：

17、

18、其中，en表示当前帧信号中包含的第n个通道的信号瞬时能量，xn(m)表示当前帧信号中包含的第n个通道的第m个采样点的值，|·|代表取绝对值，m表示当前帧信号中每个通道内的总采样点数；

19、则当前帧信号的瞬时能量为：

20、

21、其中，n是麦克风阵列采集语音信号的总通道数。

22、进一步地，所述各通道语音信号的协方差矩阵rxx为：

23、

24、其中，yn是第n个通道对应的频域信号，ynh是yn的转置。

25、进一步地，所述基于协方差矩阵rxx以及步骤一的判定结果计算全局噪声协方差矩阵，采用的是自适应滤波方法。

26、进一步地，所述根据全局噪声协方差矩阵计算权重矩阵w，具体为：

27、

28、其中，rnn是全局噪声协方差矩阵，上角标-1代表矩阵的逆，ps为导向矢量。

29、进一步地，所述根据权重矩阵w计算各频率点对应的权重，具体为：

30、计算第i个频率点的l1范数：

31、

32、其中，wn,i是权重矩阵w中第n行第i列的元素，wn,i为复数，||xi||是第i个频率点的l1范数；

33、将第i个频率点的l1范数作为第i个频率点对应的权重。

34、进一步地，所述对归一化后的权重向量进行稀疏化，得到稀疏化后的权重向量；具体为：

35、对于归一化后的权重向量中的第i个元素wi′，将wi′的实部的系数记为a，将wi′的虚部的系数记为b，再计算的值；

36、若的值大于正则化参数λ，则将的值与缩减因子相乘，将相乘结果作为稀疏化后权重向量中的第i个元素，若的值小于等于正则化参数λ，则将稀疏化后权重向量中的第i个元素置为0；

37、同理，对归一化后权重向量中的每个元素分别进行处理，得到稀疏化后的权重向量。

38、进一步地，所述fusionrnnoise网络的工作过程为：

39、步骤五一、利用fusionrnnoise网络的全带频谱特征提取模块对全带频谱特征h0进行提取，再基于全带频谱特征h0和子带频谱特征提取模块对子带频谱特征h1进行提取；

40、步骤五二、利用空间融合模块对全带频谱特征h0和子带频谱特征h1进行融合，再将融合结果依次经过第一gru单元、第二gru单元和linear层，通过linear层输出增强信号。

41、更进一步地，所述空间融合模块的工作过程为：

42、对全带频谱特征h0和本文档来自技高网...

【技术保护点】

1.一种多通道语音信号增强方法，其特征在于，所述方法具体包括以下步骤：

2.根据权利要求1所述的一种多通道语音信号增强方法，其特征在于，所述步骤一中，对麦克风阵列采集的多通道语音信号进行分帧处理，再根据各帧语音信号的瞬时能量判定出语音段和噪声段；具体为：

3.根据权利要求2所述的一种多通道语音信号增强方法，其特征在于，所述分别计算每帧信号的瞬时能量，具体为：

4.根据权利要求2所述的一种多通道语音信号增强方法，其特征在于，所述各通道语音信号的协方差矩阵Rxx为：

5.根据权利要求1所述的一种多通道语音信号增强方法，其特征在于，所述基于协方差矩阵Rxx以及步骤一的判定结果计算全局噪声协方差矩阵，采用的是自适应滤波方法。

6.根据权利要求1所述的一种多通道语音信号增强方法，其特征在于，所述根据全局噪声协方差矩阵计算权重矩阵w，具体为：

7.根据权利要求6所述的一种多通道语音信号增强方法，其特征在于，所述根据权重矩阵w计算各频率点对应的权重，具体为：

8.根据权利要求7所述的一种多通道语音信号增强方法，

9.根据权利要求1所述的一种多通道语音信号增强方法，其特征在于，所述FusionRNNoise网络的工作过程为：

10.根据权利要求9所述的一种多通道语音信号增强方法，其特征在于，所述空间融合模块的工作过程为：

...

【技术特征摘要】

1.一种多通道语音信号增强方法，其特征在于，所述方法具体包括以下步骤：

3.根据权利要求2所述的一种多通道语音信号增强方法，其特征在于，所述分别计算每帧信号的瞬时能量，具体为：

4.根据权利要求2所述的一种多通道语音信号增强方法，其特征在于，所述各通道语音信号的协方差矩阵rxx为：

5.根据权利要求1所述的一种多通道语音信号增强方法，其特征在于，所述基于协方差矩阵rxx以及步骤一的判定结果计算全局噪声协方差矩阵，采用的是...

【专利技术属性】
技术研发人员：靳国庆，王睿哲，郑贵滨，
申请(专利权)人：人民网股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人