一种基于麦克风阵列波束形成的语音增强方法技术

技术编号：41399536 阅读：7 留言：0更新日期：2024-05-20 19:24

本发明专利技术公开了一种基于麦克风阵列波束形成的语音增强方法，该方法对麦克风阵列采集的语音信号进行分帧，然后加汉宁窗并进行短时傅里叶变换，通过语音活动检测计算无话段自相关函数Rn，语音段的自相关函数Rx，通过对Rn和Rx的特征值分解估算出目标语音的自相关函数Rs，再求Rs的对角矩阵得到导向矢量a(θ)，将所求的a(θ)代入MVDR的权系数对含干扰噪声的语音进行初步的语音增强，然后通过后置的维纳滤波器对语音信号残留噪声进一步滤波，输出增强降噪后的语音。本发明专利技术使用了广义特征值分解(Generalized Eigenvalue Decomposition，GEVD)来求导向矢量，提高了导向矢量求解的效率和准确性，同时降低其计算复杂度，从而更好地满足实时性的要求，对紧邻目标声音的干扰音有很好的抑制效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于麦克风阵列波束形成的语音增强方法，是一种基于广义特征值分解(generalized eigenvalue decomposition，gevd)来求导向矢量更新波束形成器的权系数，同时后置维纳滤波来滤除残留噪声进一步提升降噪效果，属于语音信号处理。

技术介绍

1、现阶段，我国通信技术的发展速度在不断加快，基于各种通信技术的通信设备种类繁多，如智能手机、有线电话、对讲机等。但一些煤矿井下、大型储油罐内部、户外地下溶洞救援等极端环境中对通信设备的安全性要求极为严格，普通的通信设备并不能满足这种极端环境下的通信需求。目前也出现了一些将现有通信系统进行安全性改造的产品，这些产品符合本质安全型的要求，价格昂贵，功耗大，可以被部署在大型施工现场，但对施工场地狭窄、经常流动作业的场景，这些改造过的本质安全型通信产品并不能满足要求。

2、满足上述应用场景的通信系统被称为极端环境通信系统。

3、极端环境通信系统中终端环境的干扰音位置紧邻目标声音，且干扰音频率与目标语音频率高度重合，常规的滤波手段已经失效。麦克风阵列波束成形技术属于空域滤波技术,作为一种有效的语音信号处理手段,可以根据通信环境状况,不断地调整权重矢量,以达到增强期望语音信号、抑制干扰的目的。

4、当前常用的最优波束形成器是最小方差无失真响应(minimum variancedistortionless response,mvdr)波束形成器，但是在实际应用过程中由于求解导向矢量误差而造成波束形成器输出信噪比会大幅下降。>

5、原因之一是在语音增强过程中对导向矢量求解的依赖性，现有的声源定位算法求解声源方位，从而求出导向矢量，更新波束成形器的权系数来提高降噪效果。但是在提供声源定位的同时求解导向矢量，常常面临着复杂计算和实时性能方面的挑战。

6、其次，使用现有的自适应特征值分解算法求导向矢量，存在求解收敛速度慢,时延估计精度较差等问题，导致降噪效果并不理想。

技术实现思路

1、本专利技术目的在于针对上述现有技术的缺陷和不足，提出了一种基于麦克风阵列波束形成的语音增强方法，该方法通过使用广义特征值分解(generalized eigenvaluedecomposition，gevd)来求导向矢量，提高了导向矢量求解的效率和准确性，同时降低其计算复杂度，从而更好地满足实时性的要求，该方法能够抑制环境噪声、提高语音信号质量以及实现更可靠的语音通信系统。

2、本专利技术为解决其技术问题所采用的技术方案是：一种基于麦克风阵列波束形成的语音增强方法，该方法包括对麦克风阵列采集的语音信号进行分帧，然后加汉宁窗并进行短时傅里叶变换，接着对语音分帧，然后进行加窗和快速傅里叶变换(fast fouriertransform，fft)，通过语音活动检测(voice activity detection，vad)计算无话段自相关函数rn，语音段的自相关函数rx，通过对rn和rx的特征值分解估算出目标语音的自相关函数rs，再求rs的对角矩阵得到导向矢量a(θ)，将所求的a(θ)代入mvdr的权系数对含有干扰噪声的语音进行初步的语音增强，通过无话段求出干扰噪声的平均功率谱，有话段引入平滑参数求出先验信噪比，结合干扰噪声的平均功率谱，进而更新维纳滤波器的传递函数，然后通过后置的维纳滤波器对语音信号残留噪声进一步滤波，最后输出增强降噪后的语音。

3、进一步地，所述该方法包括：

4、语音信号采集和预处理得到语音的原始信号，在时域上麦克风阵列语音信号的模型如下式：

5、xm(t)＝am(θ)*sm(t)+nm(t) 式1

6、其中，xm(t)是第m个麦克风接收的信号，其中m＝1,2，......，m，am(θ)是不同频率的信号源到麦克风通道的频率响应，也被称为导向矢量函数，s(t)是麦克风接收到的不含导向矢量的语音信号，nm(t)是该通道上的叠加噪声，包括干扰噪声，先对麦克风阵列采集的原始信号进行分帧，再加窗进行短时傅里叶变换，将式1变换得到频域的表达式：

7、x(k，f)＝∑mam(θ)sm(k，f)+nm(k，f) 式2

8、式2中，x表示麦克风接收到的语音信号，i表示第i个麦克风，k表示第k个频带，f表示第f帧，a表示导向矢量，s表示目标声源，n表示干扰噪声；

9、每一帧语音通过mvdr波束成形器输出，可以表示为：

10、

11、则波束的输出信号功率表示为：

12、

13、其中，rx(k，f)＝e[x(k，f)xh(k，f)]为系统接收信号的相关矩阵，要得到最优的权值向量w(k,f)，就要满足一定的线性约束条件，使输出功率最小，从式3可以看出，如果wh(k，f)a(θ)＝1，则滤波过程没有使s(k,f)的功率改变，在这一约束下可以将mvdr描述为：

14、

15、这个描述可以理解为，保持目标信号的输出功率不变，但总的输出功率要最小，既然目标信号的功率没有变化，那么只有其他干扰得到抑制以后才可以使总输出功率变小；

16、对于式5中的权向量w求取，可以使用拉格朗日乘子法，构造代价函数j(k)：

17、

18、由式6，以权向量w为变量求代价函数j(k)的梯度并令其等于0，即：

19、

20、可以解得：

21、

22、两端取共轭转置(h)，并且注意将约束条件wh(k，f)a(θ)＝1，可以得到：

23、

24、根据式9，可解得权向量为：

25、

26、求出波束成形器的权向量后，即将式10：结果代入式3：y(k，f)＝wh(k，f)x(k，f)＝wh(k，f)a(θ)s(k，f)+wh(k，f)n(k，f)，获得经波束成形器处理的语音信号，simmer最先推导出了多通道维纳的解，进一步证明其解的形式可以被化简为mvdr与维纳滤波的乘积，可看做mvdr波束形成输出后面级联一个单通道维纳，并以此提出了后置滤波的概念，即一种波束形成级联单通道算法的语音增强结构，本专利技术通过添加语音活动检测出无话段，求出干扰噪声的平均功率谱，有话段引入平滑参数求出先验信噪比，结合干扰噪声的平均功率谱求出维纳滤波器传递函数h(k,f)。

27、结合式3，所述该方法还包括后置维纳滤波器模块传递函数求解方法，mvdr输出y(k,f)，在经过维纳滤波器后输出在f帧的第k个频点的估计值为表示为：

28、

29、其中维纳滤波器传递函数h(k,f)表示为：

30、

31、其中，psy(k，f)表示目标语音与维纳滤波器输出的语音的互功率谱密度，py(k，f)表示维纳滤波器输出的功率谱密度，pn(k，f)为干扰噪声的功率谱密度，λs(k，f)为目标语音的平均功率谱，λn(k，f)为噪声的平均功率谱，可由语音活动检测出无话帧本文档来自技高网...

【技术保护点】

1.一种基于麦克风阵列波束形成的语音增强方法，其特征在于，包括：对麦克风阵列采集的语音信号进行分帧，然后加汉宁窗并进行短时傅里叶变换，通过语音活动检测计算无话段自相关函数Rn，语音段的自相关函数Rx，通过对Rn和Rx的特征值分解估算出目标语音的自相关函数Rs，再求Rs的对角矩阵得到导向矢量a(θ)，将所求的a(θ)代入MVDR的权系数对含干扰噪声的语音进行初步的语音增强，然后通过后置的维纳滤波器对语音信号残留噪声进一步滤波，输出增强降噪后的语音。

2.根据权利要求1所述的一种基于麦克风阵列波束形成的语音增强方法，其特征在于，所述该方法包括MVDR波束成形模块导向矢量求解方法，先求出有话段和无话段的自相关函数估算出目标语音的自相关函数Rs，对估算出的Rs做广义特征值分解求出导向矢量，所述导向矢量求解方法具体包括如下步骤：

3.根据权利要求1所述的一种基于麦克风阵列波束形成的语音增强方法，其特征在于，所述该方法包括后置维纳滤波器模块传递函数求解方法，MVDR输出Y(k，f)，在经过维纳滤波器后输出在f帧的第k个频点的估计值为

【技术特征摘要】

1.一种基于麦克风阵列波束形成的语音增强方法，其特征在于，包括：对麦克风阵列采集的语音信号进行分帧，然后加汉宁窗并进行短时傅里叶变换，通过语音活动检测计算无话段自相关函数rn，语音段的自相关函数rx，通过对rn和rx的特征值分解估算出目标语音的自相关函数rs，再求rs的对角矩阵得到导向矢量a(θ)，将所求的a(θ)代入mvdr的权系数对含干扰噪声的语音进行初步的语音增强，然后通过后置的维纳滤波器对语音信号残留噪声进一步滤波，输出增强降噪后的语音。

2.根据权利要求...

【专利技术属性】
技术研发人员：曾桂根，赵威，卢敏，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人