一种多通道远场语音增强方法技术

技术编号:23988058 阅读:25 留言:0更新日期:2020-04-29 14:33
本发明专利技术公开了一种多通道远场语音增强方法,包括:对多通道远场语音时域信号处理得到多通道远场语音频域信号,再通过加权预测误差算法处理得到抑制晚期混响后的多通道远场语音频域信号并估计出干扰;使用干扰协方差矩阵和抑制晚期混响后的多通道远场语音频域信号,通过协方差白化的方法计算相对早期传输函数作为导向矢量;利用干扰协方差矩阵和导向矢量对抑制晚期混响后的多通道远场语音频域信号依次进行最小方差无失真响应波束形成处理和单通道维纳滤波处理得到单通道语音频域信号,在其为单通道目标语音频域信号时进行逆傅里叶变换,得到目标语音时域信号。本方法可以同时有效抑制远场语音中的噪声和混响的干扰并保持目标声源的完整。

A multi-channel far-field speech enhancement method

【技术实现步骤摘要】
一种多通道远场语音增强方法
本专利技术涉及语音增强
,尤其涉及一种多通道远场语音增强方法。
技术介绍
目前,语音增强技术主要是去除语音信号中噪声以及混响的干扰,提高语音识别系统的性能。在以多通道语音为输入的增强技术中,通过利用时频域中语音和噪声的不同特性可以抑制噪声,利用通道间目标语音的空间信息可以抑制混响。在远场环境噪声和混响同时存在的情况下,大多数传统的以多通道为输入的语音增强方法无法提供较好的噪声和混响抑制效果,对于两者同时存在的环境情况没有特殊处理,并且距离较远的远场环境处理效果欠佳。
技术实现思路
本专利技术的目的是为了克服上述技术问题,提供一种多通道远场语音增强方法,该多通道远场语音增强方法能够同时有效地抑制噪声和混响,并且能够完整地保留目标信号,从而提高了目标信号的清晰度、可懂度和舒适度。为达到上述目的,本专利技术提供一种多通道远场语音增强方法,所述多通道远场语音增强方法包括:对多通道远场语音时域信号分别进行处理得到多通道远场语音频域信号,其中,所述多通道远场语音时域信号为受到噪声和混响干扰的语音信号且每个通道中均包含待增强的目标语音时域信号;将所述多通道远场语音频域信号通过加权预测误差算法进行处理,得到抑制晚期混响后的多通道远场语音频域信号,并利用加权预测误差解混响算法估计出干扰,计算干扰协方差矩阵;使用所述干扰协方差矩阵和所述抑制晚期混响后的多通道远场语音频域信号,通过协方差白化的方法计算相对早期传输函数作为导向矢量;利用所述干扰协方差矩阵和所述导向矢量对所述抑制晚期混响后的多通道远场语音频域信号依次进行最小方差无失真响应波束形成处理和单通道维纳滤波处理,得到单通道语音频域信号;在所述单通道语音频域信号为单通道目标语音频域信号时,对所述单通道目标语音频域信号进行逆傅里叶变换,得到目标语音时域信号。在一些实施例中,所述单通道语音频域信号为受到噪声和/或混响干扰的语音信号,所述多通道远场语音增强方法还包括:将所述单通道语音频域信号的功率更新到所述加权预测误差算法,将所述多通道远场语音频域信号通过更新的所述加权预测误差算法进行处理,得到更新的所述抑制晚期混响后的多通道远场语音频域信号;利用所述干扰协方差矩阵和所述导向矢量对更新的所述抑制晚期混响后的多通道远场语音频域信号依次进行所述最小方差无失真响应波束形成处理和所述单通道维纳滤波处理,得到所述单通道目标语音频域信号。在一些实施例中,所述多通道远场语音频域信号为:X(k,f)=ge(f)S(k,f)+R(k,f)+V(k,f),其中,k为语音帧,f为频点,ge(f)为相对早期传输函数,S(k,f)为声源频域信号,即目标语音频域信号;R(k,f)为晚期混响频域信号;V(k,f)为噪声频域信号。在一些实施例中,所述抑制晚期混响后的多通道远场语音频域信号为:其中,为加权预测误差算法滤波器,为当前帧之前长度为l的帧向量,D为最小预测时延;加权预测误差算法滤波器的代价函数为:求解代价函数得到所述加权预测误差算法滤波器通过滤波得到所述抑制晚期混响后的多通道远场语音频域信号Y(k,f)。在一些实施例中,将加权预测误差解混响算法中的加权预测误差滤波器和当前帧之前的帧向量的乘积作为干扰,即干扰为:则所述干扰协方差矩阵为:其中,E{}为随机变量的数学期望。在一些实施例中,所述相对早期传输函数为:其中,e1=[1,0,...,0];由所述干扰协方差矩阵估计得到;ψ(f)为矩阵进行Choleskey分解后得到的主特征向量,矩阵并且通过协方差白化得出在一些实施例中,所述最小方差无失真响应波束形成滤波器为:所述单通道维纳滤波器为:所述单通道语音频域信号为:在一些实施例中,所述单通道语音频域信号的功率谱为:在一些实施例中,对所述多通道远场语音时域信号进行处理包括:每次取1024个采样点作为一帧信号,若最后一次长度不足则先补零到1024个采样点;对每一帧信号进行加窗,加窗函数采用汉明窗;对每一帧信号进行傅里叶变换。在上述技术方案中,充分利用解混响算法和波束形成算法的特性,通过基于加权预测误差算法和波束形成算法的理论模型耦合,并通过增加前向反馈更新,达到对噪声和混响干扰的同时处理,进而更完整地保留目标信号,实现多通道远场语音的增强。其中,通过利用加权预测误差算法中的干扰协方差矩阵,减小波束形成过程中的计算量,提高导向矢量的准确性,使得系统的耦合度较高。本专利技术的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明为了更清楚说明本专利技术实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的多通道远场语音增强方法的流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的多通道远场语音增强方法的流程图。如图1所示,本专利技术提供一种多通道远场语音增强方法,所述多通道远场语音增强方法包括步骤S102:对多通道远场语音时域信号分别进行处理得到多通道远场语音频域信号,其中,所述多通道远场语音时域信号为受到噪声和混响干扰的语音信号且每个通道中均包含待增强的目标语音时域信号。具体地,在一些实施例中,对所述多通道远场语音时域信号进行处理包括:进行分帧,即每次取1024个采样点作为一帧信号,若最后一次长度不足则先补零到1024个采样点;进行加窗,即对每一帧信号进行加窗,加窗函数采用汉明窗;进行傅里叶变换,即对每一帧信号进行傅里叶变换。并且,在一些实施例中,所述多通道远场语音频域信号为:X(k,f)=ge(f)S(k,f)+R(k,f)+V(k,f),其中,k为语音帧,f为频点,ge(f)为相对早期传输函数,S(k,f)为声源频域信号,即目标语音频域信号;R(k,f)为晚期混响频域信号;V(k,f)为噪声频域信号。进一步地,所述多通道远场语音增强方法还包括步骤S104:将所述多通道远场语音频域信号通过加权预测误差算法进行处理,得到抑制晚期混响后的多通道远场语音频域信号,并利用加权预测误差解混响算法估计出干扰,计算干扰协方差矩阵。其中,在一些实施例中,所述抑制晚期混响后的多通道远场语音频域信号为:其中,为加权预测误差算法滤波器,为当前帧之前长度为l的帧向量,D为最小预测时延;加权预测误差算法滤波器的代价函数为:求解代价函数得到所述加权预测误差算法滤波器通过滤波得到所述抑制晚期混响后的多通道远场语音频域信号Y(k,f)。进一步地,在一些实施例中,将加权预测误差解混响算法中的加权预测误差滤波器和当前帧之前的帧向量本文档来自技高网...

【技术保护点】
1.一种多通道远场语音增强方法,其特征在于,所述多通道远场语音增强方法包括:/n对多通道远场语音时域信号分别进行处理得到多通道远场语音频域信号,其中,所述多通道远场语音时域信号为受到噪声和混响干扰的语音信号且每个通道中均包含待增强的目标语音时域信号;/n将所述多通道远场语音频域信号通过加权预测误差算法进行处理,得到抑制晚期混响后的多通道远场语音频域信号,并利用加权预测误差解混响算法估计出干扰,计算干扰协方差矩阵;/n使用所述干扰协方差矩阵和所述抑制晚期混响后的多通道远场语音频域信号,通过协方差白化的方法计算相对早期传输函数作为导向矢量;/n利用所述干扰协方差矩阵和所述导向矢量对所述抑制晚期混响后的多通道远场语音频域信号依次进行最小方差无失真响应波束形成处理和单通道维纳滤波处理,得到单通道语音频域信号;/n在所述单通道语音频域信号为单通道目标语音频域信号时,对所述单通道目标语音频域信号进行逆傅里叶变换,得到目标语音时域信号。/n

【技术特征摘要】
1.一种多通道远场语音增强方法,其特征在于,所述多通道远场语音增强方法包括:
对多通道远场语音时域信号分别进行处理得到多通道远场语音频域信号,其中,所述多通道远场语音时域信号为受到噪声和混响干扰的语音信号且每个通道中均包含待增强的目标语音时域信号;
将所述多通道远场语音频域信号通过加权预测误差算法进行处理,得到抑制晚期混响后的多通道远场语音频域信号,并利用加权预测误差解混响算法估计出干扰,计算干扰协方差矩阵;
使用所述干扰协方差矩阵和所述抑制晚期混响后的多通道远场语音频域信号,通过协方差白化的方法计算相对早期传输函数作为导向矢量;
利用所述干扰协方差矩阵和所述导向矢量对所述抑制晚期混响后的多通道远场语音频域信号依次进行最小方差无失真响应波束形成处理和单通道维纳滤波处理,得到单通道语音频域信号;
在所述单通道语音频域信号为单通道目标语音频域信号时,对所述单通道目标语音频域信号进行逆傅里叶变换,得到目标语音时域信号。


2.根据权利要求1所述的多通道远场语音增强方法,其特征在于,所述单通道语音频域信号为受到噪声和/或混响干扰的语音信号,所述多通道远场语音增强方法还包括:
将所述单通道语音频域信号的功率更新到所述加权预测误差算法,将所述多通道远场语音频域信号通过更新的所述加权预测误差算法进行处理,得到更新的所述抑制晚期混响后的多通道远场语音频域信号;
利用所述干扰协方差矩阵和所述导向矢量对更新的所述抑制晚期混响后的多通道远场语音频域信号依次进行所述最小方差无失真响应波束形成处理和所述单通道维纳滤波处理,得到所述单通道目标语音频域信号。


3.根据权利要求1所述的多通道远场语音增强方法,其特征在于,所述多通道远场语音频域信号为:
X(k,f)=ge(f)S(k,f)+R(k,f)+V(k,f),
其中,k为语音帧,f为频点,ge(f)为相对早期传输函数,S(k,f)为声源频域信号,即目标语音频域信号;R(k,f)...

【专利技术属性】
技术研发人员:李军锋宋思远颜永红
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1