一种抑制包含语音和噪声的信号中的噪声、以便提供噪声被抑制的语音信号的方法。对于噪声进行估值和对于语音连同某些噪声进行估值。被包括在语音连同某些噪声的估值中的噪声电平是可变的,以便把想要的噪声量包括在噪声被抑制的信号中。(*该技术在2020年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及噪声抑制,以及具体地(但不唯一地)涉及对移动终端获取的语音信号中的噪声抑制。当通信终端被使用来记录或发送包含语言的语音信号时,不可避免的是,通信终端中的话筒将从讲话人所位于的周围环境中拾取环境噪声或背景噪声。背景噪声降低收听者听见和理解语音的能力,以及在某些情形下,如果噪声电平足够高,它将阻止收听者听见除了背景噪声以外的任何其它声音。另外,这样的背景噪声对于通信终端中或相关的通信网络中的数字信号处理系统(诸如语音编码或语音识别)的性能可能具有负面影响。典型地,在通信终端中引入噪声抑制系统来限制背景噪声的影响。多年来,噪声抑制是熟知的。已经提出了许多不同的方法来达到三个主要目的(i)抑制噪声而同时保留良好的语音质量;(ii)与处理的噪声性质无关地快速收敛到最优解决方案;以及(iii)改进对于非常低的语音-噪声比(SNR)时语音的可理解度。一种基于线性最小平均平方误差(MMSE)准则的噪声抑制方法将参照附图说明图1进行描述。该方法作用在包含语音信号s(t)和噪声信号n(t)的带有噪声的语音信号x(t)上,x(t)=s(t)+n(t)。带有噪声的语音信号x(t)是在时域中的。通过使用窗函数,把它变换成具有接连的帧号码k的一系列帧。然后,在方块10中,通过使用快速富立叶变换(FFT)把每个帧变换到频域,以便产生一系列带有噪声的语音帧,其中在频域中带有噪声的语音信号X(f,k)包含语音信号S(f,k)和噪声信号N(f,k),这样,X(f,k)=S(f,k)+N(f,k)。在频域中的帧包括多个频率仓(frequency bin)f。在频域中,MMSE方法包括使得以下的误差函数最小化ε2(f,k)=E{(S(f,k)-(f,k))·(S(f,k)-(f,k)*}(1)其中E{·}是预期算子,(*)表示复数共轭,以及(f,k)代表输入语音信号的线性估值。误差ε2(f,k),由公式1定义,代表在被包含在带有噪声的语音信号内的真正的语音分量与该语音分量的估值(f,k)(即,无噪声的语音分量)之间差值的平方。因此,使得ε2(f,k)最小化,就等价于得到语音分量的最好的可能的估值。(f,k)被给出为(f,k)=G(f,k)·X(f,k) (2)其中G(f,k)是增益系数。对于使得每个帧的ε2(f,k)最小化的相应的解,可以采取计算增益系数G(f,k)的形式,把G(f,k)与该帧的相关的输入频率仓相乘,以便产生估值的无噪声语音分量(f,k)。这个增益系数(被称为频域Wiener(维纳)滤波器)由以下的比值给出G(f,k)=E{S(f,k)·X*(f,k)}E{X(f,k)·X*(f,k)}---(3)]]>Wiener滤波器G(f,k)是对于每个帧的每个频率仓f生成的。噪声被抑制的帧然后在方块14中被变换回时域,然后被组合在一起,以便给出噪声被抑制的语音信号(t)。理想地,(t)=s(t)。当导出Wiener滤波器时,MMSE方法等价于正交性原理。这个原理规定对于每个频率,输入信号X(f,k)正交于误差S(f,k)-(f,k)。这意味着E{(S(f,k)-(f,k))·X*(f,k)}=0 (4)因为估值处理是线性的,通过估值带有噪声的信号(它包含信号分量和噪声分量)的信号分量,噪声的估值 (f,k)也被有效地得到。而且,以下的正交性关系也将是正确的E{(N(f,k)-N^(f,k))·X*(f,k)}=0---(5)]]>其中 (f,k)表示噪声估值。由此也得出,对于每个频率,有以下的等式S(f,k)-S^(f,k)=N^(f,k)-N(f,k)---(6)]]>也就是,与噪声分量的估值 (f,k)有关的误差是和与估值的无噪声语音分量(f,k)有关的误差相同的。在本文件的其余部分,采用以下的表示法PUV(f,k)是在U(f,k)和V(f,k)之间的交叉功率谱密度(PUV(f,k)=E{U(f,k)·V*(f,k)})。PUU(f,k)是U(f,k) 的功率谱密度(psd),(PUU(f,k)=E{U(f,k)·U*(f,k)})。由于上述的正交性原理的结果,有可能得出对于交叉psd PSX(f,k)的表示式,它是对于计算由公式3描述的Wiener滤波器所需要的PSX(f,k)=E{(X(f,k)-N^(f,k))·X*(f,k)}---(7)]]>而且,交叉psd PNX(f,k)被给出为PNX(f,k)=E{(X(f,k)-(f,k))·X*(f,k)}(8)在记住明显的等式PXX(f,k)=PSX(f,k)+PNX(f,k)后,公式3,6,7和8引出和显示自适应计算的概念,因为公式3中的Wiener滤波器(PSX(f,k)/PXX(f,k))取决于估值的信号(f,k)(6,7)和(8)。当得到最小值时,描述公式2中的误差的表示式取以下的形式ϵmin2(f,k)=PSS(f,k)·PXX(f,k)-|PSX(f,k)|2PXX(f,k)---(9)]]>显然,最小误差(即εmin2(f,k))只有在想要的信号S(f,k)完全与输入信号X(f,k)相干时才等于零(即,PNN(f,k)趋近于零)。这是希望的。否则,当应用Wiener滤波器时有一个误差。这个误差的上限是PSS(f,k)。这是不希望的。换句话说,无误差结果只有在输入信号X(f,k)中实际上无噪声时才得到。对于任何有限的噪声电平,得到有限的误差。由此得出,当在X(f,k)中没有语音信号S(f,k)时出现最坏情形的误差。按照本专利技术的第一方面,提供一种在包含噪声的信号中抑制噪声以便提供噪声被抑制的信号的方法,其中对噪声作出估值,以及对语音连同某些噪声一起作出估值。优选地,所述信号包括语音。优选地,在语音连同某些噪声一起的估值中包括的噪声电平是可变的,以便把想要的噪声量包括在噪声被抑制的信号中。噪声电平提供可接受的前后关系信息(contexti nformation)。优选地,噪声电平低于语音的掩蔽极限,因此对于收听者是听不见的。替换地,噪声电平接近于语音的掩蔽极限,因此某些噪声前后关系信息被保留在信号中。优选地,如果信号噪声比足够高,以使得噪声电平已提供可接受的前后关系信息电平或已低于掩蔽极限,则本方法并不抑制噪声。优选地,估值的噪声是功率谱密度。按照本专利技术的第二方面,提供一种生成用于噪声抑制的增益系数的方法,其中增益系数的第一估值自适应地产生,以及这个第一估值被使用来生成噪声估值,然后使用该噪声估值来生成增益函数的第二估值。在这个方面,本专利技术提供了重要的优点。它有效地消除在按照本专利技术实施的噪声抑制器中对于话音活动性检测器(VAD)的需要。VAD基本上是一个能量检测器。它接收带有噪声的信号,把已滤波的信号的能量与预定的门限值进行比较,以及当门限值被超过时它表示在接收信号中存在语音。在许多语音编码/译码系统中,特别是在移动电信领域,VAD的运行可以改变处理语音信号中的背景噪声的方式。具体地,在没有检测到语音的时间间隔期本文档来自技高网...
【技术保护点】
一种抑制在含有噪声的信号中的噪声以便提供噪声被抑制的信号的方法,其中对噪声进行估值,和对语音连同某些噪声一起进行估值。
【技术特征摘要】
FI 1999-11-15 199924531.一种抑制在含有噪声的信号中的噪声以便提供噪声被抑制的信号的方法,其中对噪声进行估值,和对语音连同某些噪声一起进行估值。2.按照权利要求1的方法,其中信号包括语音。3.按照权利要求1或权利要求2的方法,其中被包括在语音连同某些噪声一起的估值中的噪声电平是可变的,从而可把想要的噪声量包括在噪声被抑制的信号中。4.按照权利要求3的方法,其中噪声电平提供可接受的前后关系信息量。5.按照任何前述...
【专利技术属性】
技术研发人员:B阿亚德,
申请(专利权)人:诺基亚有限公司,
类型:发明
国别省市:FI[芬兰]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。