一种有噪语音参数增强的方法,其特点是 从背景噪声采样值的第一个集合开始,以M个频率确定背景噪声的一个功率谱密度的估计,其中M是一个预先确定的正整数。 从背景噪声采样值的第二个集合估计P个自回归参数,以及第一个残余方差,其中P是一个预先确定的正整数且远小于M。 以上述的M个频率,从上述的P个自回归参数以及第一个残余方差中,确定有噪语音的一个功率谱密度的估计。 通过从上述有噪语音功率谱密度的估计中减去上述背景噪声的谱密度估计乘以一个预先确定正比例因子的乘积,确定增强的语音的一个功率谱密度的估计。 从上述增强的语音功率谱密度估计中,确定r个增强的自回归参数和一个增强的残余方差,其中r是一个预先确定的正整数。(*该技术在2017年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及一种对有噪语音进行参数增强的方法和装置,它们可被用于例如电话系统中的噪声抑制装置中。
技术介绍
信号处理中的一种常见的问题是从有噪声的测量值中对信号进行增强。例如,这种情况可以是在单麦克风电话系统,既可以是传统地电话也可以是蜂窝电话,增强语音的质量,其中的语音被有色噪声所削弱,比如在蜂窝电话系统中的汽车噪声。一种常见的噪声抑制方法是基于卡尔曼滤波的,因为这种方法可以处理有色噪声,并具有较好的数值复杂性。基于卡尔曼滤波的噪声抑制方法的主要参考文献是[1]。但是,卡尔曼滤波是一种基于模型的自适应方法,例如其中对语音和噪声都是按自回归(AR)过程来建立模型的。这样,卡尔曼滤波中的一个主要问题是滤波算法依赖于一套必须被估计出来的未知参数集。关于估计所包含参数的最重要的两个问题是(ⅰ)语音的自回归参数是从削弱的语音数据中估计出来的,(ⅱ)语音数据是非平稳的。这样,为了获得具有高听觉质量的卡尔曼滤波的输出,被估计参数的准确性和精确度就是至关重要的。 专利技术概要本专利技术的一个目标是提供一种改进的方法和装置,用于有噪语音参数的估计。这些增强了的语音参数可被用于对有噪语音进行卡尔曼滤波以抑制噪声。另外,增强了的语音也可被直接用于语音编码中的语音参数。上述目标是通过按照权利要求1的方法与按照权利要求11的装置来完成的。 附图简述本专利技术,通过结合附图一起参考下文描述,它与其他目标和优点可以在更大程度上被理解,其中附图说明图1是按照本专利技术的装置的方框图。图2是用于图1所示装置中的一种语音活动检测器(VAD)的状态图。图3是按照本专利技术方法的流程图。图4说明了有噪语音的功率谱密度(PSD)的基本特征。图5说明了背景噪声的一种简单的功率谱密度PSD。图6说明了从图4中的PSD减去图5所示的PSD后所导致的PSD。图7以一个损耗函数形式说明了通过本专利技术获得的改进。图8以一个损耗比率形式说明了通过本专利技术获得的改进。优选实施方案详述在语音信号处理中,输入语音经常被背景噪声所污染。例如,在免提汽车电话中,语音对背景噪声的比率可能低至0分贝,甚至更低。这么高的噪声电平严重地降低了通话的质量,不但由于高噪声电平本身,也由于当对有噪语音编码并通过一个数字通讯信道传送时产生的听觉赝象。为了减少这种听觉赝象,有时需要通过某种噪声抑制的方法,例如通过卡尔曼滤波[1]来对有噪的输入语音进行预处理。在某些噪声抑制方法中(例如卡尔曼滤波)自回归参数(AR)是非常有趣的。因此,对于这些方法,为了产生具有高听觉质量的增强语音输出,从有噪语音数据中精确地估计自回归参数是必须的。现在,将参考图1至6来描述这样一个有噪语音参数增强方法。图1中,从麦克风10得到一个连续模拟信号x(t)。信号x(t)被送入一个A/D转换器12。这个A/D转换器(并具有适当的数据缓冲)产生声音数据帧{x(k)}(包括语音,或包括背景噪声,也可以两者都包括)。一个声音帧在8000Hz的采样率下,通常包含100-300音频采样点。为了简化下面的讨论,假设一帧长度为N=250个采样点。声音帧{x(k)}被送入一个声音活动检测器(VAD)14,该检测器控制着一个开关16,其用途是根据VAD14的状态把声音帧{x(k)}送入装置中的不同模块。VAD14可以按照[2]中所讨论的原理来设计,通常是以状态机的形式被实现的。图2说明了这样一个状态机的可能状态。在状态0,VAD14是空闲的或“非活性的”,它说明声音帧{x(k)}未被进一步处理。状态20表示一个噪声电平,并且没有语音。状态21表示一个噪声电平和一个低语音/噪声比。在语音活动与噪声的转移期间,这个状态被激活。最后,状态22表示一个噪声电平和高语音/噪声比。一个声音帧{x(k)}含有声音采样点,可被表示为x(k)=s(k)+v(k)k=1,…,N(1)其中x(k)代表有噪语音的采样值,s(k)代表语音的采样值,而v(k)代表外加的有色背景噪声。假设有噪语音信号在一帧之间是平稳的。而且语音信号s(k)可用一个r阶自回归(AR)模型来描述其中Ws(k)的方差已知是σs2。类似地,V(k)可通过一个q阶AR模型来描述其中Wv(k)的方差已知是σv2。r和q都远小于帧长度N。一般,r的取值最好在10左右,而q最好在0-7之间取值,例如4(q=0对应于一个恒定的功率谱密度,即白噪声)。关于语音AR建模的更多的信息可从[3]中找到。而且,有噪语音的功率谱密度Φx(w)可被分为语音的功率谱密度Φs(w)与背景噪声的功率谱密度Φv(w)之和,也就是Φx(ω)=Φs(ω)+Φv(ω)(4)按照(2),它满足类似地,按照(3),它满足根据(2)-(3),x(k)等于一个具有功率谱密度Φx(w)的自相关移动平均模型(ARMA)。Φx(w)的一个估计(在这里和以后估计值用一个“^”来表示)可以通过一个自回归模型(AR)得到,也就是其中{l})和 是AR模型中的被估计出的参数。其中Wx(k)的方差已知是σx2,并且r≤p≤N。应当注意,在(7)中 不是Φx(w)在统计上的一致估计量。但在语音信号处理中,这并不是一个严重的问题,因为事实上X(k)根本不是平稳过程。在图1中,当VAD 14把语音(图2中的状态21和22)信号X(k)送入一个有噪语音AR估计器18时,估计器18就估计方程(8)中的参数σx2,{a5}。这个估计可以按[3]来进行(在图3所示的流程图中,这对应于步骤120)。被估计出来的参数被送入模块20,其作用是按方程(7)(图3中的步骤130)来计算输入信号X(k)的功率谱密度的一个估计。本专利技术的一个基本特征是,背景噪声是按长时平稳来对待的,也就是在几帧信号中时平稳的。因为当在没有S(k)的周期中,语音的强度通常足够低以至于足以估计噪声模型,所以长时平稳特征可以被用于在有噪语音帧的功率谱密度中减去噪声的功率谱密度,这是通过在噪声帧期间存储噪声模型参数而在有噪语音帧使用这些参数来实现的。因此,当VAD 14表现为背景噪声状态(图2中的状态20)时,该帧数据被送入一个噪声AR参数估计器22,它估计这一帧噪声的参数σv2,和{bj}(这对应于图3所示的流程图中的步骤140)。如上所述,估计出的参数存储于缓冲区24,以备在以后有噪语音帧(图3中的步骤150)中使用。当需要使用这些参数时(在一个有噪语音帧期间),它们将从缓冲区24中被取出来。这些参数同时也被送入模块26用于背景噪声的功率谱密度估计,或者在噪声帧期间(图3中的步骤160),这意味着所得到的估计值必须被缓冲存储以备后用,或者在下一语音帧期间,这意味着必须被存储的只有参数。因此,对于只含背景再生的帧数据,所估计出的参数并不实际用于增强的目的。而是把噪声信号送入衰减器28中,该衰减器以例如10分贝来衰减噪声的强度(图3中的步骤170)。在方程(7)中定义的功率谱密度(PSD)的估计量 ,还有通过一个类似于(6)的方程定义的,但在AR参数和σv2上有“^”符号的PSD估计量 ,都是频率ω的函数。下一个步骤是执行实际的PSD相减,这一步是在模块30中完成的(图3中的步骤180)。按本专利技术,语音信号的功率谱密度是按照下式估计的其中δ是一个标量的构造变量,通常在间隔0<δ<4中本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种有噪语音参数增强的方法,其特点是从背景噪声采样值的第一个集合开始,以M个频率确定背景噪声的一个功率谱密度的估计,其中M是一个预先确定的正整数。从背景噪声采样值的第二个集合估计P个自回归参数,以及第一个残余方差,其中P是一个预先确定的正整数且远小于M。以上述的M个频率,从上述的P个自回归参数以及第一个残余方差中,确定有噪语音的一个功率谱密度的估计。通过从上述有噪语音功率谱密度的估计中减去上述背景噪声的谱密度估计乘以一个预先确定正比例因子的乘积,确定增强的语音的一个功率谱密度的估计。从上述增强的语音功率谱密度估计中,确定r个增强的自回归参数和一个增强的残余方差,其中r是一个预先确定的正整数。2.权利要求1中的方法,其特点是,限制上述增强的语音功率谱密度的估计为非负值。3.权利要求2中的方法,其特点是,上述预先确定的正比例因子在0-4的范围内取值。4.权利要求3中的方法,其特点是,上述预先确定的正比例因子近似等于1。5.权利要求4中的方法,其特点是,上述预先确定的整数r等于上述预先确定的整数P。6.权利要求5中的方法,其特点是,从背景噪声采样值的第一个集合估计q个自回归参数,以及第二个残余方差,其中q是一个预先确定的正整数且远小于p。以上述的M个频率,从上述的q个自回归参数以及第二个残差方差中,确定背景噪声的功率谱密度的估计。7.权利要求1或6中的方法,其特点是,在一个预先确定的背景噪声采样值的集合数上,对上述背景噪声功率谱密度的估计做平均。8.前面任何一个权利要求中的方法,其特点是,使用上述增强的自回归参数和上述增强的残余方差来调整一个滤波器,目的是对有噪语音采样值的第三个集合进行滤波。9.权利要求8中的方法,其特点是,上述有噪语音采样值的第二个和第三个集合是同一个集合。10.权利要求8或9中的方法,其特点是,用卡尔曼滤波的方法对上述有噪语音采样值的第三个集合进行滤波。...
【专利技术属性】
技术研发人员:P·亨德尔,P·泽奎斯特,
申请(专利权)人:艾利森电话股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。