语音识别系统的环境失配的自适应技术方案

技术编号:3045646 阅读:192 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及具有环境自适应的语音识别的方法、系统和计算机程序产品。变换描述输入语音的功率谱的特征向量,以消除训练语音的记录条件与进行语音识别的语音的记录条件之间的环境失配。该方法基于接收的声音间隔代表语音或语音不连续性的概率。确定代表语音或语音不连续性的声音间隔的平均值,并将所述值与训练数据的各个值进行比较,可以执行已生成特征向量的变换,以减少环境失配。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音识别系统的领域,并且更特别涉及语音识别系统对不断变化环境条件的自适应。
技术介绍
语音识别系统把(口头)口授录制成书写文本。从语音生成文本的处理通常分成以下步骤接收声音信号;预处理和执行信号分析;分析信号的识别以及识别文本的输出。声音信号的接收利用任何记录装置例如麦克风来提供。在信号分析步骤中,通常把已接收的声音信号分段成时间窗,覆盖通常在几毫秒范围内的时间间隔。利用快速傅里叶变换(FFT),计算时间窗的功率谱。通常具有三角整形内核的平滑函数被进一步应用于该功率谱,并生成特征向量。特征向量的单个分量代表功率谱的不同部分,这些部分是语音内容的特征(函数),并因而理论上适于语音识别目的。此外,对数函数被应用于特征向量的所有分量,得到对数谱域的特征向量。信号分析步骤可以进一步包括环境自适应以及附加步骤,例如,应用对数倒频谱(cepstral)变换或把导数或者回归增量(Δ,δ)附加到特征向量上。在识别步骤中,将分析的信号与从被分配给词汇表的训练语音序列中导出的参考信号进行比较。此外,可以在最后步骤中输出识别的文本之前,执行文法规则以及上下文有关的命令。环境自适应是信号分析过程中的重要步骤。训练语音参考与识别数据之间的环境失配的根本原因(起源)例如是不同的信噪比、不同的记录信道噪声或不同的语音-寂静(speech-and-silence)比例。美国专利No.5778340公开了一种具有自适应功能的语音识别信息。这里,将语音输入转换成特征向量系列,将这些特征向量系列馈送给预识别器。预识别器通过计算输入图案与存储在参考图案存储器中的参考图案之间的相似性度量来执行预先识别。以这样的方式,利用计算的相似性度量,确定最高候选者。参考图案适配器基于参考图案、输入图案、最高候选者来执行参考图案的自适应,并且把修改的参考图案新近存储在参考图案存储器中。最后识别器随后使用对应于最高候选者的新近存储的参考图案来执行输入图案的语音识别。自适应措施包括按语音周期和噪声周期分离输入图案。噪声周期对应于语音不连续性的声音间隔。US专利号5778340还公开了用于参考和输入图案的噪声和语音周期的平均频谱的计算。然后借助某种利用已计算频谱的自适应函数,执行输入或参考图案的自适应。总之,这个方法基于声音间隔是代表语音还是噪声的硬判决。取决于接收的声音信号和附加噪声,不能明确地做出这样的判决。在某些临界情况中,基础系统因此可以把噪声周期解释为语音周期,并且反之亦然。US专利号2002/0091521A1描述了用于在失配的训练和测试条件下快速语音识别的技术。所述的技术基于最大似然谱变换(MLTS)。这里,实时发音的语音特征向量在线性谱域中被变换,以使得在变换后增加发音的似然性。最大似然谱变换估算两个对应于线性谱域中卷积噪声和自适应噪声的参数。在估算这两个噪声参数之后,执行特征向量的变换,以增加测试发音的似然性。由于所述的技术应用于线性谱域中并且由于语音的动态范围相当大,所以必需参数的可靠的和强健的确定也许是困难的。US专利号2003-0050780A1公开了一种在背景噪声出现时提供的对输入语音的扬声器自适应。这里,在特征提取之后并且在扬声器自适应之前,应用对背景噪声的线性近似,以允许系统使语音模型适应于注册的用户,而没有由于背景噪声导致的失真。这里,扬声器自适应模块在自适应之前采用逆线性近似算子来消除背景噪声的影响。逆近似的结果是一组修改的观测数据,该观测数据已被清理,以消除背景噪声的影响。在US专利号2003-0050780A1中描述的噪声补偿识别器使用在某些噪声条件下开发的声音模型,并且这些声音模型随后在不同的噪声条件下被使用。因此,必须评估至少两个噪声电平差值之间噪声电平差值的估算。这通常利用特征提取模块来执行,该模块在输入语音发音开始之前从预先语音帧中提取特征。
技术实现思路
本专利技术的目的是提供用于语音识别系统自适应各种环境条件的改进的方法和设备。本专利技术提供了语音识别系统的环境自适应的方法,分别利用在对数谱域中特征向量序列的生成、接收的声音间隔代表语音还是代表语音不连续性的概率的计算、语音平均值的计算、待识别的语音和训练语音的寂静间隔的平均值的计算。对数谱域中特征向量的序列中的每个特征向量描述待识别的语音的功率谱,其中所述功率谱对应于覆盖不同时间间隔的时间窗。语音识别系统通常包括一组用于识别目的的在训练条件下记录的参考特征向量。本专利技术的方法主要基于特征向量的转换,以使得由于不同环境记录条件而导致的失配被最小化。根据本专利技术的最佳实施例,该方法不严格分隔开声音间隔代表语音还是代表寂静形式的语音不连续性。反而,该方法确定并计算声音间隔代表语音或寂静的概率。以这样的方式,避免了潜在错误的硬判决,增加整个语音识别系统的整体可靠性。对于特征向量的每个分量,该方法利用单调递减概率函数计算寂静概率。概率函数所需的参数仅仅是各个特征向量分量的模数。特征向量分量越大,各个特征向量分量代表寂静间隔的概率就越小。相应的语音概率利用寂静概率与一(unity)之间的差值给出。该方法还利用均值函数计算每个特征向量分量的寂静与语音间隔的平均值。根据特征向量的子集,均值函数提供作为权重的基于寂静与语音概率的相应特征向量分量的平均值。因此,该方法还计算对于训练特征向量的单个分量的寂静与语音平均值。然后,根据特征向量分量自身、特征向量分量的寂静概率、特征向量子集的各个特征向量分量的寂静平均值和语音平均值以及训练特征向量子集的各个特征向量分量的寂静平均值和语音平均值,对于特征向量的每个分量单独地执行用于环境自适应的基本变换函数。特征向量子集与训练特征向量子集的寂静平均值之间的比较给出了有关噪声电平和/或记录语音的不同环境记录条件的一般指示。类似地,可以比较特征向量子集与训练特征向量子集的语音平均值。通常,特征向量分量的变换与特征向量分量的概率值组合使用这个比较。根据本专利技术的再一个实施例,执行每个特征向量分量的语音概率的计算。通常,该方法利用单调递减概率函数来生成寂静概率,并且然后从数字1中减去该寂静概率。根据这个实施例,特征向量分量的变换明确地考虑了计算的语音概率。根据本专利技术的再一个优选实施例,以移动加权平均函数(movingweighted average function)的形式实现用于生成特征向量分量以及训练特征向量分量的寂静与语音平均值的均值函数。对特征向量的子集进行平均。例如,通过对各自特征向量分量乘以各自特征向量分量的寂静概率的乘积求和而得到不同特征向量分量的寂静平均值,并利用所有各个寂静概率之和来除以该寂静平均值,其中求和指数蔓延(run over)在特征向量子集的所有特征向量上。对于特征向量子集,采用与训练特征向量子集的相同方式,执行特征向量分量的寂静或语音平均值的计算。两个子集通常都包括相同数量的特征向量。在语音识别期间永久获取的特征向量的平均值动态变化,并且必须在语音识别处理期间重新计算,而代表训练特征向量的平均值保持恒定,并因此可以利用某种存储装置来存储。这样,该方法动态适应不断变化的环境条件。这提供了语音识别系统的高可靠性和高灵活性。根据本专利技术的优选实施例,用于特征向量分量的寂静与语音平均值的计算的特征向量的子集一般包括数量为1本文档来自技高网
...

【技术保护点】
一种提供特征向量序列的语音识别系统(402)的环境自适应的方法,每个特征向量描述待识别的语音(400)的功率谱,对于每个特征向量分量,该方法包括以下步骤:-利用单调递减概率函数,计算特征向量分量的寂静概率,-提供至少训练特征向量的子集的各个分量的寂静与语音间隔的平均值,-基于至少各个特征向量的子集,利用均值函数,计算特征向量分量的寂静与语音间隔的平均值,-利用变换函数,变换特征向量分量,该变换函数基于特征向量和训练特征向量的寂静与语音的平均值、特征向量分量的寂静概率和特征向量分量本身。

【技术特征摘要】
【国外来华专利技术】EP 2003-10-8 03103727.81.一种提供特征向量序列的语音识别系统(402)的环境自适应的方法,每个特征向量描述待识别的语音(400)的功率谱,对于每个特征向量分量,该方法包括以下步骤-利用单调递减概率函数,计算特征向量分量的寂静概率,-提供至少训练特征向量的子集的各个分量的寂静与语音间隔的平均值,-基于至少各个特征向量的子集,利用均值函数,计算特征向量分量的寂静与语音间隔的平均值,-利用变换函数,变换特征向量分量,该变换函数基于特征向量和训练特征向量的寂静与语音的平均值、特征向量分量的寂静概率和特征向量分量本身。2.根据权利要求1所述的方法,对于每个特征向量分量,该方法还包括以下步骤-利用单调递增概率函数,计算语音的语音概率,-利用变换函数,变换特征向量分量,该变换函数还基于特征向量分量的语音的概率。3.根据权利要求1或2所述的方法,其中均值函数是移动加权均值函数,寂静与语音间隔的平均值的计算基于特征向量的子集,该子集至少包括数量为10的特征向量,最好包括数量为20至30的特征向量。4.根据权利要求1至3之中任一项权利要求所述的方法,其中训练特征向量的寂静与语音间隔的平均值的提供基于训练均值函数,所述训练均值函数是训练特征向量子集的加权平均函数,该子集至少包括数量为10的特征向量,最好数量为20至30的特征向量。5.根据权利要求1至4之中任一项权利要求所述的方法,其中概率函数包括描述单调概率函数斜率的斜率常数(α),该斜率函数是可修改的。6.根据权利要求1至5之中任一项权利要求所述的方法,其中特征向量分量的变换由下式给出Fc,new=Fc,old+(MTRSil-MSil)PSil+(MTRSp-MSp)PSp,其中Fc,new已变换的特征向量分量,Fc,old特征向量分量,MTRSil训练特征向量的寂静的平均值,MTRSp训练特征向量的语音的平均值,MSp特征向量的语音的平均值,MSil特征向量的寂静的平均值,PSil寂静概率,PSp语音概率。7.根据权利要求1至6之中任一项权利要求所述的方法,其中寂静概率函数由以下形式的S形函数给出PSil=1-11+exp((MSil+VSil-Fc)α/VSil),]]>以及语音概率函数由下式给出Psp=1-PSil,其中MSil语音的寂静间隔的平均值,VSil寂静的平均值的方差,α斜率常数,Fc特征向量分量。8.一种具有环境自适应的语音识别系统(402),提供特征向量序列,每个特征向量描述待识别的语音(400)的功率谱,对于每个特征向量分量,该系统包括-用于利用单调递减概率函数计算特征向量分量的寂静概率的装置(418),-用于提供至少训练特征向量的子集的各个分量的寂静与语音间隔的平均值的装置(416),-用于利用基于至少各个特征向量的子集的均值函数来计算特征向量分量的寂静与语音间隔的平均值的装置(420),-用于利...

【专利技术属性】
技术研发人员:D格勒
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利