通过使用平方根折扣的统计语言的语音识别制造技术

技术编号:3044907 阅读:247 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及统计语言建模和语音识别的方法,该方法提供预定顺序的预定数目的词,并提供包括预定数目的词序列的训练语料,其中每个序列由所提供的预定顺序的预定数目的跟随有至少一个附加词的词组成,提供候选词,并基于训练语料为每个候选词计算该候选词跟随所提供的预定数目的词的概率,确定至少一个候选词,对该候选词计算的概率超过预定的阈值,其中候选词的概率是基于平滑的最大似然概率计算的,该最大似然概率是为训练语料的词序列计算的,对于训练语料的所有词序列,最大似然概率大于或等于预定的正实数,该正实数小于或等于训练语料的词序列的预定数目的倒数值。

【技术实现步骤摘要】

本专利技术涉及采用统计平滑的统计语言建模的方法。特别地,本专利技术涉及基于统计语言建模的语音识别方法,该统计建模利用平滑的概率计算,具体地,折扣所观察到的事件的概率。
技术介绍
统计语言建模是试图捕获自然语言的规律性,并因此捕获到人机交互的自然语言系统的基本成分。统计语言模型旨在尽可能精确地估计自然语言的分布。这些模型在不同自然语言应用中扮演了重要角色,如语音识别、机器翻译、文本到语音系统以及拼写校正。 语音识别可以当作统计语言建模的尤其重要的应用。语音识别系统,即将声学信号转换为词或词串的序列的设备,这在今天越来越流行。在过去的几年中,由于语音识别技术的急剧改进,高性能的语音分析、识别算法和语音对话系统已经变得常见。今天,语音输入能力包括语音拨号、呼叫路由、文献准备等。语音对话系统例如可以采用在汽车中,从而允许用户控制不同的装置,如移动电话,车载收音机,导航系统和/或空调。 在语音识别发声过程中,例如,孤立的词或连续的语音被麦克风或电话捕获,并被转换为模拟电子信号,该电子信号然后被数字化。数词信号通常经过后续的波谱分析。通常以6.6KHz和20KHz之间的速率采样的语音波形的表示是从短时间功率谱获得的,并表示一系列特征化的矢量,这些矢量含有通常被称为特征/特征参数的值。特征参数的值被用于估计部分被分析波形的概率,例如该被分析波形相应于特定项目,如词汇表中的词。 尽管已经有尝试将语言结构和理论以及语义的先验知识包括到统计语言建模中,并且目前可以采用利用语境(context)的统计信息的方法,如集合Markov模型(aggregate Markov model)和神经概率语言模型,但是最流行和高效的N元文法(n-gram)语言建模并未考虑语言的特定本质。 实际上,n元文法建模依靠预测性语境(predictive context)的离散列举,该预测性语境指定对所看到的一个或多个词的关系,其中这些词被当作没有深层结构和意义的任意符号。每个词是从前面n-1个词预测的。应该指出,许多可能的n元文法在任何合理训练语料中是不可见的,该合理训练语料引起稀疏数据问题(参看下面)。 通常,句子的概率p(s)是通过句子第i个词Wi的条件概率的积计算的 其中hi=(w1,..,wi-1)被称为历史。n元文法通过Markov方法减小了概率问题的维度,也就是通过假定词受其前面的局部语境影响,即,前面的最后几个词p(wi|hi)=p(wi|wi-n+1,..,wi-1)。对于相对大的训练语料(如几百万个词),一般选择三元文法(n=3),而对于较小的训练语料则选择二元文法(n=2)。 然而,即使对于较大的语料,二元文法和三元文法概率的计算也表现出稀疏估算问题,因为大量的词组合出现不频繁。因此,直接最大似然估计法(straight-forward maximum-likelihood estimationapproach)不是优选的。所以提出了基于类的n元文法模型来估计分成类的词的参数。此外,不同平滑技术也已经被开发来消除数据稀疏的问题,包括从所见事件采取某些概率测量(n元文法)并将其再分布到不可见事件中的所谓折扣方法。 流行的平滑技术基于好图灵估计量(Good-Turing Estimator),该估计量用于估计多少给定概率分布应被“提供”从而解决先前未见事件。实际上,好图灵平滑法常引起数值不稳定性和反直觉概率,具体地,对于作为统计语言建模问题特征的少量观察的数据。根据训练数据的量,n元文法概率可以被采用或后退到(n-1)元文法概率(Katz后退)可以是优选的。 按照其他普通平滑方法,每个观察的n元文法的概率是通过减去一个常数(绝对折扣)或通过按比例对原始计数折扣(线性折扣)而减少的。在这两种方法中,任意参数必须在没有折扣方法的可靠数学基础的情形下首先规定。而且,线性折扣显示出具有强烈的低估具有大计数所见事件概率的趋势,而绝对折扣不能精确判断具有小计数的所见事件的概率。 应该指出,传统方法中,常常必须处理非常小的数词,这不仅可能导致不精确的计算,如四舍五入误差,而且可能延长计算时间。 考虑到现有技术的上述缺点,需要一种改进的统计语言建模方法,具体地,需要一种采用可靠统计平滑的语音识别。
技术实现思路
上述问题通过统计语言建模,特别是可用于语音识别的方法解决或至少部分消除,其包括以下步骤 以预定的顺序提供预定数目的词; 提供训练语料,其包括预定数目的词序列,其中每个词序列由所提供的预定顺序的预定数目的词组成,这些预定数目的词至少跟随有一个额外词; 提供候选词,基于训练语料,为每个候选词计算该候选词跟随所提供的预定数目的词的概率; 确定至少一个候选词,对于该候选词,所计算的概率超过预定的阈值; 其中 该候选词的概率是基于经平滑的最大似然概率计算的,该最大似然概率是为训练语料的词序列计算的,对于训练语料的所有词序列,该概率大于或等于预定的正实数,该正实数小于或等于训练语料的词序列的预定数目的倒数值。 例如,预定数目的词是作为文本或作为语音信号提供的。在最简单的情形中,预定顺序的预定数目的词是1。这里,预定顺序的词和词序列也称为句子。词是作为语言单位理解的,通常包括音素。统计语言建模是指分配语言的词和句子的概率分布。 训练语料的词序列也称为n元文法,其中n表示序列中词的数目。训练语料可包括n元文法,如二元文法和/或三元文法,和/或四元文法,其存储在有效的数据结构中,例如作为后缀树(suffix tree)或不同树结构。词序列出现在带有特殊频率(计数)的训练语料中。 至少一个候选词是以预定阈值以上的概率确定的,从而以所确定的候选词补充从所提供的预定数目的词开始的序列。预定阈值可以是0和1之间的预定实数,或可以是由某些预定差给予平均概率值的相对阈值,该平均概率值是为训练语料的词序列计算的,或可以是所计算的较低的概率值中的一个。 按照本专利技术,每个候选词的概率是基于训练语料的词序列的平滑的似然概率估计的(参看下面),其中平滑的似然概率是以这样的方式计算的,该方式保证其不落在预定正实数以下,该正实数小于或等于训练语料的词序列的预定数目的倒数值。特别地,每个候选词的概率可以判断为等于训练语料的词序列的平滑的似然概率,该训练语料包括或由所提供数目的词组成,这些词跟随有候选词,或可以判断为以某个因子调整的平滑似然概率。 所实现的有效折扣允许稳定(从计算过程的稳定性看)和可靠的统计语言建模。具体地,本专利技术方法适于相对小的训练语料,因为其统计语言建模和语音识别的稀疏数据问题。 按照这里所揭示方法的一个实施例,如果训练语料的词序列的所观察到的频率(计数)cj都没有落在预定正实数m乘以所有预定数目的训练语料的词序列的整体频率 以下,其中该正实数m小于或等于词序列的预定数目的倒数值,即如果cj≥mS_j,对于每个包括或由所提供的预定顺序预定数目的词(这些词跟随有候选词)组成的词序列,每个候选词的概率基于最大似然概率来计算(最大似然估算量),即,cj/S。在该情形中,平滑是不必要的,且可节省计算机资源,而不削弱通过本方法获得的结果的可靠性。 另外,如果对于至少一个j,cj<mS,这里cj表本文档来自技高网
...

【技术保护点】
一种用于统计语言建模的方法,其包括以下步骤:    以预定的顺序提供预定数目的词;    提供包括预定数目词序列的训练语料,其中每个词序列由所提供的预定顺序的预定数目的词组成,所述预定数目的词跟随有至少一个额外词;    提供候选词,并基于训练语料为每个候选词计算该候选词跟随所提供的预定数目的词的概率;和    确定对其计算的概率超过预定阈值的至少一个候选词;    其特征在于    所述候选词的概率是基于平滑的最大似然概率计算的,该最大似然概率是为训练语料的词序列计算的,对于训练语料的所有词序列,该最大似然概率大于或等于预定的正实数,该正实数小于或等于训练语料的词序列的预定数目的倒数值。

【技术特征摘要】
EP 2006-8-11 06016867.11.一种用于统计语言建模的方法,其包括以下步骤以预定的顺序提供预定数目的词;提供包括预定数目词序列的训练语料,其中每个词序列由所提供的预定顺序的预定数目的词组成,所述预定数目的词跟随有至少一个额外词;提供候选词,并基于训练语料为每个候选词计算该候选词跟随所提供的预定数目的词的概率;和确定对其计算的概率超过预定阈值的至少一个候选词;其特征在于所述候选词的概率是基于平滑的最大似然概率计算的,该最大似然概率是为训练语料的词序列计算的,对于训练语料的所有词序列,该最大似然概率大于或等于预定的正实数,该正实数小于或等于训练语料的词序列的预定数目的倒数值。2.如权利要求1所述的方法,其中如果观察到的训练语料的词序列的频率cj都没有落在所述预定正实数乘以训练语料的所有预定数目的词序列的整体频率以下,其中该正实数小于或等于词序列的预定数目的倒数值,则对于包括所提供的跟随有所述候选词的预定顺序的预定数目的词或由其组成的每个词序列,基于最大似然概率计算每个候选词的概率。3.如权利要求2所述的方法,其中如果对于至少一个j,cj<mS,这里cj表示训练语料的N个词序列中观察到的第j个词序列的频率,且S是训练语料中所有观察到的词序列的整体频率且m是预定正实数,其小于或等于词序列的预定数目N的倒数值,对所述候选词的概率pj的计算包括以下步骤a)以下式计算实数α其中b)计算平滑的计数c)通过pj=cj’/S计算平滑的概率pj,和d)如果pj≥m,由pj确定每个候选词的概率。4.如权利要求3所述的方法,其中如果如步骤c)中计算的pj至少有一个小于预定正实数m,该正实数小于或等于词序列的预定数目N的倒数值,则按照从最大似然概率pj(0)=cj/S开始并进一步由pj(n)=<(pj(n-1)>定义的概率pj(n)的归纳序列,对权利要求3中的步骤a)到c)进行迭代,确定每个候选词的概率,其中<>表示平滑的计数cj’的迭代计算。5.如前述任一权利要求所述的方法,其中训练语料中包括的每个词序列由二元文法和/或三元文法和/或四元文法组成。6.如前述任一权利要求所述的方法,其中每个候选词的概率是基于n元文法和(n-1)元文法计算的。7.一种用于语音识别的方法,其包括...

【专利技术属性】
技术研发人员:G维尔申
申请(专利权)人:哈曼贝克自动系统股份有限公司
类型:发明
国别省市:DE[德国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1