语音识别置信度评价方法和系统及应用该方法的听写装置制造方法及图纸

技术编号:3046811 阅读:174 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种语音识别置信度的评价方法及其系统,其评价方法中利用目标单元的隐马尔可夫模型对所述语音段作强制对齐时,生成所述目标单元的状态音素序列及各状态音素对应语音段的起始边界,基于状态音素关于对应语音段中各语音帧的后验概率的计算得到识别结果目标单元的声学置信度量,同时公开了一种并行计算方法和相应的存储结构,本发明专利技术的置信度计算是基于更基本的声学结构来进行的,因此可以使置信度评价的结果更为准确有效,更由于采用了并行计算方法及相应的利于并行计算的存储结构,运算速度也大大提高;本发明专利技术还公开了一种根据置信度量对识别结果加以标记的方法,以及一种带识别结果置信度评价的听写装置。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种语音识别置信度的评价方法及其系统,以及带有识别结果置信度评价的听写装置。
技术介绍
一般而言,当前的连续语音识别系统是面向大量用户的,尤其是那些不经常使用系统的用户,例如,使用语音自动总机、电话股票信息查询服务的用户,这些用户的语音输入可能会超出语音识别系统所能处理的任务域的范围,导致识别系统的错误识别。引起这种情况的原因比较复杂,例如,用户的语音输入中可能有非话语音,如停顿、咳嗽声以及环境噪声等;识别系统中语言模型不完整,即识别系统没有对用户说的词或词串建模等。语音识别置信度评价技术利用置信度可以对识别结果的可靠性进行假设检验,定位识别结果中的错误所在,提高识别系统的稳健性和识别率,改善人机交互的界面。例如,对于电话股票查询系统,如果用户所说的股票名不在系统设定的股票名字表中,具有语音识别置信度评价技术的识别系统可以拒绝掉这些不在任务域中的语音输入,识别系统可提示用户“对不起,我不知道您所要查询的股票”;而不具有语音识别置信度评价技术的识别系统不能拒绝掉这样的语音输入,会提示给用户一支错误识别的股票名及其相关信息。在语音识别中,置信度可以定义成一个用来衡量声学模型和语音观察数据之间匹配程度的函数,且该函数的值对于不同的观察数据具有可比性,计算出识别结果的置信度后,与一预设阀值进行比较即可得到评价结果,并执行相应操作。文献,Ze’ev Rivlin et al.“A phone-dependent confidencemeasure for utterance rejection,”ICASSP96(1996),提出了对连续语音输入的识别结果作置信度评价的方法,该方法是一种基于音素进行计算的声学层置信度量方法。音素是构成词的基本单位,词的序列构成句子,音素有两种类型一种是上下文有关音素(TRI-PHONE),另一种是上下文无关音素(MONO-PHONE),文中的音素可以是上下文有关音素(TRI-PHONE),也可以是上下文无关音素(MONO-PHONE)。例如词“中国”的上下文有关音素表示序列为“sil-zh+ong zh-ong+g ong-g+uo g-uo+sil”(其中“sil”是一个特殊音素,用来描述用户语音中的停顿),其上下文无关音素表示序列为“sil zh ong g ou sil”。显然,与上下文无关音素相比,上下文有关音素可描述更精细的声学特征,但在一个识别系统中,其数目远远大于上下文无关音素的数目。识别系统尽管采用了置信度评价的措施,但是使用中仍存在相当的误报或漏报的情况,即其评价结果的有效性还有待提高,在置信度计算中采用更精细的声学特征来与输入语音段比较是提高评价结果有效性的重要手段。在当今流行的语音识别系统中,声学模型都是用隐马尔可夫模型(HMM)来描述,一个HMM表示一个音素,如图1所示,音素10的HMM还包含了若干个HMM状态,此处为三个,每个状态对应一个状态音素11,音素P由SP1、SP2及SP3三个状态音素11构成,因为状态音素是比音素更基本的声学结构,描述了更精细的声学特征,因此在上述采用HMM的识别系统中,无论其采用上下文有关音素还是采用上下文无关音素,如果将其置信度计算基于状态音素进行,将提高原置信度评价方法的有效性。上述方法的另一缺点是计算量较大,尤其是对基于上下文有关音素计算声学层置信度量的识别系统,该方法的缺点会表现得更加明显,例如,对于电话信息服务系统,由于该方法的计算量较大,降低了系统对用户语音输入的系统响应和吞吐率,势必导致系统硬件投入的增加。语音识别置信度评价方法可应用于听写装置中,听写装置根据使用者的语音输入进行语音识别,并输出识别结果至某一显示设备。当前的听写装置,例如IBM的ViaVoice,Microsoft OfficeXP中的语音识别模块,以及会议记录仪(离线方式运行的听写装置),在办公室环境下,可达到90%~95%的识别正确率,而5%~10%的错误识别的词需要用户手工校错,由于这些错误识别的词与其它词以同样方式显示,用户要发现错误很不方便,其手工校错的效率有待提高。
技术实现思路
本专利技术要解决的技术问题是提供一种语音识别置信度评价方法,其计算基于HMM状态音素,可提高置信度评价结果的有效性。为了达到上述目的,本专利技术提供了一种语音识别置信度的评价方法,包括以下步骤识别系统对输入语音进行识别运算得到识别结果,该识别结果包含目标单元及对应的由语音帧序列组成的语音段;利用所述目标单元的隐马尔可夫模型对所述语音段作强制对齐,生成目标单元的状态音素序列及各状态音素对应语音段的起始边界;计算所述状态音素关于对应语音段中各语音帧的后验概率;基于所述后验概率计算所述目标单元的声学置信度量;以及将目标单元的声学置信度量和一预设置信度阀值比较,得到置信度评价结果。上述方案中,其特点是对所述目标单元对应语音段作强制对齐时还生成了该目标单元的音素序列及各音素对应语音段的起始边界,该音素序列中的每个音素包含若干所述状态音素,且基于所述后验概率计算所述目标单元的声学置信度量时,先根据所述状态音素后验概率计算出所述音素的声学置信度量,再根据所述音素的声学置信度量计算所述目标单元的声学置信度量,所述音素为上下文有关音素或上下文无关音素。上述方案中,其特点是计算所述状态音素关于对应语音段中各语音帧的后验概率的方法如下logP(SPi|ot)=logP(ot|SPi)+logP(SPi)-log(Σj=1MP(ot|SPj)P(SPj))]]>其中SPi表示所述状态音素序列中的状态音素,Ot表示第t个语音帧,bi≤t≤ei,bi和ei分别是状态音素SPi对应语音段的起始和结束语音帧的指标;M为识别系统所包含状态音素SPj的个数;P(ot|SPi)及P(ot|SPj)是状态音素关于语音帧ot的条件概率;P(SPi)及P(SPj)是状态音素的先验概率;logP(SPi|Ot)是状态音素SPi关于语音帧ot的对数后验概率。上述方案中,其特点是根据所述状态音素后验概率计算所述音素的声学置信度量的方法如下先计算所述音素P包含的各状态音素SPi的声学置信度量CM(SPi) CM(SPi)=1ei-bi+1Σt=tieilogP(SPi|ot)]]>其中,bi和ei分别是状态音素SPi对应语音段起始和结束语音帧的指标。再计算所述音素P的声学置信度量CM(P)CM(P)=1VΣi=1VCM(SPi)]]>其中V为音素P所包含的状态音素的个数。上述方案中,其特点是根据所述状态音素后验概率计算所述音素的声学置信度量CM(P)的方法还可以为CM(P)=1eV-b1+1Σi=1VΣt=bieilogP(SPi|ot)]]>其中,bi和ei分别是状态音素SPi对应语音段的起始和结束语音帧的指标,b1和eV分别是所述音素对应语音段的起始和结束语音帧的指标,V为音素P所包含的状态音素SPi的个数。上述方案中,其特点是所述目标单元的声学置信度量也可以按以下方法计算等于该目标单元包含的所有状态音素关于对应语音段中各语音帧的对数后验概率的算术平均值。上述方案本文档来自技高网
...

【技术保护点】
一种语音识别置信度的评价方法,包括以下步骤:    识别系统对输入语音进行识别运算得到识别结果,该识别结果包含目标单元及对应的由语音帧序列组成的语音段;    利用所述目标单元的隐马尔可夫模型对所述语音段作强制对齐,生成目标单元的状态音素序列及各状态音素对应语音段的起始边界;    计算所述状态音素关于对应语音段中各语音帧的后验概率;    基于所述后验概率计算所述目标单元的声学置信度量;以及    将目标单元的声学置信度量和一预设置信度阀值比较,得到置信度评价结果。

【技术特征摘要】
【国外来华专利技术】CN 2002-10-17 0213118971.一种语音识别置信度的评价方法,包括以下步骤识别系统对输入语音进行识别运算得到识别结果,该识别结果包含目标单元及对应的由语音帧序列组成的语音段;利用所述目标单元的隐马尔可夫模型对所述语音段作强制对齐,生成目标单元的状态音素序列及各状态音素对应语音段的起始边界;计算所述状态音素关于对应语音段中各语音帧的后验概率;基于所述后验概率计算所述目标单元的声学置信度量;以及将目标单元的声学置信度量和一预设置信度阀值比较,得到置信度评价结果。2.如权利要求1所述的语音识别置信度的评价方法,其特征在于对所述目标单元对应语音段作强制对齐时还生成了该目标单元的音素序列及各音素对应语音段的起始边界,该音素序列中的每个音素包含若干所述状态音素,且基于所述后验概率计算所述目标单元的声学置信度量时,先根据所述状态音素后验概率计算出所述音素的声学置信度量,再根据所述音素的声学置信度量计算所述目标单元的声学置信度量,所述音素为上下文有关音素或上下文无关音素。3.如权利要求1或2所述的语音识别置信度的评价方法,其特征在于计算所述状态音素关于对应语音段中各语音帧的后验概率的方法如下logP(SPi|ot)=logP(ot|SPi)+logP(SPi)-log(Σj=1MP(ot|SPj)P(SPj))]]>其中SPi表示所述状态音素序列中的状态音素,Ot表示第t个语音帧,bi≤t≤ei,bi和ei分别是状态音素SPi对应语音段的起始和结束语音帧的指标;M为识别系统所包含状态音素SPj的个数;P(ot|SPi)及P(ot|SPj)是状态音素关于语音帧ot的条件概率P(SPi)及P(SPj)是状态音素的先验概率logP(SPi|Ot)是状态音素SPi关于语音帧ot的对数后验概率。4.如权利要求2所述的语音识别置信度的评价方法,其特征在于根据所述状态音素后验概率计算所述音素的声学置信度量的方法如下先计算所述音素P包含的各状态音素SPi的声学置信度量CM(SPi)CM(SPi)=1ei-bi+1Σt=bieilogP(SPi|ot)]]>其中,bi和ei分别是状态音素SPi对应语音段起始和结束语音帧的指标。再计算所述音素P的声学置信度量CM(P)CM(P)=1VΣi=1VCM(SPi)]]>其中V为音素P所包含的状态音素的个数。5.如权利要求2所述的语音识别置信度的评价方法,其特征在于根据所述状态音素后验概率计算所述音素的声学置信度量CM(P)的方法为CM(P)=1eV-b1+1Σi=1VΣt=bieilogP(SPi|ot)]]>其中,bi和ei分别是状态音素SPi对应语音段的起始和结束语音帧的指标,b1和eV分别是所述音素对应语音段的起始和结束语音帧的指标,V为音素P所包含的状态音素SPi的个数。6.如权利要求1所述的语音识别置信度的评价方法,其特征在于所述目标单元的声学置信度量等于该目标单元包含的所有状态音素关于对应语音段中各语音帧的对数后验概率的算术平均值。7.如权利要求2所述的语音识别置信度的评价方法,其特征在于计算所述目标单元的声学置信度量时,当该目标单元为目标词时,该目标词的声学置信度量等于其包含的所有音素的声学置信度量的算术平均值;当该目标单元为句子或子句时,先按上述方法计算该句子或子句所包含的每个词的声学置信度量,再计算该句子或子句包含的所有词的声学置信度量的算术平均值,即得到目标单元的声学置信度量。8.如权利要求3所述的语音识别置信度的评价方法,其特征在于计算所述状态音素关于对应语音段中语音帧的后验概率时,利用计算设备中的单指令多数据指令,采用了下述并行计算方法第一步对识别系统中的每个状态音素,并行计算出该状态音素关于所述语音段中各语音帧的一组对数条件概率;第二步对识别系统中的每个状态音素,将第一步中得到每个状态音素的一组对数条件概率,并行累加上该状态音素的对数先验概率,得到该状态音素关于所述语音段中各语音帧的一组对数联合概率;第三步对所述语音段中各语音帧,基于识别系统中的各状态音素关于该语音帧的对数联合概率,同时作递归计算,得到各语音帧Ot对应的log(Σj=1MP(ot|SPj)P(SPj))]]>值,该递归计算方法如下 第四步将每一状态音素关于对应语音段中各语音帧的对数联合概率值并行减去该语音帧对应的log(Σj=1MP(ot|SPj)P(SPj))]]>值,即得到各状态音素关于对应语音段中各语音帧的对数后验概率。9.如权利要求8所述的语音识别置信度的评价方法,其特征在于所述并行计算方法中数据存储方法如下第一步得到的每一状态音素关于所述语音段中各语音帧的一组对数条件概率,按照各语音帧在语音段中的顺序或用户订制的其它顺序存放在一片连续的内存区中;第二步得到的每一状态音素关于所述语音段中各语音帧的一组对数联合概率,按照第一步中各语音帧的顺序存放在一片连续的内存区中;第三步得到的每一语音帧Ot对应的log(Σj=1MP(ot|SPj)P(SPj))]]>值按第一步中各语音帧的顺序存放在一片连续的内存区中;在第三步之前或第三步与第四步之间还有一数据提取步骤从第二步得到的对数联合概率中抽取状态音素序列中各状态音素关于对应语音段中各语音帧的对数联合概率,按第一步中各语音帧的顺序存放在一片连续的内存区中。10.如权利要求1所述的语音识别置信度的评价方法,其特征在于在利用所述目标单元的隐马尔可夫模型对所述语音段作强制对齐前,还有一从识别结果中选择出目标单元的步骤。11.一种具有置信度评价功能的语音识别系统,包括识别引擎,根据用户的语音输入生成识别结果,该识别结果包含目标单元及其对应的语音段;声学模型,采用隐马尔可夫模型;解码器,基于目标单元的声学模型,对所述语音段做强制对齐,生成目标单元的状态音素序列及每个状态音素对应语音段的起始边界;置信度量计算单元,基于状态音素的后验概率计算出目标单元的声学置信度量;及比较器,将该声学置信度量与一预设置信度阀值比较,得到评价结果。12.如权利要求11所述的具有置信度评价功能的语音识别系统,其特征在于所述解码器在对所述语音段做强制对齐时还生成了目标单元的音素序列及每个音素对应语音段的起始边界,该音素序列中的每个音素包含若干所述状态音素...

【专利技术属性】
技术研发人员:韩疆刘建潘接林颜永红庹凌云张建平
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1