【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种语音识别置信度的评价方法及其系统,以及带有识别结果置信度评价的听写装置。
技术介绍
一般而言,当前的连续语音识别系统是面向大量用户的,尤其是那些不经常使用系统的用户,例如,使用语音自动总机、电话股票信息查询服务的用户,这些用户的语音输入可能会超出语音识别系统所能处理的任务域的范围,导致识别系统的错误识别。引起这种情况的原因比较复杂,例如,用户的语音输入中可能有非话语音,如停顿、咳嗽声以及环境噪声等;识别系统中语言模型不完整,即识别系统没有对用户说的词或词串建模等。语音识别置信度评价技术利用置信度可以对识别结果的可靠性进行假设检验,定位识别结果中的错误所在,提高识别系统的稳健性和识别率,改善人机交互的界面。例如,对于电话股票查询系统,如果用户所说的股票名不在系统设定的股票名字表中,具有语音识别置信度评价技术的识别系统可以拒绝掉这些不在任务域中的语音输入,识别系统可提示用户“对不起,我不知道您所要查询的股票”;而不具有语音识别置信度评价技术的识别系统不能拒绝掉这样的语音输入,会提示给用户一支错误识别的股票名及其相关信息。在语音识别中,置信度可以定义成一个用来衡量声学模型和语音观察数据之间匹配程度的函数,且该函数的值对于不同的观察数据具有可比性,计算出识别结果的置信度后,与一预设阀值进行比较即可得到评价结果,并执行相应操作。文献,Ze’ev Rivlin et al.“A phone-dependent confidencemeasure for utterance rejection,”ICASSP96(1996),提出了对连续语音输入的 ...
【技术保护点】
一种语音识别置信度的评价方法,包括以下步骤: 识别系统对输入语音进行识别运算得到识别结果,该识别结果包含目标单元及对应的由语音帧序列组成的语音段; 利用所述目标单元的隐马尔可夫模型对所述语音段作强制对齐,生成目标单元的状态音素序列及各状态音素对应语音段的起始边界; 计算所述状态音素关于对应语音段中各语音帧的后验概率; 基于所述后验概率计算所述目标单元的声学置信度量;以及 将目标单元的声学置信度量和一预设置信度阀值比较,得到置信度评价结果。
【技术特征摘要】
【国外来华专利技术】CN 2002-10-17 0213118971.一种语音识别置信度的评价方法,包括以下步骤识别系统对输入语音进行识别运算得到识别结果,该识别结果包含目标单元及对应的由语音帧序列组成的语音段;利用所述目标单元的隐马尔可夫模型对所述语音段作强制对齐,生成目标单元的状态音素序列及各状态音素对应语音段的起始边界;计算所述状态音素关于对应语音段中各语音帧的后验概率;基于所述后验概率计算所述目标单元的声学置信度量;以及将目标单元的声学置信度量和一预设置信度阀值比较,得到置信度评价结果。2.如权利要求1所述的语音识别置信度的评价方法,其特征在于对所述目标单元对应语音段作强制对齐时还生成了该目标单元的音素序列及各音素对应语音段的起始边界,该音素序列中的每个音素包含若干所述状态音素,且基于所述后验概率计算所述目标单元的声学置信度量时,先根据所述状态音素后验概率计算出所述音素的声学置信度量,再根据所述音素的声学置信度量计算所述目标单元的声学置信度量,所述音素为上下文有关音素或上下文无关音素。3.如权利要求1或2所述的语音识别置信度的评价方法,其特征在于计算所述状态音素关于对应语音段中各语音帧的后验概率的方法如下logP(SPi|ot)=logP(ot|SPi)+logP(SPi)-log(Σj=1MP(ot|SPj)P(SPj))]]>其中SPi表示所述状态音素序列中的状态音素,Ot表示第t个语音帧,bi≤t≤ei,bi和ei分别是状态音素SPi对应语音段的起始和结束语音帧的指标;M为识别系统所包含状态音素SPj的个数;P(ot|SPi)及P(ot|SPj)是状态音素关于语音帧ot的条件概率P(SPi)及P(SPj)是状态音素的先验概率logP(SPi|Ot)是状态音素SPi关于语音帧ot的对数后验概率。4.如权利要求2所述的语音识别置信度的评价方法,其特征在于根据所述状态音素后验概率计算所述音素的声学置信度量的方法如下先计算所述音素P包含的各状态音素SPi的声学置信度量CM(SPi)CM(SPi)=1ei-bi+1Σt=bieilogP(SPi|ot)]]>其中,bi和ei分别是状态音素SPi对应语音段起始和结束语音帧的指标。再计算所述音素P的声学置信度量CM(P)CM(P)=1VΣi=1VCM(SPi)]]>其中V为音素P所包含的状态音素的个数。5.如权利要求2所述的语音识别置信度的评价方法,其特征在于根据所述状态音素后验概率计算所述音素的声学置信度量CM(P)的方法为CM(P)=1eV-b1+1Σi=1VΣt=bieilogP(SPi|ot)]]>其中,bi和ei分别是状态音素SPi对应语音段的起始和结束语音帧的指标,b1和eV分别是所述音素对应语音段的起始和结束语音帧的指标,V为音素P所包含的状态音素SPi的个数。6.如权利要求1所述的语音识别置信度的评价方法,其特征在于所述目标单元的声学置信度量等于该目标单元包含的所有状态音素关于对应语音段中各语音帧的对数后验概率的算术平均值。7.如权利要求2所述的语音识别置信度的评价方法,其特征在于计算所述目标单元的声学置信度量时,当该目标单元为目标词时,该目标词的声学置信度量等于其包含的所有音素的声学置信度量的算术平均值;当该目标单元为句子或子句时,先按上述方法计算该句子或子句所包含的每个词的声学置信度量,再计算该句子或子句包含的所有词的声学置信度量的算术平均值,即得到目标单元的声学置信度量。8.如权利要求3所述的语音识别置信度的评价方法,其特征在于计算所述状态音素关于对应语音段中语音帧的后验概率时,利用计算设备中的单指令多数据指令,采用了下述并行计算方法第一步对识别系统中的每个状态音素,并行计算出该状态音素关于所述语音段中各语音帧的一组对数条件概率;第二步对识别系统中的每个状态音素,将第一步中得到每个状态音素的一组对数条件概率,并行累加上该状态音素的对数先验概率,得到该状态音素关于所述语音段中各语音帧的一组对数联合概率;第三步对所述语音段中各语音帧,基于识别系统中的各状态音素关于该语音帧的对数联合概率,同时作递归计算,得到各语音帧Ot对应的log(Σj=1MP(ot|SPj)P(SPj))]]>值,该递归计算方法如下 第四步将每一状态音素关于对应语音段中各语音帧的对数联合概率值并行减去该语音帧对应的log(Σj=1MP(ot|SPj)P(SPj))]]>值,即得到各状态音素关于对应语音段中各语音帧的对数后验概率。9.如权利要求8所述的语音识别置信度的评价方法,其特征在于所述并行计算方法中数据存储方法如下第一步得到的每一状态音素关于所述语音段中各语音帧的一组对数条件概率,按照各语音帧在语音段中的顺序或用户订制的其它顺序存放在一片连续的内存区中;第二步得到的每一状态音素关于所述语音段中各语音帧的一组对数联合概率,按照第一步中各语音帧的顺序存放在一片连续的内存区中;第三步得到的每一语音帧Ot对应的log(Σj=1MP(ot|SPj)P(SPj))]]>值按第一步中各语音帧的顺序存放在一片连续的内存区中;在第三步之前或第三步与第四步之间还有一数据提取步骤从第二步得到的对数联合概率中抽取状态音素序列中各状态音素关于对应语音段中各语音帧的对数联合概率,按第一步中各语音帧的顺序存放在一片连续的内存区中。10.如权利要求1所述的语音识别置信度的评价方法,其特征在于在利用所述目标单元的隐马尔可夫模型对所述语音段作强制对齐前,还有一从识别结果中选择出目标单元的步骤。11.一种具有置信度评价功能的语音识别系统,包括识别引擎,根据用户的语音输入生成识别结果,该识别结果包含目标单元及其对应的语音段;声学模型,采用隐马尔可夫模型;解码器,基于目标单元的声学模型,对所述语音段做强制对齐,生成目标单元的状态音素序列及每个状态音素对应语音段的起始边界;置信度量计算单元,基于状态音素的后验概率计算出目标单元的声学置信度量;及比较器,将该声学置信度量与一预设置信度阀值比较,得到评价结果。12.如权利要求11所述的具有置信度评价功能的语音识别系统,其特征在于所述解码器在对所述语音段做强制对齐时还生成了目标单元的音素序列及每个音素对应语音段的起始边界,该音素序列中的每个音素包含若干所述状态音素...
【专利技术属性】
技术研发人员:韩疆,刘建,潘接林,颜永红,庹凌云,张建平,
申请(专利权)人:中国科学院声学研究所,北京中科信利技术有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。