一种连续语音识别结果评价的方法和装置制造方法及图纸

技术编号:3852349 阅读:236 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种基于字词混合的连续语音识别结果评价方法,包括:根据输入的语音识别结果序列和参考序列,生成字词混合的R-T匹配平面;根据DP算法在R-T平面中进行匹配,局部匹配路径采用基于字词混合的多匹配路径,并采用多种路径得分函数;进行路径回溯,获取最佳匹配结果,统计语音识别性能相关信息。还公开了一种基于字词混合的连续语音识别结果评价装置,利用本发明专利技术实施例,能够有效降低识别结果评价中的虚假错误,有效提高基于词的连续语音识别结果评价精度。

【技术实现步骤摘要】

本专利技术涉及语音识别领域,特别是一种连续语音识别结果评价的方法和装置
技术介绍
连续语音识别的结果评价,通常采用动态规划的方法得到最佳匹配结果,隐马尔可夫工具包(Hidden Markov ToolKit,HTK)中的HResults工具是完成这一任务的典型代表。 在进行匹配时,匹配的单元可以是词,也可以是字、音素等,而且只能完成同一层次的匹配,即词词匹配或字字匹配等。在汉语连续语音识别中,通常采用字即音节作为匹配的基元,而基于音素的匹配通常是在只需要评价声学模型性能的时候使用。基于词的匹配由于会产生一些错误匹配,而很少使用。 在基于词的结果匹配中,产生错误匹配的原因主要有两个,一个是分词的标准不统一,汉语与西文不同,词之间没有明显的分界,需要进行分词,但是因为汉语构词比较灵活,造成分词结果的不同,从而产生一些错误匹配。另外一个是语音识别系统的原因,语音识别输出得到的词经常和参考词不一致,即使采用了相同的分词方法(算法、参数、参考词典等等均相同),比如,识别为,这些造成很多的虚假错误,使得识别结果的评价不可信。 由于语音识别中通常采用基于词的语言模型,网络搜索也是分为词内和词间搜索进行的,因此很多时候,还是需要得到基于词的语音识别结果分析。如做语音识别的可信度研究时,相对于音节来说,词的可信度特征更容易获得,因此很多可信度研究都是在基于词来进行的,但是由于基于词的语音识别结果评价不够准确,严重影响了可信度评价的性能。 专利技术人在实现本专利技术的过程中,发现现有技术中至少存在如下问题 现有技术对基于词的连续语音识别结果评价不准确,产生很多虚假错误,特别是虚假的删除、替代、插入错误。
技术实现思路
有鉴于此,本专利技术一个或多个实施例的目的在于提供一种基于字词混合的连续语音识别结果评价方法和装置,以实现更为准确的基于词的连续语音识别结果评价,减少虚假错误的出现。 为解决上述问题,本专利技术实施例提供了一种基于字词混合的连续语音识别结果评价方法,包括 根据输入的语音识别结果序列(T序列)和参考序列(R序列),将R序列扩展为字词混合模式,以T为横轴,以R为纵轴,生成字词混合的R-T匹配平面; 根据DP算法在R-T平面中进行匹配,局部匹配路径采用基于字词混合匹配的多匹配路径,每条路径采用适当的路径得分;保存每次匹配的最佳路径得分(最小得分),并保存取得最佳得分时的路径信息; 匹配完成后,进行路径回溯,获取最佳匹配路径,得到最佳匹配结果和语音识别结果评价信息,并输出。 本专利技术还公开了一种基于字词混合的连续语音识别结果评价装置,包括 输入单元,输入语音识别结果序列(T序列)和参考序列(R序列),保存并作为后续处理单元的数据来源,其中,输入的序列均为词序列; R-T平面定义单元,根据输入,将R序列扩展为字词混合模式,以T为横轴,以R为纵轴,生成字词混合的R-T匹配平面; 多路径匹配单元,根据DP算法在R-T平面中进行匹配,局部匹配路径采用基于字词混合的多匹配路径,每条路径采用适当的路径得分;保存每次匹配的最佳路径得分,并保存取得最佳路径得分时的路径信息; 路径回溯单元,进行路径回溯,获取最佳匹配路径,保存最佳匹配结果,统计识别性能相关信息; 匹配结果输出单元,输出匹配结果和识别性能信息。 与现有技术相比,本专利技术实施例具有以下优点本专利技术实施例通过定义基于字词混合的R-T匹配平面,设计基于字词混合的多匹配路径,使得本专利技术可以进行基于字词混合的连续语音识别结果评价,并通过设计适当的路径得分,保证不同匹配路径的优先级,提高匹配结果的正确性,有效降低连续语音识别结果评价中虚假错误的产生。 附图说明 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 图1所示,是本专利技术实施例的装置框图; 图1-1所示,是本专利技术实施例的子装置-多路径匹配单元的框图 图2所示,是本专利技术实施例的R-T匹配平面示意图; 图3所示,是本专利技术实施例的多匹配路径示意图; 图4所示,是本专利技术实施例的路径得分示意图; 图5所示,是本专利技术实施例的方法流程图。 具体实施例方式 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。 如图1所示,是本专利技术实施例的装置框图,包括 输入单元101,输入语音识别结果序列(T序列)和参考序列(R序列),保存并作为后续处理单元的数据来源,输入的序列均为词序列,词之间采用分隔符号(如空格、回车换行符、制表符等)隔开,以特殊字符(如“.”)作为结束标志; R-T平面构建单元102,根据输入,将R序列扩展为字词混合模式,以T为横轴,以R为纵轴,生成字词混合的R-T匹配平面; 多路径匹配单元103,根据DP算法在R-T平面中进行匹配,局部匹配路径采用基于字词混合的多匹配路径,每条路径采用适当的路径得分;计算每次匹配的最佳路径得分(最小得分),并保存取得最佳路径得分时的路径信息;多路径匹配单元的详细框图如图1-1所示,包括 局部最佳路径得分计算模块1031,用于计算局部最佳路径得分,采用多种匹配路径,每条路径采用适当的路径得分; 最佳路径信息保存模块1032,用于保存局部最佳匹配路径信息; 匹配控制模块1033,用于控制基于DP算法的匹配过程的实现; 路径回溯单元104,进行路径回溯,获取最佳匹配路径,保存最佳匹配结果,统计识别性能相关信息; 匹配结果输出单元105,将最佳匹配结果和识别性能信息输出;输出形式可以直接打印输出到纸张上,也可以直接输出到显示装置上。 需要说明的是,上述功能模块的划分是相对的,主要用于帮助所属领域的技术人员从整体上理解本专利技术的原理,本专利技术实施例还可以以其他的功能模块及其组合来实现本专利技术的原理,达到相同的技术效果,这都没有超出本专利技术的保护范围。 下面,结合图2-图4,说明本专利技术实施例所提供的基于字词混合的连续语音识别结果评价方法 如图2所示,是本专利技术实施例中R-T匹配平面构建示意图 R-T平面的构建不仅要能够满足字词匹配的同时进行,而且还要能保证语音识别结果序列T中词的完整性,为此本专利技术采用下面的方法构建R-T匹配平面以识别结果序列T为横轴,T中的每一个节点ti都是一个词,将参考序列R扩展为字词混合模式,以R作为纵轴。字词混合模式扩展的方法是,将R中的每个词扩展为字,每个字分别作为一个节点,同时为了保留词信息,将节点rj扩展为字词混合模式,如公式1所示 rj={Syllj,Vk,nwrj,Location} (1) 其中Syllj表示R序列中的第j个字(音节),Vk表示Syllj所在的词,nwrj表示Vk的字(音节)长度,location表示Syllj在Vk中的位置,具体定义如下 本文档来自技高网
...

【技术保护点】
一种基于字词混合的连续语音识别结果评价方法,其特征在于,包括: 根据输入的语音识别结果序列和参考序列,生成字词混合的R-T匹配平面; 根据DP算法在R-T平面中进行匹配,局部匹配路径采用基于字词混合匹配的多匹配路径,并采用多种路 径得分函数; 进行路径回溯,获取最佳匹配结果,统计语音识别性能相关信息;

【技术特征摘要】

【专利技术属性】
技术研发人员:刘刚陈伟郭军国玉晶
申请(专利权)人:北京邮电大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1