本发明专利技术提供用于优化语音识别结果的方法和装置。根据一个实施方式,用于优化语音识别结果的装置包括:接收单元,其接收语音识别结果;计算单元,其计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度;以及替换单元,其在上述发音相似度高于第1阈值的情况下,将上述片段替换为上述关键词。
【技术实现步骤摘要】
本专利技术涉及语音识别技术,具体地,涉及用于优化语音识别结果的方法和装置。
技术介绍
在语音识别的一些应用场景中,说话内容往往包含一些关键词,这些关键词能否被正确识别出来密切影响着语音识别系统的用户体验。例如,在会议支援应用中,语音识别系统把发言人说话的内容识别出来,而会议中所涉及的重要人名、地名、技术术语等词汇就是关键词,其识别率是此类应用最主要的性能指标。关键词可以分为两类,如果关键词不在语音识别的系统词典里,可称之为新词,如果在词典内,则可称之为核心词。由于新词未在系统词典里注册,而语音识别系统只能输出系统词典里存在的词条,所以新词完全无法被直接识别出来。虽然大部分新词可以由系统词典里的词条拼接后间接输出,但由于这种拼接的情况在训练语料里很少见,导致其语言模型得分很低,因此被成功识别出来的概率依然很小。对已在系统词典里注册过的核心词而言,如果系统词典里存在其他发音相同或相似但语言模型得分更高的非核心词,则语音识别系统会错误的选择该非核心词作为输出结果。因此,普通的语音识别系统对关键词的识别率都很低,而错误的识别结果一般都是读音相同或相似的其他词汇。提高关键词的识别率的关键是提升关键词的语言模型得分。通常,使用基于类的语音模型来提升关键词的语言模型得分。在该方法中,可以创建一些类来对应各种关键词,如人名类、地名类、技术术语类等,并在系统词表里挑选一定数目符合某类别性质的典型词汇加入相应的类。在训练语言模型时,每个类的语言模型得分由对该类所包含的所有典型词汇共同统计后得出。在语音识别之前,把关键词添加到系统词典里并关联到所属的类,而在语音识别的过程中,关键词则共享其所属类的语言模型得分。由于典型词汇的语言模型得分都比较高,所以关键词的语言模型得分被大为提升,其识别率也得以大幅度提高。
技术实现思路
本专利技术的专利技术人发现即使采用上述基于类的语言模型方法,仍然有一定比例的关键词不能被正确识别,从而影响语音识别系统,尤其是会议支援系统中的用户体验。为了解决现有技术中存在的上述问题,本专利技术的实施方式提供是一种通过关键词列表优化语音识别结果的语音识别后处理技术,其不涉及对语音识别引擎的修改,功能实现非常容易,计算量非常小,使用方便,添加或更改关键词只需修改对应的关键词列表文件。具体而言,提供以下用于优化语音识别结果的技术方案。[1]一种用于优化语音识别结果的方法,包括以下步骤:接收语音识别结果;计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度;以及在上述发音相似度高于第1阈值的情况下,将上述片段替换为上述关键词。上述方案[1]的用于优化语音识别结果的方法,通过关键词列表对语音识别结果中被错误识别的关键词进行优化,能够提高语音识别结果的质量,改善语音识别系统,尤其是会议支援系统的性能。上述方案[1]的方法不涉及对语音识别引擎的修改,功能实现非常容易,计算量非常小,使用方便,添加或更改关键词只需修改对应的关键词列表文件。[2]根据上述[1]所述的方法,其中,上述替换步骤包括以下步骤:在上述发音相似度高于上述第1阈值且上述片段的语言模型得分低于第2阈值的情况下,将上述片段替换为上述关键词。上述方案[2]的方法通过仅对语言模型得分低的片段进行替换,能够提高替换的正确率。另外,由于语言模型得分是利用语音识别结果中已有的数据,因此计算量非常小。[3]根据上述[1]或[2]所述的方法,其中,上述计算步骤包括以下步骤:计算上述语音识别结果中的语言模型得分低于第2阈值的片段和上述关键词列表中的关键词之间的发音相似度。上述方案[3]的方法通过仅对语言模型得分低的片段进行计算,能够进一步降低计算量。[4]根据上述[1]~[3]的任一方案所述的方法,其中,上述计算步骤包括以下步骤:计算上述语音识别结果中的片段和关键词列表中的关键词之间的声学距离,并基于上述声学距离除以上述关键词的字数、音节数或音素数的平均声学距离,计算上述发音相似度。上述方案[4]的方法中,由于声学距离计算是字一级或词一级的处理,因此计算量非常小。[5]根据上述[1]~[4]的任一方案所述的方法,其中,上述计算步骤包括以下步骤:计算上述片段的音素序列和上述关键词的音素序列之间的音素声学距离。[6]根据上述[5]所述的方法,其中,上述计算步骤包括以下步骤:利用音素混淆矩阵作为权重来计算上述片段的音素序列和上述关键词的音素序列之间的音素声学距离。[7]根据上述[1]~[6]的任一方案所述的方法,其中,上述计算步骤包括以下步骤:计算上述片段的音调序列和上述关键词的音调序列之间的音调声学距离。[8]根据上述[7]所述的方法,其中,上述计算步骤包括以下步骤:利用音调混淆矩阵作为权重计算上述片段的音调序列和上述关键词的音调序列之间的音调声学距离。[9]根据上述[1]~[8]的任一方案所述的方法,其中,上述计算步骤包括以下步骤:计算上述片段和上述关键词的音素序列之间的音素声学距离和上述片段和上述关键词的音调序列之间的音调声学距离的加权平均值,作为上述片段和上述关键词之间的上述声学距离。[10]根据上述[1]~[9]的任一方案所述的方法,其中,上述片段包括上述语音识别结果中的词、相邻的多个词的组合或相邻的多个字的组合。[11]根据上述[1]~[10]的任一方案所述的方法,其中,上述片段的语言模型得分基于与上述片段相关的词的语言模型得分计算。[12]一种用于优化语音识别结果的装置,包括:接收单元,其接收语音识别结果;计算单元,其计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度;以及替换单元,其在上述发音相似度高于第1阈值的情况下,将上述片段替换为上述关键词。上述方案[12]的用于优化语音识别结果的装置,通过关键词列表对语音识别结果中被错误识别的关键词进行优化,能够提高语音识别结果的质量,改善语音识别系统,尤其是会议支援系统的性能。上述方案[12]的装置不涉及对语音识别引擎的修改,功能实现非常容易,计算量非常小,使用方便,添加或更改关键词只需修改对应的关键词列表文件。[13]根据上述[12]所述的装置,其中,上述替换单元,在上述发音相似度高于上述第1阈值且上述片段的语言模型得分低于第2阈值本文档来自技高网...
【技术保护点】
一种用于优化语音识别结果的装置,包括:接收单元,其接收语音识别结果;计算单元,其计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度;以及替换单元,其在上述发音相似度高于第1阈值的情况下,将上述片段替换为上述关键词。
【技术特征摘要】
1.一种用于优化语音识别结果的装置,包括:
接收单元,其接收语音识别结果;
计算单元,其计算上述语音识别结果中的片段和关键词列表中的关键
词之间的发音相似度;以及
替换单元,其在上述发音相似度高于第1阈值的情况下,将上述片段
替换为上述关键词。
2.根据权利要求1所述的装置,其中,
上述替换单元,在上述发音相似度高于上述第1阈值且上述片段的语
言模型得分低于第2阈值的情况下,将上述片段替换为上述关键词。
3.根据权利要求2所述的装置,其中,
上述计算单元,计算上述语音识别结果中的语言模型得分低于上述第
2阈值的片段和上述关键词列表中的关键词之间的发音相似度。
4.根据权利要求1所述的装置,其中,
上述计算单元,计算上述语音识别结果中的片段和关键词列表中的关
键词之间的声学距离,并基于上述声学距离除以上述关键词的字数、音节
数或音素数的平均声学距离,计算上述发音相似度。
5.根据权利要求4所述的装置,其中,
上述计算单元,计算上述片段的音素序列和上述关键词的音素序列之
...
【专利技术属性】
技术研发人员:雍坤,丁沛,朱会峰,
申请(专利权)人:株式会社东芝,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。