语音检索装置和语音检索方法制造方法及图纸

技术编号:13772864 阅读:77 留言:0更新日期:2016-09-29 21:21
具有:识别部(2),其参照声学模型和学习数据不同的多个语言模型来进行输入语音的语音识别,针对多个语言模型取得识别文字串;文字串对照部(6),其对照多个语言模型的各个语言模型的识别文字串与蓄积在文字串词典存储部(7)所存储的文字串词典中的检索对象词汇的文字串,计算表示识别文字串相对于检索对象词汇的文字串的一致度的文字串对照分数,针对识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数;以及检索结果确定部(8),其参照所取得的所述文字串对照分数,按照该文字串对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及针对根据被赋予了语言似然度的多个语言模型得到的识别结果在文字串上与检索对象词汇进行对照处理来取得检索结果的语音检索装置和语音检索方法
技术介绍
以往,作为被赋予了语言似然度的语言模型,几乎都是使用根据后述的学习数据的统计量来计算语言似然度的统计语言模型。在使用统计语言模型的语音识别中,在以对各种词汇和表达方式的发声进行识别为目的的情况下,需要将各种文章用作语言模型的学习数据来构建统计语言模型。但是,如果利用大范围的学习数据来构建单一的统计语言模型,则存在不一定成为最适于识别某一特定话题、例如天气话题的发声的统计语言模型的问题。作为解决该问题的方法,在非专利文献1中,公开了这样一种技术:将语言模型的学习数据分类成几个话题,使用按照各个话题分类的学习数据来学习统计语言模型,在识别时,使用所有的各个统计语言模型进行识别对照,将识别分数最高的候选作为识别结果。根据该技术,报告了下述情况:在特定话题的发声中,基于所对应的话题的语言模型的识别候选的识别分数变高,识别精度比使用单一的统计语言模型的情况提高。现有技术文献非专利文献非专利文献1:中岛及其他人,“大語彙連続音声認識のための複数言語モデルの並列同時単語列探索法”,情報処理学会論文誌,2004年,Vol.45,No.12
技术实现思路
专利技术要解决的课题可是,在上述的非专利文献1中公开的技术中,存在下述这样的课题:由于使用学习数据不同的多个统计语言模型进行识别处理,因此,无法在学习数据不同的统计语言模型彼此之间严格地对识别分数的计算中所使用的语言似然度进行比较。这是因为,如果统计语言模型例如为单词的三元(trigram)模型,则语言似然度是根据针对识别候选的单词串的三元概率来计算的,但在学习数据不同的语言模型中,即使针对同一单词串,三元概率也会成为不同的值。本专利技术是为了解决上述那样的课题而完成的,其目的在于在使用学习数据不同的多个统计语言模型进行识别处理的情况下也取得可比较的识别分数并提高检索精度。用于解决问题的手段本专利技术的语音检索装置具有:识别部,其参照声学模型以及学习数据不同的多个语言模型进行输入语音的语音识别,按照多个语言模型的各个语言模型取得识别文字串;文字串词典存储部,其存储文字串词典,该文字串词典蓄积有表示成为语音检索对象的检索对象词汇的文字串的信息;文字串对照部,其对照识别部所取得的多个语言模型的各个语言模型的识别文字串与蓄积在文字串词典中的检索对象词汇的文字串,计算表示识别文字串相对于检索对象词汇的文字串的一致度的文字串对照分数,针对识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数;以及检索结果确定部,其参照文字串对照部所取得的文字串对照分数,按照该文字串对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。专利技术的效果根据本专利技术,在使用学习数据不同的多个语言模型进行了输入语音的识别处理的情况下,也能够得到对于各个语言模型能够互相进行比较的识别分数,能够提高语音检索的检索精度。附图说明图1是示出实施方式1的语音检索装置的结构的框图。图2是示出实施方式1的语音检索装置的文字串词典的生成方法的图。图3是示出实施方式1的语音检索装置的动作的流程图。图4是示出实施方式2的语音检索装置的结构的框图。图5是示出实施方式2的语音检索装置的动作的流程图。图6是示出实施方式3的语音检索装置的结构的框图。图7是示出实施方式3的语音检索装置的动作的流程图。图8是示出实施方式4的语音检索装置的结构的框图。图9是示出实施方式4的语音检索装置的动作的流程图。具体实施方式以下,为了更加详细地说明本专利技术,根据附图对用于实施本专利技术的方式进行说明。实施方式1.图1是示出本专利技术的实施方式1的语音检索装置的结构的框图。语音检索装置100由声学分析部1、识别部2、第1语言模型存储部3、第2语言模型存储部4、声学模型存储部5、文字串对照部6、文字串词典存储部7和检索结果确定部8构成。声学分析部1进行输入语音的声学分析,转换为特征向量的时间序列。特征向量例如是MFCC(Mel Frequency Cepstral Coefficient:梅尔频率倒谱系数)的1~N维的数据。N的值例如是16。识别部2使用存储于第1语言模型存储部3的第1语言模型和存储于第2语言模型存储部4的第2语言模型以及存储于声学模型存储部5的声学模型进行识别对照,由此,取得最接近输入语音的文字串。更详细地说,识别部2例如使用维特比算法对声学分析部1转换的特征向量的时间序列进行识别对照,取得相对于各个语言模型识别分数最高的识别结果,输出作为识别结果的文字串。另外,在本实施方式1中,以将文字串设定为表示识别结果的发音的音节串的情况为例进行说明。此外,假设识别分数是根据使用声学模型通过维特比算法而计算出的声学似然度与使用语言模型计算出的语言似然度的加权和计算出的。如上所述,虽然识别部2还计算识别分数,该识别分数是使用声学模型针对各个文字串计算出的声学似然度与使用语言模型计算出的语言似然度的加权和,但即使基于各个语言模型的识别结果的文字串相同,识别分数也会成为不同的值。这是由下述情况导致的:在相同的识别结果的文字串的情况下,虽然声学似然度在两个语言模型中是相同的,但语言似然度在各个语言模型中取不同的值。因此,基于各个语言模型
的识别结果的识别分数不是能够严格地进行比较的值。因此,在本实施方式1中,其特征在于,在后述的文字串对照部6中计算能够在两个语言模型之间进行比较的分数,检索结果确定部8确定最终的检索结果。第1语言模型存储部3和第2语言模型存储部4对作为检索对象的名称进行词素解析,将名称分解为单词的串,存储作为单词串的统计语言模型而生成的语言模型。另外,在进行语音检索之前预先生成第1语言模型和第2语言模型。举出具体例进行说明,在检索对象例如是称作“那智の滝”的设施的名称的情况下,分解为“那智”、“の”和“滝”这3个单词的串,生成统计语言模型。另外,虽然在本实施方式1中设定为单词的三元模型,但也可以使用二元词(bigram)或单字(unigram)等任意的语言模型来构成。通过将设施名称分解为各个单词的串,在发声为“那智滝”等未以正确的设施名称进行的情况下,也能够进行语音识别。声学模型存储部5存储有将语音的特征向量模型化而成的声学模型。作为声学模型,例如可以列举出HMM(Hidden Markov Model:隐马尔可夫模型)等。文字串对照部6参照存储于文字串词典存储部7的文字串词典,对从识别部2输出的识别结果的文字串进行对照处理。对照处理由识别结果的文字串的开头的音节开始依次参照文字串词典的倒置文件来进行,在包含该语音的设施的文字串对照分数上加“1”。进行该处理直至识别结果的文字串的最终音节为止。针对识别结果的各个文字串,将文字串对照分数最高的名称与文字串对照分数一起输出。文字串词典存储部7存储有由以音节作为索引词的倒置文件构成的文字串词典。倒置文件例如由赋予了ID编号的设施名称的音节串生成。在进行语音检索之前预先生成文字串词典。在此,参照图2对倒置文件的生成方法具体进行说明。图2(a)用“ID编号”、“假名汉字标记”、“音节标记”和“语言模型”示出设施名称本文档来自技高网
...

【技术保护点】
一种语音检索装置,其中,所述语音检索装置具有:识别部,其参照声学模型以及学习数据不同的多个语言模型进行输入语音的语音识别,按照所述多个语言模型中的每个语言模型取得识别文字串;文字串词典存储部,其存储文字串词典,该文字串词典蓄积有表示成为语音检索对象的检索对象词汇的文字串的信息;文字串对照部,其对所述识别部所取得的所述多个语言模型中的每个语言模型的识别文字串与蓄积在所述文字串词典中的检索对象词汇的文字串进行对照,计算表示所述识别文字串相对于所述检索对象词汇的文字串的一致度的文字串对照分数,针对所述识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数;以及检索结果确定部,其参照所述文字串对照部所取得的所述文字串对照分数,按照该文字串对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。

【技术特征摘要】
【国外来华专利技术】1.一种语音检索装置,其中,所述语音检索装置具有:识别部,其参照声学模型以及学习数据不同的多个语言模型进行输入语音的语音识别,按照所述多个语言模型中的每个语言模型取得识别文字串;文字串词典存储部,其存储文字串词典,该文字串词典蓄积有表示成为语音检索对象的检索对象词汇的文字串的信息;文字串对照部,其对所述识别部所取得的所述多个语言模型中的每个语言模型的识别文字串与蓄积在所述文字串词典中的检索对象词汇的文字串进行对照,计算表示所述识别文字串相对于所述检索对象词汇的文字串的一致度的文字串对照分数,针对所述识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数;以及检索结果确定部,其参照所述文字串对照部所取得的所述文字串对照分数,按照该文字串对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。2.根据权利要求1所述的语音检索装置,其特征在于,所述识别部取得所述识别文字串的声学似然度和语言似然度,所述检索结果确定部计算综合分数,按照计算出的综合分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出,其中,所述综合分数是所述文字串对照部所取得的文字串对照分数、所述识别部所取得的声学似然度、语言似然度中的2个以上的值的加权和。3.根据权利要求1所述的语音检索装置,其特征在于,所述语音检索装置具有声学似然度计算部,该声学似然度计算部参照识别精度比所述识别部所参照的所述声学模型高的高精度声学模型,进行所述识别部所取得的所述多个语言模型中的每个语言模型的识别文字串与所述输入语音之间的声学模式对照,计算对照声学似然度,所述识别部取得所述识别文字串的语言似然度,所述检索结果确定部计算综合分数作为所述文字串对照部所取得的文字串对照分数、所述声学似然度计算部所计算出的对照声学似然度、所述识别部所取得的语言似然度中的2个以上的值的加权和,按照计算出的综合分数从高到低的顺序将1个以
\t上的检索对象词汇作为检索结果而输出。4.根据权利要求1所述的语音检索装置,其特征在于,所述语音检索装置将所述多个语言模型分成2个以上的组,对所述2个以上组分别分配所述识别部的识别处理。5.一种语音检索装置,其中,所述语音检索装置具有:识别部,其参照声学模型和至少1个以上的语言模型,进行输入语音的语音识别,按照每个所述语言模型取得识别文字串;文字串词典存储部,其存储文字串词典,该文字串词典蓄积有表示成为语音检索对象的检索对象词汇的文字串的信息;文字串对照部,其取得外部识别文字串,对所取得的外部识别文字串以及所述识别部所取得的识别文字串与蓄积在所述文字串词典中的检索...

【专利技术属性】
技术研发人员:花泽利行
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1