【技术实现步骤摘要】
本专利技术涉及一种语音识别装置,尤其涉及一种能轻松更新在其中记录了将要识别的词或者短语的字典的语音识别装置。
技术介绍
在传统的语音识别装置中,通过查询其中记录了要识别的词的字典来识别由用户发出的语音。因此,在语音识别装置中,仅仅能识别在字典中已经记录了的词(以后这样的词简称为已记录词),并且不能识别在字典中没有记录的词。在此,在所述字典中没有记录的词被称作未记录词。在传统的语音识别装置中,如果用户的发音包括一个未记录词,则未记录词被识别为在所述字典中的某个已经记录的词(已记录词),因此对未记录词的识别结果将是错误的。如果未记录词被不正确地识别,则该错误识别将影响在未记录词前后的某个词的识别,即,可能使这样的词被不正确地识别。因此,要求恰当处理未记录词以避免上述问题。为此目的,提出了各种技术。例如,日本未审查专利申请出版号第9-81181披露了一种语音识别装置,其中同时使用了用于检测某个未记录词的无用信息模型(garbage model)和与音素诸如元音相关联的HMM(隐马尔可夫模型),以便限制与所述未记录词相关联的音素序列,从而在不需要复杂计算的情况下可能检测到所述未记录词。作为另一个例子,日本专利申请号11-2456461披露了一种信息处理装置,其中,当给定一个包括某个未记录词的词组时,基于词的概念来计算在不包括在某个数据库中的未记录词和包括在所述数据库中的词之间的相似性,并且生成和输出一个经过适当调整的词序列。再举一个例子,“Dictionary LearningPerformance Through Consistency(字典的学习通过一致性 ...
【技术保护点】
一种语音识别装置,用于对某个输入语音进行处理,和按照输入语音的处理结果更新在语言处理中使用的某个字典,所述语音识别装置包括:音丛检测单元,用于从通过对语音进行音丛形成处理而获得的现有音丛中检测将把所述输入语音作为一个新成员添加其中的音丛 ;音丛划分单元,用于把所述输入语音当作由所述音丛检测单元检测的所述音丛的新成员使用,并且根据所述音丛的成员划分所述音丛;和更新单元,用于基于由所述音丛划分单元执行的划分结果更新所述字典。
【技术特征摘要】
JP 2002-3-14 69603/02;JP 2001-3-30 97843/011.一种语音识别装置,用于对某个输入语音进行处理,和按照输入语音的处理结果更新在语言处理中使用的某个字典,所述语音识别装置包括音丛检测单元,用于从通过对语音进行音丛形成处理而获得的现有音丛中检测将把所述输入语音作为一个新成员添加其中的音丛;音丛划分单元,用于把所述输入语音当作由所述音丛检测单元检测的所述音丛的新成员使用,并且根据所述音丛的成员划分所述音丛;和更新单元,用于基于由所述音丛划分单元执行的划分结果更新所述字典。2.如权利要求1所述的语音识别装置,其中,所述字典把将要被识别的词汇的音素序列存储起来;并且所述更新单元通过添加作为一个新成员的,与代表由划分处理而产生的某个音丛的成员的代表成员相对应的语音的音素序列,或者用与代表通过由所述划分处理而产生的所述音丛的代表成员相对应的所述语音的所述音素序列替换所述字典的某个条目,来更新所述字典。3.如权利要求1所述的语音识别装置,其中,所述音丛检测单元通过确定在所述音丛的成员中观测的所述输入语音的似然概率(likelyhood),计算关于所述音丛的每个成员的所述输入语音的得分;对于所述音丛的成员,选择把最高值给予所述输入语音的所述得分的成员,并把已被选择的成员当作表示所述音丛的所述成员的代表成员使用;和把具有代表成员的所述音丛确定为把所述输入语音作为一个新成员将被添加其中的一个音丛。4.如权利要求1所述的语音识别装置,其中,所述输入语音是在所述字典中还没有预先记录的未记录词。5.如权利要求3所述的语音识别装置,其中,在对于所述音丛的成员,把具有关于该音丛的其他成员的得分最大和的一个成员,当作代表该音丛的所述成员的代表成员使用这样一种情况下,所述音丛划分单元将把输入语音添加其中的所述音丛划分为两个音丛,即,第一和第二音丛,以使所述原始音丛的两个成员分别成为所述第一和第二音丛的代表成员。6.如权利要求5所述的语音识别装置,其中,在存在组成第一和第二音丛的两个音丛的多个结合的情况下,所述音丛划分单元把包括作为其成员的所述输入语音的音丛划分成两个音丛,以使在所述第一音丛和所述第二音丛之间的音丛到音丛的距离最小。7.如权利要求6所述的语音识别装置,其中,当选择组成第一和第二音丛的两个音丛的结合,以致在所述第一音丛和所述第二音丛之间的音丛到音丛的距离最小时,如果所述最小音丛到音丛的距离大于某个预定的阈值,则所述音丛划分单元把一个包括作为其成员的所述输入语音的音丛划分成两个音丛。8.如权利要求5所述的语音识别装置,此外还包括存储单元,用于存储关于每个得分的每个成员的所述音丛成员的得分。9.如权利要求1所述的语音识别装置,其中,所述字典存储将被识别的某个词汇的音素序列,并且,其中,所述语音识别装置还包括语音识别单元,用于基于按照在所述字典中存储的所述音素序列构造的声学模型识别语音。10.如权利要求9所述的语音识别装置,其中,所述声学模型是HMM(隐藏马尔可夫模型)。11.如权利要求9所述的语音识别装置,其中,所述语音识别单元通过以子字(sub-word)为单位连接HMM,构造与在所述字典中存储的音素序列相对应的声学模型,并且基于所述声学模型识别语音。12.如权利要求9所述的语音识别装置,其中,所述语音识别单元同时也基于预定的语法规则识别语音。13.如权利要求12所述的语音识别装置,其中,所述语音识别单元按照预定的语法规则,提取所述输入语音的一个特定周期;和所述音丛检测单元和所述音丛划分单元在所述输入语音的所述周期上执行它们的处理。14.如权利要求13所述的语音识别装置,其中,所述语音识别单元从所述输入语音中提取在所述字典中没有记录的未记录词的周期,作为所述特定周期。15.如权利要求14所述的语音识别装置,其中,所述语音识别单元利用一个无用信息模型,按照预定的语法规则,提取所述未记录词的所述周期。16.如权利要求1所述的语音识别装置,其中,所述音丛划分单元利用EM(最大期望值)方法划分所述音丛。17.如权利要求1所述的语音识别装置,还包括存储单元,用于存储由所述音丛检测单元使用的、与输入语音相联系的语音信息...
【专利技术属性】
技术研发人员:表雅则,赫尔穆特勒克,
申请(专利权)人:索尼公司,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。