当前位置: 首页 > 专利查询>索尼公司专利>正文

语音处理装置制造方法及图纸

技术编号:3046900 阅读:162 留言:0更新日期:2012-04-11 18:40
一种能够轻松记录某个未记录词的声音处理装置。在不引起所述字典的容量增加的情况下,能够轻松地把未在字典中记录的词记录到字典中。在音丛形成处理块(29),在已经对预定的未记录词进行音丛形成的音丛中,检测将把新未记录词添加到其中作为新成员的音丛(被检测的音丛)。把所述新的未记录词作为检测的音丛的新成员,并根据所述检测音丛的成员划分检测音丛。因而,把在声学上类似的未记录词归纳为同一个音丛。此外,维护单元31,基于所述音丛形成处理的结果,更新所述字典。本发明专利技术还可以应用到具有声音设备装置的机器动物。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种语音识别装置,尤其涉及一种能轻松更新在其中记录了将要识别的词或者短语的字典的语音识别装置。
技术介绍
在传统的语音识别装置中,通过查询其中记录了要识别的词的字典来识别由用户发出的语音。因此,在语音识别装置中,仅仅能识别在字典中已经记录了的词(以后这样的词简称为已记录词),并且不能识别在字典中没有记录的词。在此,在所述字典中没有记录的词被称作未记录词。在传统的语音识别装置中,如果用户的发音包括一个未记录词,则未记录词被识别为在所述字典中的某个已经记录的词(已记录词),因此对未记录词的识别结果将是错误的。如果未记录词被不正确地识别,则该错误识别将影响在未记录词前后的某个词的识别,即,可能使这样的词被不正确地识别。因此,要求恰当处理未记录词以避免上述问题。为此目的,提出了各种技术。例如,日本未审查专利申请出版号第9-81181披露了一种语音识别装置,其中同时使用了用于检测某个未记录词的无用信息模型(garbage model)和与音素诸如元音相关联的HMM(隐马尔可夫模型),以便限制与所述未记录词相关联的音素序列,从而在不需要复杂计算的情况下可能检测到所述未记录词。作为另一个例子,日本专利申请号11-2456461披露了一种信息处理装置,其中,当给定一个包括某个未记录词的词组时,基于词的概念来计算在不包括在某个数据库中的未记录词和包括在所述数据库中的词之间的相似性,并且生成和输出一个经过适当调整的词序列。再举一个例子,“Dictionary LearningPerformance Through Consistency(字典的学习通过一致性的行为)”(Tilo Sloboda,Proceedings of ICASSP 95,vol.1,pp.453-456,1995)披露了一项技术,用来检测与词的语音周期对应的音素序列,并且利用混淆矩阵消除在声学上彼此相似的音素序列,由此有效构建一个包括异读词(variant)的字典。再举一个例子,“Estimation of Transcription of Unkown Word fromSpeech Samples in Word Recognition(在词识别中根据语音采样评估未知词的录音)”(Katsunobu Ito,et at.,The Transactions of the Institute of ElectronicsInformation,and Communication Engineers,Vol.J83-D-II,No.11,pp.2152-2159,November,2000(电子,信息,和通信工程师学报2000年11月J83-D-II卷,第11号,2152-2159页))披露了一项技术,用于当根据多个语音采样评估所述音素序列并在字典中记录一个未知(没有记录)的词时,改善音素序列的评估精确度。处理一个未记录词的典型方法是,如果在输入的语音中检测到一个未记录词,就把所述未记录词记录到字典中,并且随后把它作为已记录词对待。为了把一个未记录词记录到字典中,首先要求检测所述未记录词的语音周期,接着在所述语音周期中识别语音的音素序列。通过如已知的音素打字员(phoneme typewriter)的方法,可以完成语音的音素序列的识别。在所述音素打字机(phoneme typewriter)的方法中,利用用来接收任何音素变化的无用信息模型(garbage model),主要输出与输入语音对应的音素序列。当把未记录词记录到字典中时,要求对未记录词的音素序列进行音丛形成处理,即,在所述字典中,按与所述词对应的音丛(cluster)的形式记录每个字的音素序列,从而,把未记录词记录到所述字典中,这要求把未记录词的音素序列变成音丛。使未记录词的音素序列变成音丛(cluster)的一个方法是,由用户输入一表示未记录词的条目(例如,未记录词的发音),并接着将所述未记录词的音素序列形成一由该条目表示的音丛。然而,利用该方法,用户不得不费劲地输入该条目。另一个方法是当每次检测到未记录词时,产生一个新的音丛,以便对所述未记录词的音素序列进行音丛形成处理而变为一个重新生成的音丛。然而,利用该方法,每次检测到一个未记录词时就得把与所述新的音丛对应的条目记录到字典中,并且因此随着对未记录词进行记录而增大了所述字典的容量。结果,在随后进行的语音识别中就必需要求更多的时间和更大处理量。
技术实现思路
鉴于上述情况,本专利技术的一个目的是在不使字典的容量显著增加的情况下,提供一种易于把未记录词记录到字典的技术。本专利技术提供一种语音识别装置,包括音丛检测单元,用于从通过对语音进行音丛形成处理而获得的现有音丛中检测将把所述输入语音作为一个新成员添加其中的音丛;音丛划分单元,用于把所述输入语音当作由所述音丛检测单元检测的所述音丛的新成员使用,并且根据所述音丛成员划分所述音丛;和更新单元,用于基于所述音丛划分单元执行的划分结果,更新所述字典。本专利技术提供的一种语音识别方法,包括步骤从通过对语音进行音丛形成处理而获得的现有音丛中,检测将把所述输入语音作为一个新成员添加其中的音丛;把所述输入语音当作在所述音丛检测步骤中检测的音丛的新成员使用,并且根据所述音丛成员划分所述音丛;和基于在所述音丛划分步骤中执行的划分结果,更新所述字典。本专利技术提供一程序,包括步骤从通过对语音进行音丛形成处理而获得的现有音丛中,检测将所述输入语音作为新成员加入其中的音丛;将所述输入语音作为在所述音丛检测步骤检测的音丛的新成员使用,并根据音丛成员划分音丛;以及基于在音丛划分步骤执行的划分结果,更新字典。本专利技术提供了一种包括一程序的存储介质,存储在其中的程序包括步骤从通过对语音进行音丛形成处理而获得的现有音丛中,检测将所述输入语音作为一个新成员加入其中的音丛;把所述输入语音当作在所述音丛检测步骤检测的音丛的新成员使用,并且根据所述音丛成员划分所述音丛;和基于在所述音丛划分步骤中执行的划分结果,更新所述字典。在本专利技术中,从通过对语音进行音丛形成处理而获得的现有音丛中,检测将所述输入语音作为一个新成员加入其中的音丛。把输入语音作为一新成员加入所述已被检测的音丛,并根据所述音丛的所述成员划分所述音丛。依据划分结果更新所述字典。附图说明图1是显示根据本专利技术的一个实施例的机器动物的外部结构的一个示例的透视图。图2是显示所述机器动物的内部结构的一个示例的方框图。图3是显示图1所示的机器动物的控制器功能结构的一个示例的方框图。图4是显示根据本专利技术实施例的语音识别装置的结构的一个示例的方框图,其中,所述语音识别装置被用作如图1所示的机器动物的语音识别单元。图5是显示一个字典的图表。图6是显示语法规则的图表。图7是显示在如图4所示的语音识别单元的特征向量缓冲器中存储的内容的图表。图8是显示一个得分表的图表。图9是显示由如图4所示的语音识别单元执行的语音识别处理的流程图。图10是显示如图9所示的未记录词处理细节的流程图。图11是显示如图9所示的音丛划分处理细节的流程图。图12是显示仿真结果的图表。图13是显示根据本专利技术的第二实施例的语音识别装置的硬件结构的一个示例的图。图14是显示如图13所示的语音识别装置的软件结构的一个示例本文档来自技高网
...

【技术保护点】
一种语音识别装置,用于对某个输入语音进行处理,和按照输入语音的处理结果更新在语言处理中使用的某个字典,所述语音识别装置包括:音丛检测单元,用于从通过对语音进行音丛形成处理而获得的现有音丛中检测将把所述输入语音作为一个新成员添加其中的音丛 ;音丛划分单元,用于把所述输入语音当作由所述音丛检测单元检测的所述音丛的新成员使用,并且根据所述音丛的成员划分所述音丛;和更新单元,用于基于由所述音丛划分单元执行的划分结果更新所述字典。

【技术特征摘要】
JP 2002-3-14 69603/02;JP 2001-3-30 97843/011.一种语音识别装置,用于对某个输入语音进行处理,和按照输入语音的处理结果更新在语言处理中使用的某个字典,所述语音识别装置包括音丛检测单元,用于从通过对语音进行音丛形成处理而获得的现有音丛中检测将把所述输入语音作为一个新成员添加其中的音丛;音丛划分单元,用于把所述输入语音当作由所述音丛检测单元检测的所述音丛的新成员使用,并且根据所述音丛的成员划分所述音丛;和更新单元,用于基于由所述音丛划分单元执行的划分结果更新所述字典。2.如权利要求1所述的语音识别装置,其中,所述字典把将要被识别的词汇的音素序列存储起来;并且所述更新单元通过添加作为一个新成员的,与代表由划分处理而产生的某个音丛的成员的代表成员相对应的语音的音素序列,或者用与代表通过由所述划分处理而产生的所述音丛的代表成员相对应的所述语音的所述音素序列替换所述字典的某个条目,来更新所述字典。3.如权利要求1所述的语音识别装置,其中,所述音丛检测单元通过确定在所述音丛的成员中观测的所述输入语音的似然概率(likelyhood),计算关于所述音丛的每个成员的所述输入语音的得分;对于所述音丛的成员,选择把最高值给予所述输入语音的所述得分的成员,并把已被选择的成员当作表示所述音丛的所述成员的代表成员使用;和把具有代表成员的所述音丛确定为把所述输入语音作为一个新成员将被添加其中的一个音丛。4.如权利要求1所述的语音识别装置,其中,所述输入语音是在所述字典中还没有预先记录的未记录词。5.如权利要求3所述的语音识别装置,其中,在对于所述音丛的成员,把具有关于该音丛的其他成员的得分最大和的一个成员,当作代表该音丛的所述成员的代表成员使用这样一种情况下,所述音丛划分单元将把输入语音添加其中的所述音丛划分为两个音丛,即,第一和第二音丛,以使所述原始音丛的两个成员分别成为所述第一和第二音丛的代表成员。6.如权利要求5所述的语音识别装置,其中,在存在组成第一和第二音丛的两个音丛的多个结合的情况下,所述音丛划分单元把包括作为其成员的所述输入语音的音丛划分成两个音丛,以使在所述第一音丛和所述第二音丛之间的音丛到音丛的距离最小。7.如权利要求6所述的语音识别装置,其中,当选择组成第一和第二音丛的两个音丛的结合,以致在所述第一音丛和所述第二音丛之间的音丛到音丛的距离最小时,如果所述最小音丛到音丛的距离大于某个预定的阈值,则所述音丛划分单元把一个包括作为其成员的所述输入语音的音丛划分成两个音丛。8.如权利要求5所述的语音识别装置,此外还包括存储单元,用于存储关于每个得分的每个成员的所述音丛成员的得分。9.如权利要求1所述的语音识别装置,其中,所述字典存储将被识别的某个词汇的音素序列,并且,其中,所述语音识别装置还包括语音识别单元,用于基于按照在所述字典中存储的所述音素序列构造的声学模型识别语音。10.如权利要求9所述的语音识别装置,其中,所述声学模型是HMM(隐藏马尔可夫模型)。11.如权利要求9所述的语音识别装置,其中,所述语音识别单元通过以子字(sub-word)为单位连接HMM,构造与在所述字典中存储的音素序列相对应的声学模型,并且基于所述声学模型识别语音。12.如权利要求9所述的语音识别装置,其中,所述语音识别单元同时也基于预定的语法规则识别语音。13.如权利要求12所述的语音识别装置,其中,所述语音识别单元按照预定的语法规则,提取所述输入语音的一个特定周期;和所述音丛检测单元和所述音丛划分单元在所述输入语音的所述周期上执行它们的处理。14.如权利要求13所述的语音识别装置,其中,所述语音识别单元从所述输入语音中提取在所述字典中没有记录的未记录词的周期,作为所述特定周期。15.如权利要求14所述的语音识别装置,其中,所述语音识别单元利用一个无用信息模型,按照预定的语法规则,提取所述未记录词的所述周期。16.如权利要求1所述的语音识别装置,其中,所述音丛划分单元利用EM(最大期望值)方法划分所述音丛。17.如权利要求1所述的语音识别装置,还包括存储单元,用于存储由所述音丛检测单元使用的、与输入语音相联系的语音信息...

【专利技术属性】
技术研发人员:表雅则赫尔穆特勒克
申请(专利权)人:索尼公司
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利