语音识别装置及方法、以及半导体集成电路装置制造方法及图纸

技术编号:10369717 阅读:191 留言:0更新日期:2014-08-28 12:25
本发明专利技术涉及一种语音识别装置及方法、以及半导体集成电路装置,通过使语音识别中选择项信息的更新变容易从而适当限制选择项信息的范围以提高识别率、或者能应对较深的语音识别分级菜单。语音识别用的半导体集成电路装置包括:将表示单词或者语句的文本数据与指令一起接收并根据指令在转换列表中设定文本数据的转换候选设定部;从语音识别数据库中提取与在转换列表中所设定的文本数据表示的单词或者语句的至少一部分相对应的标准模式的标准模式提取部;提取所输入的语音信号的频率成分并生成表示频率成分的分布状态的特征模式的信号处理部;检测根据语音信号的至少一部分而生成的特征模式和标准模式的一致性并输出语音识别结果的一致检测部。

【技术实现步骤摘要】
语音识别装置及方法、以及半导体集成电路装置
本专利技术涉及一种语音识别装置以及语音识别方法,所述语音识别装置及语音识别方法作为自动贩卖机、家电产品、家用设备、车载装置(导航装置等)、以及移动终端等中的人机界面技术的一环,对语音进行识别,并实施与该识别结果相对应的响应及处理。并且,本专利技术涉及一种在这种语音识别装置中所使用的半导体集成电路装置等。
技术介绍
语音识别为一种如下的技术,S卩,通过对被输入的语音信号进行分析,并将作为该分析的结果而得出的特征模式、与根据被预先收录的语音信号而存储于语音识别数据库中的标准模式(也称为“模板”)进行对照,从而得到识别结果的技术。但是,在未对对照的范围设置限制的情况下,应当进行比较的特征模式与标准模式的组合将成为庞大的数量,从而为了得到识别结果而需要花费较多的时间,并且由于具有相似的标准模式的单词或者语句的数量也会变多,因此将会呈现出识别率降低的趋势。作为相关联的现有技术,在专利文献I中公开了一种如下的播放装置,其目的在于,不需要预先的准备或大量的词典,通过语音便能够指定应当播放的乐曲等的内容。该播放装置读取被存储在⑶中的TOC (Table Of Contents:目录表)数据内的曲名数据,预先将该曲名数据转换为与语音识别结果相同的格式以作为候选数据而进行保存,并将对语音输入的曲名实施语音识别处理而得到的结果与候选数据进行对照,并且对与匹配性最高的候选数据相对应的乐曲进行播放。其结果为,由于能够通过用户的语音来指定应当播放的乐曲,因此减少了由用户实施的显示确认及按钮操作等。在专利文献I的播放装置中,语音识别中的选择项被限定于被存储在CD中的乐曲,并且作为文字信息的曲名数据被转换成与语音识别结果相同格式的候选数据。但是,将曲名数据等的文字信息转换为候选数据的处理的负担较大,在如以导航装置为代表的这种实施多种多样的信息处理的装置中,难以与已经在实施的其他信息处理并行地,迅速地实施随着该转换处理而产生的语音识别词典的制作及更新等的操作。因此,将产生语音识别处理延迟的问题。此外,在专利文献2中公开了一种车载信息处理装置,其目的在于,能够在用于语音识别的语音识别词典的更新过程中实施语音识别。该车载信息处理装置具有:连接单元,其上连接有信息终端,所述信息终端具有信息数据和属性数据,所述属性数据包括对该信息数据进行确定的识别信息;语音识别词典制作单元,其取得信息终端所具有的属性数据,并将该属性数据的一部分转换成语音识别信息,并且将该语音识别信息与识别信息关联起来从而制作出语音识别词典;词典存储单元,其对所制作出的语音识别词典进行存储;语音识别处理单元,其实施语音识别处理,所述语音识别处理为,对所输入的语音进行处理,并从语音识别词典中检测出与对应于该语音的语音识别信息相关联的识别信息;信息数据取得单元,其通过设定所检测出的识别信息,从而根据该识别信息来取得信息终端的信息数据,并且所述车载信息处理装置输出基于所取得的信息数据的信息。专利文献2的车载信息处理装置具有判断单元,在语音识别词典制作单元制作语音识别词典的过程中,所述判断单元通过被存储于词典存储单元中的语音识别词典来实施语音识别处理,并对通过该语音识别处理所检测出的识别信息与信息终端的识别信息一致还是不一致进行判断,在一致时与不一致时,对在信息数据取得单元中设定的识别信息进行变更,从而使所取得的信息数据成为不同的数据。但是,如果在取得了新的属性数据后,使用被存储于词典存储单元中的更新前的语音识别词典来实施语音识别处理,则也存在无法获得良好的语音识别结果的情况。此外,在语音识别中,对于在根据语音信号而对单词或者语句进行识别时所要求的识别精度的严密性或者模糊性而言,无论具有相似的表达模式的单词或者语句的数量多少,而均被设定为固定。作为相关联的现有技术,在专利文献3中公开了一种如下的语音识别装置,其目的在于,即使在使用者的讲话模糊的情况下,也能够精度良好地对使用者的讲话进行识别。该语音识别装置为,根据针对所输入的语音的识别结果而对控制对象的控制内容进行确定的语音识别装置,其具备任务种类确定单元和语音识别单元,其中所述任务种类确定单元根据预定的确定输入而对表示控制内容的任务的种类进行确定,所述语音识别单元将由任务种类确定单元确定出的种类的任务作为判断对象,而对所输入的语音进行识别。在专利文献3的语音识别装置中,当根据语音信号而良好地识别出用户的语句时,即使在用户的语句中未确定出对什么进行内容控制,也能够按照如何进行控制这种指标来对识别对象进行限定,从而对控制对象的控制内容进行确定。但是,在根据语音信号而对用户的语句进行识别时所要求的识别精度的严密性或者模糊性为固定,从而无法提高语音识别中的识别率。虽然一般情况下,语音识别中的选择项信息保存在语音识别词典中,但是由于语音识别词典的更新需要时间,因此在语音识别处理的执行过程中难以实施对选择项信息的更新。例如,在实施多次提问并根据针对于每次提问的回答而判断说话人的目的的这种情况下,虽然准备了设定有该多次提问和对于这些提问的多个选择项的语音识别脚本,但难以对针对于沿着庞大的脚本而产生的多次提问的多个选择项的选择项信息进行变更。因此,本专利技术的目的之一在于,通过使语音识别中的选择项信息的更新变得容易,从而适当地限制选择项信息的范围以提高识别率、或者能够应对较深的语音识别分级菜单。如上所述,在语音识别中,对于根据语音信号而对单词或者语句进行识别时所要求的识别精度的严密性或者模糊性而言,无论具有相似的表达模式的单词或者语句的数量多少,而均被设定为固定。因此,由于在选择项的数量较多时与较少时、或者选择项中相似的语句较多时与较少时,以相同的识别条件来实施语音识别,因此存在语音识别中的识别率得不到提高的问题。专利文献1:日本特开2005-85433号公报(摘要)专利文献2:日本特开2011-39202号公报(段落0004?0010)专利文献3:日本特开2008-64885号公报(段落0006?0010)
技术实现思路
因此,鉴于上述情况,本专利技术的目的之一在于,通过适当地限制语音识别中的选择项的数量,并且根据选择项而使语音识别所要求的识别精度的严密性或者模糊性发生变化,从而提高语音识别中的识别率。本专利技术是为了解决上述的课题或问题中的至少一个而完成的。为了解决以上的课题,本专利技术的第一观点所涉及的半导体集成电路装置具备:语音识别数据库存储部,其中存储有语音识别数据库,所述语音识别数据库包括,表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式;转换候选设定部,其将表示单词或者语句的文本数据与指令一起接收,并按照指令而在转换列表中设定文本数据;转换列表存储部,其中存储有转换列表;标准模式提取部,其从语音识别数据库中提取与由在转换列表中所设定的文本数据所表示的单词或者语句的至少一部分相对应的标准模式;信号处理部,其通过对所输入的语音信号实施傅立叶转换从而提取语音信号的频率成分,并生成表示语音信号的频率成分的分布状态的特征模式;一致检测部,其对根据语音信号的至少一部分而生成的特征模式、和从语音识别数据库中提取的标准模式之间的一致性进行检测,并输出语音识别结果,所述语音识别结果为,在成为转换本文档来自技高网
...

【技术保护点】
一种半导体集成电路装置,具备:语音识别数据库存储部,其中存储有语音识别数据库,所述语音识别数据库中包括,表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式;转换候选设定部,其将表示单词或者语句的文本数据与指令一起接收,并按照所述指令而在转换列表中设定文本数据;转换列表存储部,其中存储有所述转换列表;标准模式提取部,其从所述语音识别数据库中提取与由在所述转换列表中所设定的文本数据所表示的所述单词或者语句的至少一部分相对应的所述标准模式;信号处理部,其通过对所输入的语音信号实施傅立叶转换从而提取所述语音信号的频率成分,并生成表示所述语音信号的频率成分的分布状态的特征模式;一致检测部,其对根据所述语音信号的至少一部分而生成的所述特征模式、和从所述语音识别数据库中提取的所述标准模式之间的一致性进行检测,并输出语音识别结果,所述语音识别结果为,在成为转换候选的多个单词或者语句内确定出被检测为一致的单词或者语句的语音识别结果。

【技术特征摘要】
2013.02.25 JP 2013-034257;2013.03.05 JP 2013-042661.一种半导体集成电路装置,具备: 语音识别数据库存储部,其中存储有语音识别数据库,所述语音识别数据库中包括,表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式; 转换候选设定部,其将表示单词或者语句的文本数据与指令一起接收,并按照所述指令而在转换列表中设定文本数据; 转换列表存储部,其中存储有所述转换列表; 标准模式提取部,其从所述语音识别数据库中提取与由在所述转换列表中所设定的文本数据所表示的所述单词或者语句的至少一部分相对应的所述标准模式; 信号处理部,其通过对所输入的语音信号实施傅立叶转换从而提取所述语音信号的频率成分,并生成表示所述语音信号的频率成分的分布状态的特征模式; 一致检测部,其对根据所述语音信号的至少一部分而生成的所述特征模式、和从所述语音识别数据库中提取的所述标准模式之间的一致性进行检测,并输出语音识别结果,所述语音识别结果为,在成为转换候选的多个单词或者语句内确定出被检测为一致的单词或者语句的语音识别结果。2.如权利要求1所述的半导体集成电路装置,其中, 还具备语音信号合成部,所述语音信号合成部接收表示针对于所述语音识别结果的响应内容的响应数据,并根据所述响应数据来合成输出语音信号。3.如权利要求1或2 所述的半导体集成电路装置,其中, 所述信号处理部在所述语音信号的电平超过了预定的值时将语音检测信号激活。4.一种语音识别装置,具备: 权利要求1所述的半导体集成电路装置; 控制部,其将表示所述单词或者语句的文本数据与指令一起发送至所述半导体集成电路装置。5.一种语音识别装置,具备: 权利要求2所述的半导体集成电路装置; 控制部,其接收所述语音识别结果,并将所述响应数据、以及所述表示单词或者语句的文本数据,与所述指令一起发送至所述半导体集成电路装置。6.一种语音识别装置,具备: 权利要求3所述的半导体集成电路装置; 控制部,其以如下的方式对所述半导体集成电路装置进行控制,即,在从所述语音检测信号被激活起的预定的期间内未得到表现出所述特征模式与所述标准模式之间的一致的语音识别结果的情况下,将应当向所述转换列中表追加的文本数据与所述指令一起发送至所述半导体集成电路装置,并实施一致检测。7.一种语音识别方法,包括如下步骤: 步骤(a),将表示单词或者语句的文本数据与指令一起接收,并按照所述指令而在转换列表中设定文本数据; 步骤(b),从包括表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式的语音识别数据库中,提取与由在所述转换列表中所设定的文本数据所表示的所述单词或者语句中的至少一部分相对应的所述标准模式;步骤(C),通过对所输入的语音信号实施傅立叶转换从而提取所述语音信号的频率成分,并生成表示所述语音信号的频率成分的分布状态的特征模式; 步骤(d),对根据所述语音信号的至少一部分而生成的所述特征模式、和从所述语音识别数据库中提取的所述标准模式之间的一致性进行检测,并输出语音识别结果,所述语音识别结果为,在成为转换候选的多个单词或者语句内确定出被检测为一致的单词或者语句的语音识别结果。8.一种半导体集成电路装置,具备: 语音识别数据库存储部,其中存储有语音识别数据库,所述语音识别数据库包括,表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式; 转换信息设定部,其将表示成为转换候选的单词或者语句的文本...

【专利技术属性】
技术研发人员:野中勉
申请(专利权)人:精工爱普生株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1