本发明专利技术的声音识别装置包括:声音识别部(3),该声音识别部(3)对输入声音进行声音识别;声音识别词典(4),该声音识别词典(4)登记对输入声音进行声音识别而得到的词语;响应用声音数据存放部(6),该响应用声音数据存放部(6)对登记于声音识别词典(4)中的词语的录音声音数据进行存放;对话控制部(7),该对话控制部(7)在声音识别部(3)对登记于声音识别词典(4)中的词语进行声音识别时,从响应用声音数据存放部(6)获取与该词语相对应的录音声音数据;重放用噪音降低部(8),该重放用噪音降低部(8)对由对话控制部(7)从响应用声音数据存放部(6)获取的录音声音数据中所包含的噪音进行降低处理;振幅调整部(9),该振幅调整部(9)将由重放用噪音降低部(8)降低噪音后的录音声音数据的振幅调整为规定的声音水平的振幅;及声音重放部(10),该声音重放部(10)重放振幅调整部(9)所输出的重放对象的录音声音数据。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及从所输入的声音数据中去除噪音分量并进行振幅调整、从而实现声音识别率的提高的声音识别装置。
技术介绍
以往,公开了各种提供未包含噪音的、对用户而言易于听清的声音的技术。例如,在专利文献I中,利用在噪音去除部中存储的加权即将停止之前的噪音去除参数,从声音与稳定的噪音混杂的信号中仅取出声音信号,进行数字编码。此外,在专利文献2中,构成为在从扬声器输出的声音或音响难以听清时,利用者操作调整部,使声音或音响的特征发生变化,使其易于与噪音等区别开来。此外,在专利文献3中,在重放声音时,判定基于声源 参数而计算出的能量值,根据该判定值来选择预定的增益,按照所选择的增益来修正声音数据的重放音量。现有技术文献专利文献专利文献I :日本专利特开平5 — 219176号公报专利文献2 日本专利特开平7 - 262490号公报专利文献3 :日本专利特开平11 - 265200号公报
技术实现思路
由于现有的声音识别及声音重放如以上那样构成,因此,在高噪音下进行输入声音的登记的情况下,对重叠有噪音的声音执行振幅的调整,存在重放的响应声音与固定响应声音相比为较小的声音的问题。本专利技术是为了解决上述那样的问题而完成的,其目的在于提供一种能从输入声音中去除噪音、并输出将振幅标准化后的声音的声音识别装置。本专利技术所涉及的声音识别装置包括声音识别部,该声音识别部对输入声音进行声音识别;声音识别词典,该声音识别词典登记对输入声音进行声音识别而得到的词语;响应用声音数据存放部,该响应用声音数据存放部对登记于所述声音识别词典中的词语的录音声音数据进行存放;对话控制部,该对话控制部在所述声音识别部对登记于所述声音识别词典中的词语进行声音识别时,从所述响应用声音数据存放部获取与该词语相对应的录音声音数据;重放用噪音降低部,该重放用噪音降低部对由所述对话控制部从所述响应用声音数据存放部获取的录音声音数据中所包含的噪音进行降低处理;振幅调整部,该振幅调整部将由所述重放用噪音降低部降低噪音后的所述录音声音数据的振幅调整为规定的声音水平的振幅;及声音重放部,该声音重放部重放所述振幅调整部所输出的重放对象的录音声音数据。此外,声音识别装置包括声音识别部,该声音识别部对输入声音进行声音识别;声音识别词典,该声音识别词典登记对输入声音进行声音识别而得到的词语;响应用声音数据存放部,该响应用声音数据存放部对登记于所述声音识别词典中的词语的录音声音数据进行存放;对话控制部,该对话控制部在所述声音识别部对登记于所述声音识别词典中的词语进行声音识别时,从所述响应用声音数据存放部获取与该词语相对应的录音声音数据;重放用噪音降低部,该重放用噪音降低部对作为所述录音声音数据而存放于所述响应用声音数据存放部的输入声音中所包含的噪音进行降低处理;振幅调整部,该振幅调整部将由所述对话控制部从所述响应用声音数据存放部获取的所述录音声音数据的振幅调整为规定的声音水平的振幅;及声音重放部,该声音重放部重放所述振幅调整部所输出的重放对象的录音声音数据。根据本专利技术,能生成对用户而言易于听清的声音。附图说明图I是表示实施方式I所涉及的声音识别装置的结构的框图。 图2是表示实施方式I的声音识别装置中的向声音识别词典进行登记的登记示例的图。图3是表示实施方式I的声音识别装置中的向响应用声音数据存放部进行登记的登记示例的图。图4是表示实施方式I的声音识别装置中的振幅调整的说明图。图5是表示实施方式I所涉及的声音识别装置的动作的流程图。图6是表示实施方式I所涉及的声音识别装置的动作的流程图。图7是表示实施方式2所涉及的声音识别装置的结构的框图。图8是表示实施方式2所涉及的声音识别装置的动作的流程图。图9是表示实施方式2所涉及的声音识别装置的动作的流程图。图10是表示实施方式3所涉及的声音识别装置的结构的框图。图11是表示实施方式3所涉及的声音识别装置的动作的流程图。图12是表示实施方式4所涉及的声音识别装置的结构的框图。具体实施例方式以下,为了更详细地说明本专利技术,按照附图说明用于实施本专利技术的方式。实施方式I图I是表示实施方式I所涉及的声音识别装置的结构的框图。实施方式I的声音识别装置I包括声音输入部2、声音识别部3、声音识别词典4、声音录音部5、响应用声音数据存放部6、对话控制部7、重放用噪音降低部8、输出振幅调整部(振幅调整部)9、及声音重放部10。声音输入部2接收用户所发出的声音的输入,输出声音数据。在向声音识别词典4进行登记的登记处理中,声音识别部3对从声音输入部2输入的声音数据进行识别,使声音识别结果与固有ID相对应地登记到声音识别词典4中。声音识别例如利用下述的专利文献I所揭示的隐马尔可夫模型(HiddenMarkov Model)来进行。图2是表示实施方式I的声音识别装置中的向声音识别词典4进行登记的登记示例的图。此处,声音识别结果例如是音素序列等。此外,在基于用户的发声来调出录音声音数据的处理中,声音识别部3对从声音输入部2输入的声音数据进行识别,参照声音识别词典4,获取与识别出的词语相对应的ID。另外,词语(word)不仅包含日语或外语中使用的单词,还包含数字、字母、标号等的组合(例如,型号)等。古井贞熙“声音信息处理”第5章声音识别词典4将声音识别部3的声音识别结果与固有ID—起进行存储。声音录音部5对从声音输入部2输入的声音数据进行录音,并登记到响应用声音数据存放部6中。录音声音数据的登记是附加与声音识别部3所附加对应的ID相同的ID来进行的。响应用声音数据存放部6将录音声音数据与固有ID —起进行存储。图3是表示实施方式I所涉及的声音识别装置中的向响应用声音数据存放部6进行登记的登记示例的图。对话控制部7在用户说出与登记于声音识别词典4的声音数据相同的内容的情况 下,从声音识别部3获取与发声内容相同的声音识别结果的ID,从响应用声音数据存放部6获取与该ID相同ID的录音声音数据。重放用噪音降低部8将从对话控制部7输入的录音声音数据中的噪音去除。作为噪音去除方法,可应用例如参考文献I (P126)及参考文献2所揭示的谱减法等。对重放用的声音数据进行噪音去除处理,以成为在人的听觉上不会感到不自然的声音。S. F, Boll. “使用谱减法来抑制语音中的噪音(Suppression of acousticnoisein speech using spectral subtraction),,,IEEE Trans. Acoust. SpeechSignalProcess. , vol. ASSP-27, no. 2, pp. 113-120,1979.)输出振幅调整部9将由重放用噪音降低部8去除噪音后的录音声音数据的振幅调整为规定的声音水平的振幅。振幅调整的具体例如图4所示。图4的示例中,进行振幅调整,使得去除噪音后的录音声音数据的振幅的最大值与固定响应声音数据的振幅的最大值相一致。声音重放部10对进行振幅调整后的录音声音数据进行重放,输出响应声音。接下来,对声音识别装置I的动作进行说明。图5及图6是表示实施方式I所涉及的声音识别装置的动作的流程图。另外,将声音识别装置I的动作分成图5所示的将声音数据登记于声音识别词典4和响应用声音数据存放部6中的处理、和图6所示的本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】
【专利技术属性】
技术研发人员:大沢政信,野木和行,
申请(专利权)人:三菱电机株式会社,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。