进行本地语音识别的语音识别客户端设备制造技术

技术编号:13031477 阅读:68 留言:0更新日期:2016-03-17 02:47
技术问题:提供一种客户端,其在本地也具有语音识别功能,能够自然地进行语音识别服务器的语音识别功能的启动,在抑制通信线路的负荷同时也能够维持高精度。解决手段:语音识别客户端装置(34)通过与语音识别服务器(36)的通信,接收利用由语音识别服务器(36)得到的语音识别结果,所述语音识别客户端装置(34)包含将语音转换为语音数据的分帧处理部(52)、对语音数据进行语音识别的本地语音识别处理部(80)、向语音识别服务器发送语音数据并接收由该语音识别服务器得到的语音识别结果的发送接收部(56)、根据语音识别处理部(80)对语音数据的识别结果来控制由发送接收部(56)发送语音数据的判断部(82)及通信控制部(86)。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种具备通过与语音识别服务器进行通信来识别语音的功能的语音识别客户端设备,尤其涉及一种具备与服务器分开的、本地语音识别功能的语音识别客户端设备。
技术介绍
可连接到网络的手机等便携式终端设备的数量呈爆发性增长。便携式终端设备实际上可以说是小型计算机。尤其是所谓的智能手机等,能够使用互联网上搜索网站、收听收看音乐/视频、邮件交换、银行交易、速写、录音/录像等与台式计算机同等丰富的功能。但是,为了使用如此丰富的功能而存在一个瓶颈,就是便携式终端设备的机壳小。便携式终端设备的框体小是注定的。因此,不能搭载如计算机键盘这样用于高速输入的设备。已专利技术出使用触摸面板的各种输入方式,与以前相比变得能够快速输入,但是输入还是没那么容易。在这种情况下,语音识别作为用于输入的方式而备受注目。目前语音识别的主流是统计性语音识别设备,该统计性语音识别设备使用通过统计性处理许多语音数据而做成的声学模型以及由大量文件获得的统计性语言模型。由于这样的语音识别设备需要非常大的计算能力,因此只有大容量且计算能力充分高的计算机才能实现。在便携式终端设备中利用语音识别功能的情况下,利用在线提供语音识别功能的被称为语音识别服务器的服务器,便携式终端设备作为利用该结果的语音识别客户端来工作。在语音识别客户端进行语音识别时,将在本地处理语音而得到的语音数据、编码数据或语音的特征值(特性)在线发送到语音识别服务器,接收语音识别结果并进行基于该结果的处理。这是因为便携式终端设备的计算能力较低,且可利用的计算资源也有限的原因。但是,由于半导体技术的进步,CPU(Central Processing Unit,中央处理器)的计算能力变得非常强,此外,存储器容量与以往相比有很大的增加。而且消耗电力变小。因此,即便是便携式终端设备也能够充分使用语音识别。而且,由于便携式终端设备中使用的用户被限定,因此通过预先特别设定语音识别的说话人,准备适合于该说话人的声学模型,或向词典添加特定词汇,从而能够提高语音识别的精度。然而,在可利用的计算资源方面,由于语音识别服务器具有压倒性优势,因此,毫无疑问,在语音识别精度方面,由语音识别服务器进行语音识别比便携式终端设备更具优势。这样,在日本专利公开2010-85536号公报(下面称为“ ‘536号公报”),尤其是第0045?0050段及图4中公开了用于补偿便携式终端设备上搭载的语音识别的精度较低这一缺点的方案。‘536号公报涉及一种与语音识别服务器通信的客户端。该客户端对语音进行处理并转换为语音数据,向语音识别服务器发送。若从语音识别服务器接收到该语音识别结果,则对该语音识别结果附上句节分隔位置、句节的属性(文字种类)、单词的词性、句节的时间信息等。客户端利用来自服务器的语音识别结果中所附带的这些信息,在本地进行语音识别。此时,由于能够使用在本地添加的词汇或声学模型,因此根据词汇存在能够对被语音识别服务器错误识别的语音进行正确识别的可能性。在‘536号公报所公开的客户端中,将来自语音识别服务器的语音识别结果与在本地进行的语音识别结果进行比较,对于两者识别结果不同的地方,由用户来任选其一。
技术实现思路
(一 )要解决的技术问题‘536号公报所公开的客户端起到了能够用本地语音识别结果补充语音识别服务器的识别结果这样的优异效果。但是,若考虑现在的便携式终端设备的语音识别的使用方法,关于具有这种功能的便携式终端的操作,认为还有改善的余地。其中一个问题在于,如何使语音识别处理在便携式终端设备上开始。在‘536号公报中并没有公开在本地如何开始语音识别。在现有的可利用的便携式终端设备中,主流是在画面上显示用于开始语音识别的按钮,若触碰该按钮则启动语音识别功能。或者,也有设置用于开始语音识别的专用硬件按钮的方式。还有在不具备本地语音识别功能的手机工作的应用程序中,通过传感器感知用户做出发声姿势的状态,也就是将手机贴到耳旁的状态,从而开始语音输入和向服务器发送语音数据的方式。但是,在启动这些任意一种语音识别功能时,需要用户进行特定的动作。这些便携式终端设备中,为了使用各种功能,可预测需要比以往更灵活地使用语音识别功能,因此需要使语音识别功能的启动变得更加自然。另一方面,既需要尽量抑制便携式终端设备与语音识别服务器之间的通信量,又需要维持语音识别的高精度。因此,本专利技术的目的在于,提供一种语音识别客户端设备,其在使用语音识别服务器的同时在本地也具有语音识别功能,该语音识别客户端设备能够自然地进行语音识别功能的启动,在抑制通信线路的负荷的同时还能够维持语音识别的高精度。(二)技术方案本专利技术第一方面的语音识别客户端设备,是通过与语音识别服务器的通信来接收来自该语音识别服务器的语音识别结果的语音识别客户端设备。该语音识别客户端设备包含语音转换装置、语音识别装置、发送接收装置及发送接收控制装置,所述语音转换装置将语音转换为语音数据;所述语音识别装置对语音数据进行语音识别;所述发送接收装置向语音识别服务器发送语音数据并接收由该语音识别服务器得到的语音识别结果;所述发送接收控制装置根据语音识别装置对语音数据的识别结果,控制由发送接收装置进行的语音数据的发送。基于本地语音识别装置的输出,对是否向语音识别服务器发送语音数据进行控制。为了利用语音识别服务器,除了发声不需要特别的操作。若语音识别装置的识别结果不是特定内容,则不向语音识别服务器发送语音数据。其结果为,根据本专利技术,能够提供一种语音识别客户端设备,该语音识别客户端设备能够自然地进行语音识别功能的启动,在抑制通信线路负荷的同时还能维持语音识别的高精度。优选地,发送接收控制装置包含关键词检测装置及发送开始控制装置,所述关键词检测装置检测由语音识别装置得到的语音识别结果中是否存在关键词,并输出检测信号;所述发送开始控制装置对检测信号做出响应,来控制发送接收装置,使得向语音识别服务器发送语音数据中与关键词的发声区间的开头具有规定关系的部分。若在本地语音识别装置的语音识别结果中检测到关键词,则开始发送语音数据。为了利用语音识别服务器的语音识别,仅发出特殊的关键词的声音即可,不需要按压按钮等用于开始语音识别的明确性的操作。更加优选地,发送开始控制装置包含下述装置,该装置对检测信号做出响应,并控制发送接收装置,使得向语音识别服务器发送语音数据中以关键词的发声结束位置为开头的部分。从关键词之后部分开始向语音识别服务器发送语音数据,由此不在语音识别服务器进行关键词部分的语音识别即可。由于语音识别结果中不包含关键词,因此可以直接利用关键词之后发声的内容所涉及的语音识别结果。更加优选地,发送开始控制装置包含下述装置:该装置对检测信号做出响应,并控制发送接收装置,使得发送语音数据中以关键词的发声开始位置为开头的部分。通过将关键词发声开始位置作为开头并向语音识别服务器发送,能够通过语音识别服务器再次进行关键词部分的确认,或能够利用语音识别服务器的语音识别结果在便携式终端验证本地语音识别结果的正确性。语音识别客户端设备还包含一致判断装置及进行执行的装置,所述一致判断装置判断发送接收装置接收到的由语音识别服务器得到的语音识别结果的开头部分与关键词检测装置检测到的关键词是否一致;所述进行执行的装置本文档来自技高网
...

【技术保护点】
一种语音识别客户端设备,其通过与语音识别服务器的通信来接收来自该语音识别服务器的语音识别结果,其包含语音转换装置、语音识别装置、发送接收装置及发送接收控制装置,所述语音转换装置将语音转换为语音数据;所述语音识别装置对所述语音数据进行语音识别;所述发送接收装置向所述语音识别服务器发送所述语音数据并接收由该语音识别服务器得到的语音识别结果;所述发送接收控制装置根据所述语音识别装置对所述语音数据的识别结果,控制由所述发送接收装置进行的语音数据的发送。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:古谷利昭
申请(专利权)人:株式会社ATRTrek
类型:发明
国别省市:日本;JP

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1