语音处理方法及装置制造方法及图纸

技术编号:16548572 阅读:52 留言:0更新日期:2017-11-11 12:45
本发明专利技术是关于一种语音处理方法及装置,其中,语音处理方法包括:接收第一语音数据信息,并进行语音识别得到第一语音识别结果;当终端设备在执行第一语音识别结果的过程中,若接收到第二语音数据信息,进行语音识别得到第二语音识别结果;分别确定第一语音识别结果和第二语音信息识别结果所包含的信息类型;根据第一语音识别结果所包含的第一信息类型和第二语音信息识别结果所包含的第二信息类型以及预设的行为打断规则,确定第一语音识别结果和第二语音识别结果的执行方式。通过该技术方案,可以在用户在与终端对话时,避免用户等待过长的时间,即用户不需要等待终端播报完之后再开始说话,减少用户的等待时间,提升用户的使用体验。

Speech processing method and device

The present invention relates to a device and a method for speech processing, speech processing method includes: receiving the first voice data, and obtained the first speech recognition speech recognition result; when the terminal equipment in the process of performing the first speech recognition results, if received second voice data, second speech recognition speech recognition results respectively; determine the type of information contained in the first speech recognition results and second voice information recognition results; second types of information contained on the basis of the first speech recognition result contains the first second types of information and voice information recognition results and default behavior break rules, first determine the speech recognition results and second ways of implementing speech recognition results. Through the technical scheme, where the user and terminal in conversation, to avoid users waiting for long time, the user does not need to wait after the terminal broadcast end to start talking, reduce the waiting time of users, improve the user experience.

【技术实现步骤摘要】
语音处理方法及装置
本专利技术涉及语音识别
,尤其涉及一种语音处理方法及装置。
技术介绍
图1示出了常规对话的对话方式,如图1所示,常规对话方式的缺点在于:1)压迫感:在设备提示用户可以说话之后,用户必须尽快想好要说的句子,在VAD超时之前及时说出来,同时中间不能有停顿。因为一旦有停顿的话有可能就会被设备判断为说话结束,后面再说的话就不能被设备听到和解析了。压迫感是语音交互中用户感受最糟糕的一个点,也是用户使用语音功能时学习成本最高的一个点。2)被迫等待:在对话过程中,即使用户想好了要说什么,也必须要等待设备说完才能说话。比如图1例子里用户早就看到了第一个导航结果是自己所需要的,但必须要等待设备说完“您。。。。第几个”这么冗长的话之后才能说话。3)鲁棒性差:由于用户说话的时间窗口一般是基于本地VAD来确定的,但由于VAD是整个智能语音对话中最不智能的一部分,经常会发生正当用户要说话时由于旁边的噪音(如旁人聊天、电视噪音等)而使得VAD发生误判,导致录音窗口提前关闭,或者迟迟不能关闭的情况。
技术实现思路
本专利技术实施例提供一种语音处理方法及装置,用以实现用户与设备间可进行流式对话,从而减少用户的等待时长,提高语音识别系统的鲁棒性,提升用户的使用体验。根据本专利技术实施例的第一方面,提供一种语音处理方法,包括:接收第一语音数据信息,并进行语音识别得到第一语音识别结果;当所述终端设备在执行所述第一语音识别结果的过程中,若接收到第二语音数据信息,进行语音识别得到第二语音识别结果;分别确定所述第一语音识别结果和所述第二语音信息识别结果所包含的信息类型;根据所述第一语音识别结果所包含的第一信息类型和所述第二语音信息识别结果所包含的第二信息类型以及预设的行为打断规则,确定所述第一语音识别结果和所述第二语音识别结果的执行方式。在该实施例中,如果在执行第一语音识别结果时,又接收到第二语音信息,则在识别得到第二语音识别结果后,根据两个语音识别结果的信息类型和预设的行为打断规则,确定两个语音识别结果的执行方式,即确定是否打断第一语音识别结果,开始执行第二语音识别结果。这样,可以在用户在与终端对话时,避免用户等待过长的时间,即用户不需要等待终端播报完之后再开始说话,减少用户的等待时间,提升用户的使用体验。在一个实施例中,所述信息类型包括:语音播报、动作执行和媒体播放。在该实施例中,语音识别结果的信息类型主要有三种,一种是语音播报,即终端设备中所虚拟的人物的语音播报,如播报天气,与用户进行聊天等;另外一种是动作执行,如开灯,导航,调节温度等动作,这些动作几乎不消耗用户的时间;还有一种是媒体播放,如播放音乐,收音机等。在一个实施例中,所述预设的行为打断规则包括:当所述第一信息类型和所述第二信息类型均包含语音播报或者均包含媒体播放时,停止执行所述第一语音识别结果,开始执行所述第二语音识别结果;在该实施例中,如果两个语音识别结果中均包含语音播报,或者均包含媒体播放,那么两者必定产生冲突,此时,可以打断第一语音识别结果的执行过程,开始执行第二语音识别结果。比如前一个语音识别结果是“导航到陆家嘴”,紧接着后一个语音识别结果是“导航到陆家嘴东路”,那么第一个动作播报“为您导航到陆家嘴”同时启动导航到陆家嘴的动作,但紧接着打断第一个的播报改成播报“导航到陆家嘴东路”,同时向导航应用发出导航到陆家嘴东路的指令。当所述第一信息类型包含媒体播放,所述第二信息类型包含语音播报时,降低所述媒体播放的音量,开始执行所述第二语音识别结果,并在所述第二语音识别结果执行完毕后,恢复所述媒体播放的音量;在该实施例中,如果第一语音识别结果包含媒体播放,第二语音识别结果包含语音播报,则此时可以降低媒体播放的音量,开始进行第二语音识别结果对应的语音播报,在语音播报结束后,再恢复媒体播放的音量。例如,前一个语音识别结果是“播放歌曲种太阳”,紧接着后一个语音识别结果是“导航到陆家嘴东路”,那么第一个动作播放“种太阳”,但紧接着降低“种太阳”的音量,以正常音量播报“导航到陆家嘴东路”,同时向导航应用发出导航到陆家嘴东路的指令,待“导航到陆家嘴东路”播报完后,恢复正常音量继续播放歌曲“种太阳”。当所述第一信息类型包含语音播报,所述第二信息类型包含媒体播放时,在执行完所述第一语音识别结果后,开始执行所述第二语音识别结果;在该实施例中,如果第一语音识别结果包含语音播报,第二语音识别结果包含媒体播放,则可以在语音播报结束后,开始播放媒体信息,例如,前一个语音识别结果是“导航到陆家嘴东路”,紧接着后一个语音识别结果是“播放歌曲种太阳”,那么第一个动作播报“导航到陆家嘴东路”,同时向导航应用发出导航到陆家嘴东路的指令,,但紧接着播放歌曲“种太阳”。当所述第一信息类型和所述第二信息类型均不包含语音播报和媒体播放时,顺序执行所述第一语音识别结果和所述第二语音识别结果。在该实施例中,如果第一语音识别结果和第二语音识别结果均不包含语音播报和媒体播放,则可以顺序执行两个语音识别结果。例如,前一个语音识别结果是“打开车门”,紧接着后一个语音识别结果是“打开空调”,则向车门发送打开指令,然后向空调发送打开指令。在一个实施例中,所述分别确定所述第一语音识别结果和所述第二语音信息识别结果所包含的信息类型,包括:分别根据预设操作指南将所述第一语音识别结果和所述第二语音识别结果转化为可执行的第一操作指令信息和第二操作指令信息;确定所述第一操作指令信息和第二操作指令信息所包含的信息类型。在该实施例中,终端有一个映射表(或者是操作指南),根据这个映射表解读语义解析的结果,判断出是要做什么动作(例如调高空调温度多少度),再做什么语音播报(调节完空调后拨什么音频)。终端有一套逻辑,根据该逻辑将收到的语义解析结果转换成本地可操作的执行动作或语音播报或媒体播放。在一个实施例中,所述方法还包括:接收输入的行为打断规则设置命令;根据所述行为打断规则设置命令,设置所述预设的行为打断规则。在该实施例中,用户或者厂商可以根据需要设置预设的行为打断规则,从而根据自己的设置去处理两个语音识别结果之间的冲突。根据本专利技术实施例的第二方面,提供一种语音处理装置,包括:第一识别模块,用于接收第一语音数据信息,并进行语音识别得到第一语音识别结果;第二识别模块,用于当所述终端设备在执行所述第一语音识别结果的过程中,若接收到第二语音数据信息,进行语音识别得到第二语音识别结果;第一确定模块,用于分别确定所述第一语音识别结果和所述第二语音信息识别结果所包含的信息类型;第二确定模块,用于根据所述第一语音识别结果所包含的第一信息类型和所述第二语音信息识别结果所包含的第二信息类型以及预设的行为打断规则,确定所述第一语音识别结果和所述第二语音识别结果的执行方式。在一个实施例中,所述信息类型包括:语音播报、动作执行和媒体播放。在一个实施例中,所述预设的行为打断规则包括:当所述第一信息类型和所述第二信息类型均包含语音播报或者均包含媒体播放时,停止执行所述第一语音识别结果,开始执行所述第二语音识别结果;当所述第一信息类型包含媒体播放,所述第二信息类型包含语音播报时,降低所述媒体播放的音量,开始执行所述第二语音识别结果,并在所述第二语音识别结果执行完毕后,本文档来自技高网...
语音处理方法及装置

【技术保护点】
一种语音处理方法,用于终端设备,其特征在于,包括:接收第一语音数据信息,并进行语音识别得到第一语音识别结果;当所述终端设备在执行所述第一语音识别结果的过程中,若接收到第二语音数据信息,进行语音识别得到第二语音识别结果;分别确定所述第一语音识别结果和所述第二语音信息识别结果所包含的信息类型;根据所述第一语音识别结果所包含的第一信息类型和所述第二语音信息识别结果所包含的第二信息类型以及预设的行为打断规则,确定所述第一语音识别结果和所述第二语音识别结果的执行方式。

【技术特征摘要】
1.一种语音处理方法,用于终端设备,其特征在于,包括:接收第一语音数据信息,并进行语音识别得到第一语音识别结果;当所述终端设备在执行所述第一语音识别结果的过程中,若接收到第二语音数据信息,进行语音识别得到第二语音识别结果;分别确定所述第一语音识别结果和所述第二语音信息识别结果所包含的信息类型;根据所述第一语音识别结果所包含的第一信息类型和所述第二语音信息识别结果所包含的第二信息类型以及预设的行为打断规则,确定所述第一语音识别结果和所述第二语音识别结果的执行方式。2.根据权利要求1所述的方法,其特征在于,所述信息类型包括:语音播报、动作执行和媒体播放。3.根据权利要求2所述的方法,其特征在于,所述预设的行为打断规则包括:当所述第一信息类型和所述第二信息类型均包含语音播报或者均包含媒体播放时,停止执行所述第一语音识别结果,开始执行所述第二语音识别结果;当所述第一信息类型包含媒体播放,所述第二信息类型包含语音播报时,降低所述媒体播放的音量,开始执行所述第二语音识别结果,并在所述第二语音识别结果执行完毕后,恢复所述媒体播放的音量;当所述第一信息类型包含语音播报,所述第二信息类型包含媒体播放时,在执行完所述第一语音识别结果后,开始执行所述第二语音识别结果;当所述第一信息类型和所述第二信息类型均不包含语音播报和媒体播放时,顺序执行所述第一语音识别结果和所述第二语音识别结果。4.根据权利要求2所述的方法,其特征在于,所述分别确定所述第一语音识别结果和所述第二语音信息识别结果所包含的信息类型,包括:分别根据预设操作指南将所述第一语音识别结果和所述第二语音识别结果转化为可执行的第一操作指令信息和第二操作指令信息;确定所述第一操作指令信息和第二操作指令信息所包含的信息类型。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:接收输入的行为打断规则设置命令;根据所述行为打断规则设置命令,设置所述预设的行为打断规则。6.一种语音处理装置,用于终端设备,...

【专利技术属性】
技术研发人员:李霄寒全刚谢政彪李鹏刘升平
申请(专利权)人:深圳云知声信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1