一种语音交互方法、装置、设备及存储介质制造方法及图纸

技术编号:21481333 阅读:34 留言:0更新日期:2019-06-29 05:41
本发明专利技术实施例提出一种语音交互方法、装置、设备及存储介质,其中方法包括:采集第一用户图像,识别所述第一用户图像中的用户动作;响应于所述第一用户图像中的用户动作与第一预设动作相匹配,接收语音信息并对所述语音信息进行语音识别;采集第二用户图像,识别所述第二用户图像中的用户动作;响应于所述第二用户图像中的用户动作与所述第一预设动作不匹配,停止接收语音信息。本发明专利技术实施例能够简化唤醒流程,改善用户体验。

【技术实现步骤摘要】
一种语音交互方法、装置、设备及存储介质
本专利技术涉及语音交互
,尤其涉及一种语音交互方法、装置、设备及存储介质。
技术介绍
语音交互设备在接收用户发出的语音指令之前,需要首先被唤醒。目前一般采用语音唤醒的方式,例如用户发出包含唤醒词的语音信息,当语音交互设备识别出该唤醒词时,语音交互设备被唤醒。现有的语音交互方法中,每次在进行语音交互前用户都需要说一次唤醒词,这种方式的用户体验较差。
技术实现思路
本专利技术实施例提供一种语音交互方法及装置,以至少解决现有技术中的以上技术问题。第一方面,本专利技术实施例提供了一种语音交互方法,包括:采集第一用户图像,识别所述第一用户图像中的用户动作;响应于所述第一用户图像中的用户动作与第一预设动作相匹配,接收语音信息并对所述语音信息进行语音识别;采集第二用户图像,识别所述第二用户图像中的用户动作;响应于所述第二用户图像中的用户动作与所述第一预设动作不匹配,停止接收语音信息。在一种实施方式中,所述识别所述第二用户图像中的用户动作之后,还包括:响应于所述第二用户图像中的用户动作与第二预设动作相匹配,停止接收语音信息,并删除所述语音识别的结果。在一种实施方式中,还包括:响应于所述第一用户图像中的用户动作与第一预设动作相匹配,提示所述匹配的信息,并提示语音交互过程已开启;所述接收语音信息并对所述语音信息进行语音识别时,进一步提示正在接收语音信息,并显示所述语音识别的结果。在一种实施方式中,所述采集第二用户图像,识别所述第二用户图像中的用户动作,包括:采集多帧第二用户图像;根据各帧所述第二用户图像中的用户状态,识别所述多帧第二用户图像中的用户动作。第二方面,本专利技术实施例还提出一种语音交互装置,包括:第一采集识别模块,用于采集第一用户图像,识别所述第一用户图像中的用户动作;第一处理模块,用于响应于所述第一用户图像中的用户动作与第一预设动作相匹配,接收语音信息并对所述语音信息进行语音识别;第二采集识别模块,用于采集第二用户图像,识别所述第二用户图像中的用户动作;第二处理模块,用于响应于所述第二用户图像中的用户动作与所述第一预设动作不匹配,停止接收语音信息。在一种实施方式中,所述装置还包括:第三处理模块,用于响应于所述第二用户图像中的用户动作与第二预设动作相匹配,停止接收语音信息,并删除所述语音识别的结果。在一种实施方式中,所述装置还包括:第一提示模块,用于响应于所述第一用户图像中的用户动作与第一预设动作相匹配,提示所述匹配的信息,并提示语音交互过程已开启;第二提示模块,用于在所述第一处理模块接收语音信息并对所述语音信息进行语音识别时,提示正在接收语音信息,并显示所述语音识别的结果。在一种实施方式中,所述第二采集识别模块用于:采集多帧第二用户图像;根据各帧所述第二用户图像中的用户状态,识别所述多帧第二用户图像中的用户动作。第三方面,本专利技术实施例提供了一种语音交互设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述设备的结构中包括处理器和存储器,所述存储器用于存储支持所述设备执行上述语音交互方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口,用于与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读存储介质,用于存储语音交互设备所用的计算机软件指令,其包括用于执行上述语音交互方法所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果:本专利技术实施例提出的语音交互方法和装置,当识别出用户图像中的用户动作与第一预设动作相匹配时,开启语音交互过程;当识别出用户图像中的用户动作与第一预设动作不匹配时,停止语音交互过程。通过这种方式,用户可以采用固定的动作唤醒设备,而不需要采用语音唤醒的方式,尤其是不需要在每次发出语音信息时都唤醒设备,因此能够简化唤醒流程,改善用户体验。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1为本专利技术实施例的一种语音交互方法实现流程图;图2为本专利技术实施例的另一种语音交互方法实现流程图;图3A为本专利技术实施例中第一用户图像中的用户动作与第一预设动作相匹配时,显示界面的示意图;图3B为本专利技术实施例中接收语音信息并对所述语音信息进行语音识别时,显示界面的示意图;图3C为本专利技术实施例中停止接收语音信息时,显示界面的示意图;图4为本专利技术实施例中步骤S13的实现流程图;图5为本专利技术实施例的一种语音交互装置结构示意图;图6为本专利技术实施例的另一种语音交互装置结构示意图;图7为本专利技术实施例的一种语音交互设备结构示意图。具体实施方式在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本专利技术的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。本专利技术实施例主要提供了一种语音交互方法和装置,下面分别通过以下实施例进行技术方案的展开描述。如图1为本专利技术实施例的一种语音交互方法实现流程图,包括:步骤S11:采集第一用户图像,识别所述第一用户图像中的用户动作;步骤S12:响应于所述第一用户图像中的用户动作与第一预设动作相匹配,接收语音信息并对所述语音信息进行语音识别;步骤S13:采集第二用户图像,识别所述第二用户图像中的用户动作;步骤S14:响应于所述第二用户图像中的用户动作与所述第一预设动作不匹配,停止接收语音信息。如图2为本专利技术实施例的另一种语音交互方法实现流程图,包括:步骤S11:采集第一用户图像,识别所述第一用户图像中的用户动作;步骤S12:响应于所述第一用户图像中的用户动作与第一预设动作相匹配,接收语音信息并对所述语音信息进行语音识别;步骤S13:采集第二用户图像,识别所述第二用户图像中的用户动作;步骤S14:响应于所述第二用户图像中的用户动作与所述第一预设动作不匹配,停止接收语音信息;步骤S25:响应于所述第二用户图像中的用户动作与第二预设动作相匹配,停止接收语音信息,并删除所述语音识别的结果。上述步骤S14中,停止接收语音信息之后,可以对所述语音识别的结果进行响应。另外,步骤S14与步骤S25没有先后顺序的限制,二者可以同步执行。上述实施例可以应用于带有摄像头的语音交互设备,也可以应用于具备语音交互功能的智能终端设备,如智能手表、智能手机、智能音箱等。在一种可能的实施方式中,采用摄像头采集第一用户图像及第二用户图像。上述第一用户图像可以指语音交互设备尚未被唤醒的状态下采集的图像,第二用户图像可以指语音交互设备已经被唤醒的状态下采集的图像。语音交互设备在尚未被唤醒的状态下,可以通过语音或图像等形式提示用户做出第一预设动作,以便唤醒语音交互设备。在一种可能的实施方式中,摄像头持续多次采集用户图本文档来自技高网...

【技术保护点】
1.一种语音交互方法,其特征在于,包括:采集第一用户图像,识别所述第一用户图像中的用户动作;响应于所述第一用户图像中的用户动作与第一预设动作相匹配,接收语音信息并对所述语音信息进行语音识别;采集第二用户图像,识别所述第二用户图像中的用户动作;响应于所述第二用户图像中的用户动作与所述第一预设动作不匹配,停止接收语音信息。

【技术特征摘要】
1.一种语音交互方法,其特征在于,包括:采集第一用户图像,识别所述第一用户图像中的用户动作;响应于所述第一用户图像中的用户动作与第一预设动作相匹配,接收语音信息并对所述语音信息进行语音识别;采集第二用户图像,识别所述第二用户图像中的用户动作;响应于所述第二用户图像中的用户动作与所述第一预设动作不匹配,停止接收语音信息。2.根据权利要求1所述的方法,其特征在于,所述识别所述第二用户图像中的用户动作之后,还包括:响应于所述第二用户图像中的用户动作与第二预设动作相匹配,停止接收语音信息,并删除所述语音识别的结果。3.根据权利要求1或2所述的方法,其特征在于,还包括:响应于所述第一用户图像中的用户动作与第一预设动作相匹配,提示所述匹配的信息,并提示语音交互过程已开启;所述接收语音信息并对所述语音信息进行语音识别时,进一步提示正在接收语音信息,并显示所述语音识别的结果。4.根据权利要求1或2所述的方法,其特征在于,所述采集第二用户图像,识别所述第二用户图像中的用户动作,包括:采集多帧第二用户图像;根据各帧所述第二用户图像中的用户状态,识别所述多帧第二用户图像中的用户动作。5.一种语音交互装置,其特征在于,包括:第一采集识别模块,用于采集第一用户图像,识别所述第一用户图像中的用户动作;第一处理模块,用于响应于所述第一用户图像中的用户动作与第一预设动作相匹配,接收语音信息并对所...

【专利技术属性】
技术研发人员:戚耀文
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1