一种交互方法及相关设备和系统技术方案

技术编号：37958136 阅读：5 留言：0更新日期：2023-06-30 09:32

本发明专利技术提供了一种交互方法及相关设备和系统，其中，交互方法包括：获取交互区域的多模态信息，多模态信息包括基于多个终端设备中的部分或全部终端设备获取的相对应的图像信息和语音信息；基于多模态信息中的图像信息确定交互区域中是否存在目标用户；若是，则基于多模态信息中的图像信息确定目标用户是否朝向多个终端设备中的一终端设备；若是，则将目标用户朝向的终端设备确定为交互设备；基于多模态信息中的语音信息，确定交互设备对应的控制指令，并向交互设备发送对应的控制指令。本发明专利技术提供的交互方法通过有效利用基于多个终端设备获取的多模态信息，使得语音交互不需要唤醒词，如此，整个交互过程更加自然高效。整个交互过程更加自然高效。整个交互过程更加自然高效。

全部详细技术资料下载

【技术实现步骤摘要】
一种交互方法及相关设备和系统

[0001]本专利技术涉及人机交互
，尤其涉及一种交互方法及相关设备和系统。

技术介绍

[0002]随着科技的发展和生活水平的提高，越来越多的场合配置了多个不同的终端设备，比如，智能摄像头、智能电视、智能空调、智能音箱等。
[0003]目前，对于具有语音交互功能的终端设备而言，用户与终端设备进行语音交互前，通常需要对终端设备进行唤醒，之后才能与被唤醒的终端设备进行语音交互。当某个场合中存在多个终端设备，而多个终端设备的唤醒词又相同时，如果用户进行唤醒操作，就会有多个终端设备被同时唤醒，并同时响应用户接下来的请求，即同时与用户进行交互，此时，会给用户造成困惑，不知道与哪一个终端设备进行交互，用户体验较差。

技术实现思路

[0004]有鉴于此，本专利技术提供了一种交互方法及相关设备和系统，用以解决多个终端设备的唤醒词相同导致多个终端设备被同时唤醒以及同时与用户进行交互，进而导致用户体验较差的问题，其技术方案如下：
[0005]一种交互方法，应用于服务器，所述方法包括：
[0006]获取交互区域的多模态信息，其中，所述多模态信息包括基于多个终端设备中的部分或全部终端设备获取的相对应的图像信息和语音信息；
[0007]基于所述多模态信息中的图像信息，确定所述交互区域中是否存在目标用户；
[0008]若所述交互区域中存在目标用户，则基于所述多模态信息中的图像信息，确定所述目标用户是否朝向所述多个终端设备中的一终端设备；
[000...

【技术保护点】

【技术特征摘要】
1.一种交互方法，其特征在于，应用于服务器，所述方法包括：获取交互区域的多模态信息，其中，所述多模态信息包括基于多个终端设备中的部分或全部终端设备获取的相对应的图像信息和语音信息；基于所述多模态信息中的图像信息，确定所述交互区域中是否存在目标用户；若所述交互区域中存在目标用户，则基于所述多模态信息中的图像信息，确定所述目标用户是否朝向所述多个终端设备中的一终端设备；若所述目标用户朝向所述多个终端设备中的一终端设备，则将所述目标用户朝向的终端设备确定为交互设备；基于所述多模态信息中的语音信息，确定所述交互设备对应的控制指令，并向所述交互设备发送对应的控制指令。2.根据权利要求1所述的交互方法，其特征在于，基于一终端设备获取的图像信息包括该终端设备采集的图像，或者，包括该终端设备采集的图像以及该终端设备对该终端设备采集的图像进行处理所得到的图像处理结果，其中，所述图像处理结果包括以下结果中的一种或多种：人体检测结果、人脸检测结果、人脸关键点提取结果、人脸识别结果、人脸中心三维位置检测结果、头部姿态检测结果、视线方向检测结果；基于一终端设备获取的语音信息包括该终端设备采集的语音，或者，包括该终端设备采集的语音以及该终端设备对该终端设备采集的语音进行处理所得到的语音处理结果，其中，所述语音处理结果包括以下结果中的一种或多种：声纹识别结果、语音识别结果。3.根据权利要求1或2所述的交互方法，其特征在于，所述基于所述多模态信息中的图像信息，确定所述交互区域中是否存在目标用户，包括：基于所述多模态信息中的图像信息，确定所述交互区域是否存在用户；若所述交互区域中存在用户，则确定所述交互区域中存在目标用户；其中，所述交互区域中的用户为目标用户；或者，若所述交互区域中存在用户，则基于所述多模态信息中的图像信息和/或语音信息确定所述交互区域中的用户是否具有交互权限；若所述交互区域中存在具有交互权限的用户，则确定所述交互区域中存在目标用户；其中，所述交互区域中具有交互权限的用户为目标用户。4.根据权利要求3所述的交互方法，其特征在于，基于一终端设备获取的图像信息包括该终端设备采集的图像；基于一终端设备获取的语音信息包括该终端设备采集的语音；所述基于所述多模态信息中的图像信息，确定所述交互区域是否存在用户，包括：对所述多模态信息中终端设备采集的图像进行人体检测，若检测到人体，则确定所述交互区域中存在用户；所述基于所述多模态信息中的图像信息和/或语音信息确定所述交互区域中的用户是否具有交互权限，包括：对所述多模态信息中终端设备采集的语音进行声纹识别，以得所述交互区域中用户的声纹信息；和/或，对所述多模态信息中终端设备采集的图像进行人脸识别，以得到所述交互区域中用户的人脸信息；基于所述交互区域中用户的声纹信息和/或所述交互区域中用户的人脸信息，确定所
述交互区域中的用户是否具有交互权限。5.根据权利要求1或2所述的交互方法，其特征在于，所述基于所述多模态信息中的图像信息，确定所述目标用户是否朝向所述多个终端设备中的一终端设备，包括：基于所述多模态信息中的图像信息，获取所述目标用户的头部姿态信息或视线方向信息以及所述目标用户的人脸中心三维位置；基于所述目标用户的头部姿态信息或视线方向信息、所述目标用户的人脸中心三维位置以及所述多个终端设备的三维位置，确定所述目标用户是否朝向所述多个终端设备中的一终端设备。6.根据权利要求5所述的交互方法，其特征在于，所述基于所述目标用户的头部姿态信息或视线方向信息、所述目标用户的人脸中心三维位置以及所述多个终端设备的三维位置，确定所述目标用户是否朝向所述多个终端设备中的一终端设备，包括：确定目标射线与设定虚拟平面的交点的三维位置，其中，所述目标射线为以所述目标用户的人脸中心三维位置为射线起点，以所述目标用户的头...

【专利技术属性】
技术研发人员：叶润春，林垠，殷保才，殷兵，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人