一种操作意图识别方法、交互方法及相关装置制造方法及图纸

技术编号：44498376 阅读：0 留言：0更新日期：2025-03-04 18:06

本申请公开了一种操作意图识别方法、交互方法及相关装置，涉及人机交互技术领域，操作意图识别方法包括：获取目标用户的多模态数据，多模态数据包括手部图像数据和语音数据；根据目标用户的多模态数据，获取手指端点三维坐标、手指指向向量弧度、目标操作以及操作置信度；根据操作置信度，确定目标用户是否有操作意图；若目标用户有操作意图，则根据手指端点三维坐标和手指指向向量弧度，确定目标操作对应的操作对象，以得到包含目标操作以及目标操作对应的操作对象的操作意图识别结果。本申请公开的操作意图识别方法能够较为准确地识别出操作意图，进而能够提升交互准确率，从而能够提升用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人机交互，尤其涉及一种操作意图识别方法、交互方法及相关装置。

技术介绍

1、人机交互是指人类与设备之间进行信息交流和互动的过程。在很多应用场景（比如智能座舱场景）中，人机交互方式多为语音交互方式（比如通过语音打开空调、关闭车窗等）。

2、可以理解的是，在进行语音交互时，需要对用户的语音进行语音识别，然而，受诸多因素（比如环境噪声）影响，通过语音识别无法准确识别出用户的操作意图。可以理解的是，无法准确识别出用户的操作意图会导致交互准确性低下，进而严重影响用户体验。

技术实现思路

1、有鉴于此，本申请提供了一种操作意图识别方法、交互方法及相关装置，用于解决目前的方案无法准确识别出用户的操作意图，进而导致交互准确性低下，从而影响用户体验的问题，其技术方案如下：

2、本申请第一方面提供一种操作意图识别方法，包括：

3、获取目标用户的多模态数据，所述多模态数据包括手部图像数据和语音数据；

4、根据所述目标用户的多模态数据，获取手指端点三维坐标、手指指向向量弧度、目标操作以及操作置信度；

5、根据所述操作置信度，确定所述目标用户是否有操作意图；

6、若所述目标用户有操作意图，则根据所述手指端点三维坐标和所述手指指向向量弧度，确定所述目标操作对应的操作对象，以得到包含所述目标操作以及所述目标操作对应的操作对象的操作意图识别结果。

7、在一种可能的实现方式中，所述手部图像数据包括手部rgb图像和所述手部rgb图像对应的手部深度图。

8、在一种可能的实现方式中，获取目标用户的手部图像数据，包括：

9、利用图像采集设备采集包含所述目标用户的手部的rgb图像以及所述rgb图像对应的深度图；

10、利用预先训练得到的第一手部检测模型对采集的rgb图像进行手部检测，得到采集的rgb图像中手部区域的位置信息，其中，所述第一手部检测模型采用标注出手部区域的训练图像训练得到；

11、根据所述手部区域的位置信息，从采集的rgb图像中提取出手部区域，得到手部rgb图像；

12、根据所述手部区域的位置信息，从采集的rgb图像对应的深度图中提取出手部区域，得到所述手部rgb图像对应的手部深度图。

13、在一种可能的实现方式中，所述第一手部检测模型采用标注出手部区域的训练图像，同时辅以预先训练得到的第二手部检测模型训练得到，所述第二手部检测模型的规模大于所述第一手部检测模型的规模；

14、所述第一手部检测模型的训练目标为：使利用所述第一手部检测模型对所述训练图像进行手部检测得到的手部区域趋近于利用所述第二手部检测模型对所述训练图像进行手部检测得到的手部区域，以及使利用所述第一手部检测模型对所述训练图像进行手部检测得到的手部区域趋近于所述训练图像标注的手部区域。

15、在一种可能的实现方式中，所述根据所述目标用户的多模态数据，获取手指端点三维坐标、手指指向向量弧度、目标操作以及操作置信度，包括：

16、利用预先训练得到的多模态信息识别模型，对所述目标用户的多模态数据进行信息识别，得到手指端点三维坐标、手指指向向量弧度、目标操作以及操作置信度；

17、其中，所述多模态信息识别模型采用标注有手指端点三维坐标、手指指向向量弧度、目标操作以及操作置信度的训练多模态数据训练得到，所述训练多模态数据包括训练手部图像数据和训练语音数据。

18、在一种可能的实现方式中，所述利用预先训练得到的多模态信息识别模型，对所述目标用户的多模态数据进行信息识别，得到手指端点三维坐标、手指指向向量弧度、目标操作以及操作置信度，包括：

19、利用预先训练得到的多模态信息识别模型，对所述目标用户的手部图像数据和语音数据分别提取特征，得到图像特征和语音特征；

20、利用所述多模态信息识别模型，将所述图像特征与所述语音特征融合，得到融合后特征；

21、利用所述多模态信息识别模型，以所述融合后特征为依据，预测手指端点三维坐标、手指指向向量弧度、目标操作以及操作置信度。

22、在一种可能的实现方式中，所述手指端点三维坐标和所述手指指向向量弧度均为相机坐标系下的数据；

23、所述根据所述手指端点三维坐标和所述手指指向向量弧度，确定所述目标操作对应的操作对象，包括：

24、将所述相机坐标系下的手指端点三维坐标转换为世界坐标系下的手指端点三维坐标；

25、将所述相机坐标系下的手指指向向量弧度转换为世界坐标系下的手指指向方向向量；

26、根据各候选操作对象的位置信息以及所述世界坐标系下的手指端点三维坐标和手指指向方向向量，从所述各候选操作对象中确定所述目标操作对应的操作对象。

27、在一种可能的实现方式中，所述根据各候选操作对象的位置信息以及所述世界坐标系下的手指端点三维坐标和手指指向方向向量，从所述各候选操作对象中确定所述目标操作对应的操作对象，包括：

28、针对每个候选操作对象：根据该候选操作对象的位置信息、该候选操作对象所在平面的法向量以及所述世界坐标系下的手指端点三维坐标和手指指向方向向量，确定目标射线与该候选操作对象是否相交，其中，所述目标射线为以所述世界坐标系下的手指端点三维坐标为射线起点，以所述世界坐标系下的手指指向方向向量所指示的方向为射线方向的射线；

29、将与所述目标射线相交的候选操作对象确定为所述目标操作对应的操作对象。

30、本申请第二方面提供一种交互方法，包括：

31、采用上述任一项所述的操作意图识别方法进行操作意图识别，得到包含目标操作以及所述目标操作对应的操作对象的操作意图识别结果；

32、控制所述目标操作对应的操作对象执行所述目标操作。

33、本申请第三方面提供一种操作意图识别装置，包括：多模态数据获取模块、手部信息及操作信息获取模块、操作意图确定模块和操作对象确定模块；

34、所述多模态数据获取模块，用于获取目标用户的多模态数据，所述多模态数据包括手部图像数据和语音数据；

35、所述手部信息及操作信息获取模块，用于根据所述目标用户的多模态数据，获取手指端点三维坐标、手指指向向量弧度、目标操作以及操作置信度；

36、所述操作意图确定模块，用于根据所述操作置信度，确定所述目标用户是否有操作意图；

37、所述操作对象确定模块，用于当所述目标用户有操作意图时，根据所述手指端点三维坐标和所述手指指向向量弧度，确定所述目标操作对应的操作对象，以得到包含所述目标操作以及所述目标操作对应的操作对象的操作意图识别结果。

38、本申请第四方面提供一种电子设备，包括至少一个处理器和与所述处理器连接的存储器，其中：

39、所述存储器用于存储计算机程序；

40、所述处理器用于执行所述计算机程序，以使所述电子设备能本文档来自技高网...

【技术保护点】

1.一种操作意图识别方法，其特征在于，包括：

2.根据权利要求1所述的操作意图识别方法，其特征在于，所述手部图像数据包括手部RGB图像和所述手部RGB图像对应的手部深度图。

3.根据权利要求2所述的操作意图识别方法，其特征在于，获取目标用户的手部图像数据，包括：

4.根据权利要求3所述的操作意图识别方法，其特征在于，所述第一手部检测模型采用标注出手部区域的训练图像，同时辅以预先训练得到的第二手部检测模型训练得到，所述第二手部检测模型的规模大于所述第一手部检测模型的规模；

5.根据权利要求1所述的操作意图识别方法，其特征在于，所述根据所述目标用户的多模态数据，获取手指端点三维坐标、手指指向向量弧度、目标操作以及操作置信度，包括：

6.根据权利要求5所述的操作意图识别方法，其特征在于，所述利用预先训练得到的多模态信息识别模型，对所述目标用户的多模态数据进行信息识别，得到手指端点三维坐标、手指指向向量弧度、目标操作以及操作置信度，包括：

7.根据权利要求1所述的操作意图识别方法，其特征在于，所述手指端点三维坐标和所

8.根据权利要求7所述的操作意图识别方法，其特征在于，所述根据各候选操作对象的位置信息以及所述世界坐标系下的手指端点三维坐标和手指指向方向向量，从所述各候选操作对象中确定所述目标操作对应的操作对象，包括：

9.一种交互方法，其特征在于，包括：

10.一种操作意图识别装置，其特征在于，包括：多模态数据获取模块、手部信息及操作信息获取模块、操作意图确定模块和操作对象确定模块；

11.一种电子设备，其特征在于，包括至少一个处理器和与所述处理器连接的存储器，其中：

12.一种计算机存储介质，其特征在于，所述存储介质承载有一个或多个计算机程序，当所述一个或多个计算机程序被电子设备执行时，能够使所述电子设备实现如权利要求1~8中任意一项所述的操作意图识别方法的步骤，或者，实现如权利要求9所述的交互方法的步骤。

13.一种计算机程序产品，其特征在于，包括计算机可读指令，当所述计算机可读指令在电子设备上运行时，使得所述电子设备实现如权利要求1~8中任意一项所述的操作意图识别方法的步骤，或者，实现如权利要求9所述的交互方法的步骤。

...

【技术特征摘要】

1.一种操作意图识别方法，其特征在于，包括：

2.根据权利要求1所述的操作意图识别方法，其特征在于，所述手部图像数据包括手部rgb图像和所述手部rgb图像对应的手部深度图。

3.根据权利要求2所述的操作意图识别方法，其特征在于，获取目标用户的手部图像数据，包括：

7.根据权利要求1所述的操作意图识别方法，其特征在于，所述手指端点三维坐标和所述手指指向向量弧度均为相...

【专利技术属性】
技术研发人员：邵博，沙文，王旭，陈叶瀚森，林垠，殷兵，殷保才，华磊，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人