基于眼动追踪的多模态用户意图识别方法及系统技术方案

技术编号：43719835 阅读：20 留言：0更新日期：2024-12-20 12:49

本发明专利技术提供了一种基于眼动追踪的多模态用户意图识别方法及系统，该方法基于眼动仪识别注视物体，并结合文本、图像等模态来估计用户意图来执行特定的任务，眼动追踪是通过事件相机定位出瞳孔位置获取坐标，计算出眼睛的注视点，之后再通过画面元素分割构建注视信息图，识别估计出用户的意图，不仅增强了用户意图识别的鲁棒性和准确性，还使得系统能够更加智能地适应不同用户、不同场景下的复杂需求，从而提供更加个性化的服务体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及用户意图识别方法，具体涉及一种基于眼动追踪的多模态用户意图识别方法及系统。

技术介绍

1、注视点跟踪与识别技术是通过分析和处理眼动数据来确定人眼注视的位置。这项技术背后涉及到和眼动数据的处理方法。研究人员提出了各种算法模型来识别眼动数据中的注视点位置。这些模型包括基于机器学习的方法，如支持向量机、随机森林和神经网络等，以及基于深度学习的方法，如卷积神经网络和循环神经网络等。这些模型通过训练和学习来提高注视点识别的准确性和稳定性。

2、注视点识别技术已经在多个领域得到了应用，包括用户界面设计、医学研究、驾驶员研究、市场调研和教育研究等，在增强现实和虚拟现实（ar/vr）中拥有数十种应用，如凹形渲染或生理精确的渲染、通过允许用户用眼睛选择目标来响应眼球运动的交互式程序等。这些应用以及其他应用（如激光眼科手术）都受益于对基本填满传感器视野的眼睛进行快速而准确的追踪（即“近眼”追踪）。同时，在广告和市场营销领域，该技术有助于评估消费者对特定广告元素（如品牌标志、文本信息、产品图像等）的注意力分配、优化广告布局和内容、以及提供个性化的用户体验。

3、眼动追踪系统的准确性和延迟性常常相互矛盾。高端眼动追踪系统通过使用高速摄像头、专用协议和定制读出接口来最大化带宽，从而解决这一问题。但结果往往是它们体积庞大且功耗较高。由于高速、高分辨率摄像头产生的数据量巨大，这些复杂性是不可避免的。但在近眼注视追踪中，这些数据大部分是冗余的。只有瞳孔在移动，而图像的大部分并没有改变。除此之外，现有纯文本、纯二维图像的用户

技术实现思路

1、本专利技术的目的在于提供一种基于眼动追踪的多模态用户意图识别方法及系统，提高了速度和功耗，同时突破现有方法的局限性，充分挖掘用户的多源交互信息，增强了用户意图识别的鲁棒性和准确性。

2、实现本专利技术目的的技术解决方案为：

3、一种基于眼动追踪的多模态用户意图识别方法，包括：

4、步骤1，将眼睛按构造分为瞳孔、上眼睑两个部分，并结合用户眼球上红外光源的反射光斑，构建包括瞳孔模型、上眼睑模型和光斑模型的眼睛模型；

5、步骤2，从事件相机中获取眼睛的事件数据和灰度帧数据，构建候选点集合，通过候选点集合进行眼睛模型拟合确定眼睛模型参数和瞳孔中心位置；

6、步骤3，获取用户注视二维图像中的注视点坐标；

7、步骤4，重复步骤2-步骤3，获取眼睛模型参数、瞳孔中心位置和注视点坐标，构建注视点数据集，训练注视点估计模型；

8、步骤5，根据注视点估计模型、yolo-world目标识别模型、structext预训练模型获取用户注视二维画面中的多模态数据，基于多模态数据构建注视信息图；

9、步骤6，根据感兴趣的意图动作，重复步骤6构建注视信息图数据集，训练意图识别模型；

10、步骤7，实时构建注视信息图，使用训练好的意图识别模型识别用户意图动作。

11、进一步地，所述瞳孔模型为椭圆，对于椭圆上任一点(x， y)满足二次曲线方程:

12、

13、其中，参数a>0、c>0，且a≠c，代表椭圆的大小，与椭圆主轴的平方成反比；参数b代表椭圆的方向，b≠0时椭圆轴与坐标轴不平行；d、e为影响椭圆中心点位置的参数；参数f代表椭圆与平面的偏移量，表示瞳孔模型椭圆e的参数集合，。

14、进一步地，所述上眼睑模型为抛物线，对于抛物线上任意一点(x， y)满足二次曲线方程:

15、

16、其中，参数u≠0，代表抛物线的开口方向，v为影响抛物线对称轴位置的参数，w决定抛物线与y轴的交点，表示抛物线p参数集合：。

17、进一步地，所述光斑模型为圆形，对于圆上任意一点(x，y)满足二次曲线方程：

18、

19、其中，参数g、h与圆心横纵坐标相关，r与圆的半径相关，且；表示圆形c参数集合：。

20、进一步地，所述步骤2具体包括：步骤2.1，将灰度帧图像中瞳孔边缘的像素视为候选点集合，对灰度帧进行二值化处理，通过dog算子进行边缘检测识别获取候选点集合为：

21、

22、

23、其中，θ为阈值，是标准差为的高斯核，是标准差为的高斯核；

24、步骤2.2，设定阈值δ，在椭圆边界相距δ的范围内，获取候选点集合为：

25、

26、其中，是在椭圆上的投影点；

27、步骤2.3，根据候选点集合，使用最小二乘法拟合代表瞳孔的椭圆e确定瞳孔模型参数，并获取瞳孔中心位置；

28、步骤2.4，同理步骤2.1-步骤2.3，通过拟合确定上眼睑模型和光斑模型参数。

29、进一步地，所述注视点估计模型基于mlp模型，隐藏层为3层，采用relu作为激活函数，adam作为优化器，均方误差为损失函数。

30、进一步地，所述步骤5具体包括：

31、步骤5.1，根据内容边界将二维图像划分为n个元素节点，对于每个元素节点，使用yolo-world模型识别二维图像中的图像特征，使用structext预训练模型识别图像中的文字特征，并将图像特征和文字特征作为节点特征；

32、步骤5.2，采用步骤4训练的注视点估计模型获取注视点坐标，若注视点坐标位于设定的元素节点a区域，则认为该注视点为元素节点a，将注视点坐标进入该元素节点a区域的时刻记为 t1，离开该元素节点区域 a的时刻记为 t2，则获得注视时长t=t2-t1，若注视点坐标从元素节点a区域移动至元素节点区域b区域，则注视点移动方向为a到b；

33、步骤5.3，构建包括节点特征、注视点时长和移动方向的注视信息图。

34、进一步地，所述意图识别模型识别用户意图动作的过程为：

35、对于每个元素节点，将提取的文字特征通过bert编码器转换为固定长度的语义向量，将提取的图像特征使用one-hot编码器转换为固定长度的语义向量，拼接元素块中的所有语义向量，使用线性层降维成一个固定的元素语义向量，其中代表元素块的编号；

36、根据元素节点之间的注视移动方向确定节点游走方向，使用图嵌入模型获得意图向量。

37、进一步地，所述意图识别模型训练时采用交叉熵损失，为：

38、

39、其中，为概率分布，表示样本属于第i类意图动作的概率，是样本标签的表示，当样本属于第i类意图动作时，否则，c为样本意图动作标签。

40、一种基于眼动追踪的多模态用户意图识别系统，包括：

41、眼睛模型构建单元，将眼睛按构造分为瞳孔、上眼睑两个部分，并结合用户眼球上红外光源的反射光斑，构建包括瞳孔模型、上眼睑模型和光斑模型的眼睛模型；

42、参数确定单元，从事件相机传感器中获取眼睛的事件数据和灰度帧数据，本文档来自技高网...

【技术保护点】

1.一种基于眼动追踪的多模态用户意图识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于眼动追踪的多模态用户意图识别方法，其特征在于，所述瞳孔模型为椭圆，对于椭圆上任一点(x， y)满足二次曲线方程:

3.根据权利要求1所述的一种基于眼动追踪的多模态用户意图识别方法，其特征在于，所述上眼睑模型为抛物线，对于抛物线上任意一点(x， y)满足二次曲线方程:

4.根据权利要求1所述的一种基于眼动追踪的多模态用户意图识别方法，其特征在于，所述光斑模型为圆形，对于圆上任意一点(x，y)满足二次曲线方程：

5.根据权利要求1所述的一种基于眼动追踪的多模态用户意图识别方法，其特征在于，所述步骤2具体包括：

6.根据权利要求1所述的一种基于眼动追踪的多模态用户意图识别方法，其特征在于，所述注视点估计模型基于MLP模型，隐藏层为3层，采用ReLU作为激活函数，Adam作为优化器，均方误差为损失函数。

7.根据权利要求1所述的一种基于眼动追踪的多模态用户意图识别方法，其特征在于，所述步骤5具体包括：

8.根

9.根据权利要求8所述的一种基于眼动追踪的多模态用户意图识别方法，其特征在于，所述意图识别模型训练时采用交叉熵损失，为：

10.一种实现权利要求1-9任一所述方法的基于眼动追踪的多模态用户意图识别系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于眼动追踪的多模态用户意图识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于眼动追踪的多模态用户意图识别方法，其特征在于，所述瞳孔模型为椭圆，对于椭圆上任一点(x， y)满足二次曲线方程:

4.根据权利要求1所述的一种基于眼动追踪的多模态用户意图识别方法，其特征在于，所述光斑模型为圆形，对于圆上任意一点(x，y)满足二次曲线方程：

5.根据权利要求1所述的一种基于眼动追踪的多模态用户意图识别方法，其特征在于，所述步骤2具体包括：

6.根据...

【专利技术属性】
技术研发人员：王建伟，关迎丹，毛喜旺，李唯一，吴疆，戴德云，余楚恒，祁凌云，胡伟，刘述，
申请(专利权)人：杭州智元研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人