一种眼动追踪交互方法和装置制造方法及图纸

技术编号：43909900 阅读：27 留言：0更新日期：2025-01-03 13:18

本申请提出了一种眼动追踪交互方法，包括：S1、采集眼部图像和场景图像；通过神经网络将眼部图像进行分类，其中一类为睁眼图像，另一类为闭眼与未检测到瞳孔的图像；S2、构建眼动模型和YOLO目标识别模型，并训练眼动模型和YOLO目标识别模型；S3、对睁眼图像和场景图像进行预处理得到眼部图像数据和场景图像数据；将眼部图像数据和场景图像数据分别输入眼动模型和YOLO目标识别模型，获得注视点坐标、目标类型和目标类型的像素坐标；S4、进行注视目标判定，若判断目标被注视则执行目标对应程序。通过眼动模型与yolo结合对现实物体进行注视之后进行选中的方法，进一步扩展了眼动追踪的应用。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及眼动追踪，具体涉及一种眼动追踪交互方法和装置。

技术介绍

1、眼动追踪装置从方式上可以分为远程式、可穿戴式。可穿戴式眼动追踪装置的结构类似于眼镜，可穿戴式眼动追踪装置上架设了眼部摄像头、场景摄像头，眼部摄像头主要拍摄人眼图像，场景摄像头主要拍摄人眼前的图像。用穿戴式眼动追踪装置构建数据集通常需要通过在场景摄像头可拍摄范围内放置校准物体。在数据集构建过程中，人眼需要一直盯着校准点看以保证数据集的准确性。

2、目前的眼动数据集构建程序存在以下问题：

3、①对校准物体的识别采用的是传统图像算法提取轮廓的方法，这样的局限性来自于当场景摄像头拍摄到类似的轮廓结构时，会引入噪声从而让识别出现错误。并且无法更换校准物体，如果更换校准物体则需要重新修改识别算法，实现过程较为麻烦。

4、②目前的眼动数据集构建程序不具备闭眼检测功能，而数据采集过程又要求人眼持续注视，这会造成眼部疲劳使得将非凝视状态下的图片保存到数据集，这会给数据集收集过程带来困难，将错误图像保存的话会给增大数据集的误差，因此如何降低数据集采集过程中的误差也是存在的问题。

5、(2)传统图像处理眼动追踪带来的问题

6、传统的图像处理算法主要是基于opencv工具包内提供的工具来进行处理。而基于传统图像处理的眼动追踪算法中的瞳孔检测部分的精确度会因为环境因素而降低。传统图像处理算法中对瞳孔进行捕捉大多需要经过二值化处理，之后通过canny边缘检测来提取瞳孔轮廓。

7、这样存在两个问题：

8、

9、②外界光源的影响也会使得瞳孔周围像素值变化从而影响轮廓检测的失败。如下图瞳孔轮廓与周围阴影连接在了一起，经过canny之后会将轮廓外形判断错误。

10、(3)目前的眼动追踪技术主要应用于心理学、市场研究和广告、医疗诊断、学习行为分析等领域。然而，在人机交互领域的研究还相对缺乏。

技术实现思路

1、为了解决上述技术问题，在本申请的第一个方面，提出了一种眼动追踪交互方法，包括：

2、s1、采集眼部图像和场景图像；通过神经网络将眼部图像进行分类，其中一类为睁眼图像，另一类为闭眼与未检测到瞳孔的图像；

3、s2、构建眼动模型和yolo目标识别模型，并训练眼动模型和yolo目标识别模型；

4、s3、对睁眼图像和场景图像进行预处理得到眼部图像数据和场景图像数据；将眼部图像数据和场景图像数据分别输入眼动模型和yolo目标识别模型，获得注视点坐标、目标类型和目标类型的像素坐标；

5、s4、进行注视目标判定，若判断目标被注视则执行目标对应程序。

6、通过上述技术手段，本申请人搭建眼动追踪交互系统，实时采集睁眼注视点，通过眼动追踪深度学习模型获取用户对现实场景的注视点，并判断用户是否在注视特定的现实目标，从而实现通过眼动控制现实物体。

7、优选的，

8、s101、采集眼部图像和场景图像；

9、s102、通过pytorh构建两层简单神经网络对眼部图像进行分类，其中一类为睁眼图像，另一类为闭眼与未检测到瞳孔的图像。

10、优选的，

11、s201、通过pytorch构建眼动模型；

12、s202、基于pytorch构建并采用yolov7模型构建yolo目标识别模型；

13、s203、构建包含识别目标的数据集，并使用包含目标的数据集训练所述yolo目标识别模型；

14、s204、将上述使用包含目标数据集训练好的yolo目标识别模型用于生成眼动模型数据集；

15、s205、利用包含识别目标的数据集训练yolo目标识别模型，利用眼动模型数据集训练眼动模型。

16、优选的，

17、s301、将睁眼图像和场景图像转换为灰度图像；

18、s302、将灰度图像尺寸进行归一化尺寸变换；

19、s303、将经过尺寸变换的灰度图像的格式转换为tensor类型数据，从而得到睁眼图像数据和场景图像数据；

20、s304、眼部图像数据输入眼动模型获得注视点坐标，场景图像数据输入yolo目标识别模型获得目标类型和目标类型的像素坐标。

21、优选的，目标注视判定具体为：

22、将各目标类型的注视状态设置为0；

23、将各目标类型的像素坐标与注视点坐标逐个进行判定；

24、当注视点坐标位于任一目标类型的像素坐标区域内时，将该目标类型的注视状态修改为1。

25、优选的，眼动模型采用双层cnn卷积结构。

26、优选的，包含识别目标的数据集通过使用labelimg完成；包含识别目标的数据集包括：目标的种类和对应的位置。

27、在本申请的第二个方面，提供了一种眼动追踪交互装置，装置包括镜架和主控模块，镜架上设置有场景摄像头、眼睛鼻托、眼部摄像头以及红外光源，眼部摄像头和红外光源设置在镜架靠近镜腿的一侧，场景摄像头设置在镜架远离镜腿的一侧，场景摄像头、眼部摄像头以及红外光源均和主控模块信号连接，主控模块用于通过权利要求1-7任一项的方法实现通过眼动触发现实物体的控制。

28、优选的，场景摄像头采用ov2659型号的135°广角摄像头；眼部摄像头采用ov5640摄像头模块。

29、优选的，红外光源采用发光波长为850nm的红外led光源。

30、与现有技术相比，本申请的有益成果在于：

31、1、在pupil项目基础上，进一步扩展了眼动追踪的应用，尤其是提供了对现实物体控制的触发架构和接口。

32、2、为用户提供了灵活的触发架构和接口，用户可以根据具体需求，自定义触发程序和效果，从而实现个性化的设备控制和人机交互。这种创新的交互方式不仅提升了用户体验，还扩展了眼动追踪技术的应用范围。

本文档来自技高网...

【技术保护点】

1.一种眼动追踪交互方法，其特征在于，包括：

2.根据权利要求1所述的一种眼动追踪交互方法，其特征在于，所述S1包括：

3.根据权利要求1所述的一种眼动追踪交互方法，其特征在于，所述S2包括：

4.根据权利要求1所述的一种眼动追踪交互方法，其特征在于，所述S3包括：

5.根据权利要求1所述的一种眼动追踪交互方法，其特征在于，所述目标注视判定具体为：

6.根据权利要求1所述的一种眼动追踪交互方法，其特征在于，所述眼动模型采用双层cnn卷积结构。

7.根据权利要求3所述的一种眼动追踪交互方法，其特征在于，所述包含识别目标的数据集通过使用LabelImg完成；所述包含识别目标的数据集包括：目标的种类和对应的位置。

8.一种眼动追踪交互装置，其特征在于，所述装置包括镜架和主控模块，所述镜架上设置有场景摄像头、眼睛鼻托、眼部摄像头以及红外光源，所述眼部摄像头和红外光源设置在镜架靠近镜腿的一侧，所述场景摄像头设置在镜架远离镜腿的一侧，所述场景摄像头、眼部摄像头以及红外光源均和主控模块信号连接，所述主控模块用于

9.根据权利要求8所述的一种眼动追踪交互装置，其特征在于，所述场景摄像头采用OV2659型号的135°广角摄像头；所述眼部摄像头采用ov5640摄像头模块。

10.根据权利要求8所述的一种眼动追踪交互装置，其特征在于，所述红外光源采用发光波长为850nm的红外LED光源。

...

【技术特征摘要】

1.一种眼动追踪交互方法，其特征在于，包括：

2.根据权利要求1所述的一种眼动追踪交互方法，其特征在于，所述s1包括：

3.根据权利要求1所述的一种眼动追踪交互方法，其特征在于，所述s2包括：

4.根据权利要求1所述的一种眼动追踪交互方法，其特征在于，所述s3包括：

5.根据权利要求1所述的一种眼动追踪交互方法，其特征在于，所述目标注视判定具体为：

6.根据权利要求1所述的一种眼动追踪交互方法，其特征在于，所述眼动模型采用双层cnn卷积结构。

7.根据权利要求3所述的一种眼动追踪交互方法，其特征在于，所述包含识别目标的数据集通过使用labelimg完成；所述包含识别目标的数据集包括：目标的种类和对应的...

【专利技术属性】
技术研发人员：郭伟杰，吴宗宇，吕毅军，陈忠，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人