人眼注视定位与注视目标检测的视觉跟随系统技术方案

技术编号：40792975 阅读：22 留言：0更新日期：2024-03-28 19:22

一种人眼注视定位与注视目标检测的视觉跟随系统，包括：视觉编码器、人类实例解码器、目光追踪解码器和多头注意力预测模块，本发明专利技术加强了注视目标检测及注视定位的准确度并提升视觉注视区域定位与注视物体识别的效率的同时，摒弃了传统使用人类头部图像块作为输入的做法，而是利用它们作为预测目标。这不仅消除了额外的头部检测器的使用，而且允许本方法处理任意数量的人类注视跟随预测，极大提升了方法的可扩展性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及的是一种图像处理领域的技术，具体是一种人眼注视定位与注视目标检测的视觉跟随系统。

技术介绍

1、注视估计与定位泛指与眼球、眼动、视线等相关的研究，以眼睛图像或人脸图像为处理对象，估算人的视线方向或注视点位置。该项技术主要应用于游戏内使用眼动仪进行交互，或医疗领域用于检测和诊断精神类或心理类的疾病，亦或是辅助驾驶领域检测驾驶员是否疲劳驾驶以及注意力是否集中以及提供一些交互从而解放双手。

技术实现思路

1、本专利技术针对现有技术将注视位置检测和注视对象检测作为两个独立的任务，采用多阶段框架实现，因此效率较低，导致识别反馈实时性较差的缺陷，提出一种人眼注视定位与注视目标检测的视觉跟随系统，加强了注视目标检测及注视定位的准确度并提升视觉注视区域定位与注视物体识别的效率的同时，摒弃了传统使用人类头部图像块作为输入的做法，而是利用它们作为预测目标。这不仅消除了额外的头部检测器的使用，而且允许本方法处理任意数量的人类注视跟随预测，极大提升了方法的可扩展性。

2、本专利技术是通过以下技术方案实现的：

3、本专利技术涉及一种人眼注视定位与注视目标检测的视觉跟随系统，包括：视觉编码器、人类实例解码器、目光追踪解码器和多头注意力预测模块，其中：视觉编码器采用卷积神经网络与transformer模型相结合的组合视觉编码器从输入的多人物图像中提取出全局视觉特征；人类实例解码器通过堆叠自注意力和交叉注意力机制组成的解码层从多人物图像的全局视觉特征中学习并预测得到不同人物实

4、技术效果

5、本专利技术省去任何额外的模块，采用一种统一的和单阶段的注视跟踪检测框架以及层次化结构实现了整体语义和人类头部特征之间的迭代交互，从全局图像上下文推断出显著对象和人类注视的关系，从而获得较高的准确性。与现有技术相比，本专利技术在公开的goo数据集上显著提高了性能增益和处理速度。

本文档来自技高网...

【技术保护点】

1.一种人眼注视定位与注视目标检测的视觉跟随系统，其特征在于，包括：视觉编码器、人类实例解码器、目光追踪解码器和多头注意力预测模块，其中：视觉编码器采用卷积神经网络与Transformer模型相结合的组合视觉编码器从输入的多人物图像中提取出全局视觉特征；人类实例解码器通过堆叠自注意力和交叉注意力机制组成的解码层从多人物图像的全局视觉特征中学习并预测得到不同人物实例之间的关系；目光追踪解码器根据全局视觉特征中人类注视位置区域和注释内容，学习并预测得到不同人类特征与全局场景之间的关系；多头注意力预测模块根据不同人物实例之间的关系和不同人类特征与全局场景之间的关系对全局视觉特征中人类头部特征和上下文场景之间的动态交互进行多头注意力并行预测，得到人物视觉注视追踪图像，实现人类头部运动与注视跟随的预测。

2.根据权利要求1所述的人眼注视定位与注视目标检测的视觉跟随系统，其特征是，所述的视觉编码器通过从包含任意人类数量的图像中提取下采样的特征映射，采用余弦位置编码附加到编码其中作为位置信息，获得包含位置信息编码和视觉特征信息的全局视觉特征，该模块包括：深度神经网络、Transfo

3.根据权利要求1所述的人眼注视定位与注视目标检测的视觉跟随系统，其特征是，所述的人类实例解码器包括：若干级联的基于自注意力和交叉注意力机制的Transformer解码层，其中：Transformer解码层根据视觉编码器输出的视觉特征信息和一组突出人类实例的参数向量，进行迭代学习以获得人类实例与图像块之间的关联权重。

4.根据权利要求1所述的人眼注视定位与注视目标检测的视觉跟随系统，其特征是，所述的目光追踪解码器，包括：若干级联的Transformer解码层，其中：Transformer解码层根据视觉编码器输出的视觉特征信息以及人类实例解码层学习到的人类实例特征，进行迭代学习，得到人类实例与场景内容信息的交互关系。

5.根据权利要求1所述的人眼注视定位与注视目标检测的视觉跟随系统，其特征是，所述的多头注意力预测模块，包括：若干多层感知机，其中：每个多层感知机作为人类注视位置、人类注视目标概率与人类注视目标框定的预测网络，将最后一个人物实例解码层提取的查询向量作为输入，分别执行两类多层感知机来预测人类置信度和人类头部边界框范围的同时将最后一个注视跟踪编码层的输出分别送入一个五层多层感知机分支、一个一层多层感知机分支和一个三层多层感知机分支来预测人类注视位置、人类注视目标概率与人类注视目标框范围。

6.一种基于权利要求1-5中任一所述系统的人眼注视定位与注视目标检测的方法，其特征在于，包括：

...

【技术特征摘要】

1.一种人眼注视定位与注视目标检测的视觉跟随系统，其特征在于，包括：视觉编码器、人类实例解码器、目光追踪解码器和多头注意力预测模块，其中：视觉编码器采用卷积神经网络与transformer模型相结合的组合视觉编码器从输入的多人物图像中提取出全局视觉特征；人类实例解码器通过堆叠自注意力和交叉注意力机制组成的解码层从多人物图像的全局视觉特征中学习并预测得到不同人物实例之间的关系；目光追踪解码器根据全局视觉特征中人类注视位置区域和注释内容，学习并预测得到不同人类特征与全局场景之间的关系；多头注意力预测模块根据不同人物实例之间的关系和不同人类特征与全局场景之间的关系对全局视觉特征中人类头部特征和上下文场景之间的动态交互进行多头注意力并行预测，得到人物视觉注视追踪图像，实现人类头部运动与注视跟随的预测。

2.根据权利要求1所述的人眼注视定位与注视目标检测的视觉跟随系统，其特征是，所述的视觉编码器通过从包含任意人类数量的图像中提取下采样的特征映射，采用余弦位置编码附加到编码其中作为位置信息，获得包含位置信息编码和视觉特征信息的全局视觉特征，该模块包括：深度神经网络、transformer模型、余弦位置编码单元和全局视觉特征提取单元，其中：深度神经网络对输入图像进行处理，提取其不同层级的视觉特征，该特征与经过余弦位置编码的编码向量相叠加作为transformer模型的输入，通过全局视觉特征提取单元提取得到全局视觉特征。

<...

【专利技术属性】
技术研发人员：王涛，吴娟，王哲悦，李文辉，
申请(专利权)人：苏州全波通信技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人