一种基于注意力机制和深度先验的注视点检测方法技术

技术编号：39305311 阅读：9 留言：0更新日期：2023-11-12 15:54

本发明专利技术涉及一种基于注意力机制和深度先验的注视点检测方法，包括：对场景图中的头部图像进行特征提取得到视线特征，根据视线特征预测出注视方向，并根据注视方向进行编码生成注视场；将场景图、场景深度图和注视场输入至以ResNet网络为骨干的特征金字塔网络，得到视线区域定位注视区域的显著物体。本发明专利技术能够提高注视点检测的精度。高注视点检测的精度。高注视点检测的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力机制和深度先验的注视点检测方法

[0001]本专利技术涉及注视点检测
，特别是涉及一种基于注意力机制和深度先验的注视点检测方法。

技术介绍

[0002]注视点检测，旨在检测图像中人物注视的区域或物体。注视行为是人类社会活动的一个重要组成内容，它能够明确地表达人类的兴趣、感觉和意图，我们可以根据其注视对象推断出很多潜在的信息，因此注视点检测成为了评估人物行为意图和预测各种场景中人类行为的重要手段。例如在零售场景中，可以根据消费者与不同产品的视线接触来推断他们对产品的感兴趣程度，并分析出什么样的信息(食品的成分、价格、生产日期等)最吸引消费者的注意。注视点检测已经被应用到人机交互、残疾或疾病行为模式分析、游戏设计、虚拟现实等多种领域。
[0003]当人们推断另一个人在看哪里时，他们通常会先观察这个人的头部和眼睛来估计他的视野范围，然后通过推断他视角中的显著物体来预测他在看什么。注视点检测算法往往包含两个模块，即视线预测模块和显著性检测模块。视线预测模块利用人脸局部图像、人脸位置等信息，通过神经网络学习视线方向，编码生成注视方向场。显著性检测模块将注视方向场与原始图像拼接，利用深度神经网络学习场景特征，通过热图回归输出注视点检测结果。
[0004]现有的视线预测模块是将头部图像输入到ResNet
‑
50神经网络中进行特征提取，通过线性层输出1
×
512的特征向量，头部位置坐标(x,y)通过线性层输出1
×
256的特征向量，将这两个特征...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制和深度先验的注视点检测方法，其特征在于，包括：对场景图中的头部图像进行特征提取得到视线特征，根据视线特征预测出注视方向，并根据注视方向进行编码生成注视场；将场景图、场景深度图和注视场输入至以ResNet网络为骨干的特征金字塔网络，得到视线区域定位注视区域的显著物体。2.根据权利要求1所述的基于注意力机制和深度先验的注视点检测方法，其特征在于，所述对场景图中的头部图像进行特征提取得到视线特征，根据视线特征预测出注视方向，并根据注视方向进行编码生成注视场，包括：从场景图中截取出头部图像；将所述头部图像输入至ResNet
‑
50神经网络中进行特征提取，得到第一特征；将场景图中的头部位置用白色像素显示，其余位置用黑色像素显示，得到二值图，对二值图进行三个连续的最大池化操作，再通过卷积核提取特征，得到第二特征；将头部位置坐标通过线性层处理，得到第三特征；将第一特征、第二特征和第三特征进行拼接得到视线特征；将视线特征进行线性变换得到注视方向，再将注视方向通过编码得到多尺度的注视场。3.根据权利要求2所述的基于注意力机制和深度先验的注视点检测方法，其特征在于，所述ResNet
‑
50神经网络中引入注意力策略以实现眼部特征重要性的自适应学习。4.根据权利要求2所述的基于注意力机制和深度先验的注视点检测方法，其特征在于，所述注视场是一个以头部位置为顶点的...

【专利技术属性】
技术研发人员：朱芸，张晓林，朱冬晨，张广慧，李嘉茂，孙彦赞，
申请(专利权)人：中国科学院上海微系统与信息技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人