一种基于注意力机制和深度先验的注视点检测方法技术

技术编号:39305311 阅读:9 留言:0更新日期:2023-11-12 15:54
本发明专利技术涉及一种基于注意力机制和深度先验的注视点检测方法,包括:对场景图中的头部图像进行特征提取得到视线特征,根据视线特征预测出注视方向,并根据注视方向进行编码生成注视场;将场景图、场景深度图和注视场输入至以ResNet网络为骨干的特征金字塔网络,得到视线区域定位注视区域的显著物体。本发明专利技术能够提高注视点检测的精度。高注视点检测的精度。高注视点检测的精度。

【技术实现步骤摘要】
一种基于注意力机制和深度先验的注视点检测方法


[0001]本专利技术涉及注视点检测
,特别是涉及一种基于注意力机制和深度先验的注视点检测方法。

技术介绍

[0002]注视点检测,旨在检测图像中人物注视的区域或物体。注视行为是人类社会活动的一个重要组成内容,它能够明确地表达人类的兴趣、感觉和意图,我们可以根据其注视对象推断出很多潜在的信息,因此注视点检测成为了评估人物行为意图和预测各种场景中人类行为的重要手段。例如在零售场景中,可以根据消费者与不同产品的视线接触来推断他们对产品的感兴趣程度,并分析出什么样的信息(食品的成分、价格、生产日期等)最吸引消费者的注意。注视点检测已经被应用到人机交互、残疾或疾病行为模式分析、游戏设计、虚拟现实等多种领域。
[0003]当人们推断另一个人在看哪里时,他们通常会先观察这个人的头部和眼睛来估计他的视野范围,然后通过推断他视角中的显著物体来预测他在看什么。注视点检测算法往往包含两个模块,即视线预测模块和显著性检测模块。视线预测模块利用人脸局部图像、人脸位置等信息,通过神经网络学习视线方向,编码生成注视方向场。显著性检测模块将注视方向场与原始图像拼接,利用深度神经网络学习场景特征,通过热图回归输出注视点检测结果。
[0004]现有的视线预测模块是将头部图像输入到ResNet

50神经网络中进行特征提取,通过线性层输出1
×
512的特征向量,头部位置坐标(x,y)通过线性层输出1
×
256的特征向量,将这两个特征向量拼接后通过线性层变换为1
×
2的视线方向向量,再对其进行编码,生成多尺度的注视场(FOV)。由于头部位置特征是以一个(x,y)的二维坐标通过线性变换提取的特征,因此其本身包含的信息较少,缺乏全局信息,而在脸部特征提取中,往往更需要关注眼睛区域的特征,用ResNet

50神经网络进行特征提取不能体现这种注意力分配。
[0005]现有的显著性检测模块是将多尺度注视场与原图在通道方向上进行拼接,输入到神经网络(例如特征金字塔网络架构(FPN))中进行热图回归,热图最大值的点视为最终的注视点,该方式缺乏对场景深度的理解,很难准确地捕捉到空间信息。例如,沿着主体的凝视方向,可能存在两个或两个以上不同深度的候选物体,因此通过这种方式无法确认注视点最终落在哪个候选物体上。

技术实现思路

[0006]本专利技术所要解决的技术问题是提供一种基于注意力机制和深度先验的注视点检测方法,能够提高注视点检测的精度。
[0007]本专利技术解决其技术问题所采用的技术方案是:提供一种基于注意力机制和深度先验的注视点检测方法,包括:
[0008]对场景图中的头部图像进行特征提取得到视线特征,根据视线特征预测出注视方
向,并根据注视方向进行编码生成注视场;
[0009]将场景图、场景深度图和注视场输入至以ResNet网络为骨干的特征金字塔网络,得到视线区域定位注视区域的显著物体。
[0010]所述对场景图中的头部图像进行特征提取得到视线特征,根据视线特征预测出注视方向,并根据注视方向进行编码生成注视场,包括:
[0011]从场景图中截取出头部图像;
[0012]将所述头部图像输入至ResNet

50神经网络中进行特征提取,得到第一特征;
[0013]将场景图中的头部位置用白色像素显示,其余位置用黑色像素显示,得到二值图,对二值图进行三个连续的最大池化操作,再通过卷积核提取特征,得到第二特征;
[0014]将头部位置坐标通过线性层处理,得到第三特征;
[0015]将第一特征、第二特征和第三特征进行拼接得到视线特征;
[0016]将视线特征进行线性变换得到注视方向,再将注视方向通过编码得到多尺度的注视场。
[0017]所述ResNet

50神经网络中引入注意力策略以实现眼部特征重要性的自适应学习。
[0018]所述注视场是一个以头部位置为顶点的锥形区域表示,点P为凝视点的概率表示为:其中,G表示点P与头部位置的连线;表示注视方向,λ为注视场的角度,当点P与头部位置的连线与注视方向的夹角大于90
°
时,点P成为凝视点的概率为0。
[0019]所述场景深度图是通过将场景图像输入至深度估计网络中得到的。
[0020]所述ResNet网络为骨干的特征金字塔网络中,在所述ResNet网络中加入置换注意力模块。
[0021]所述置换注意力模块包括:
[0022]分组部分,用于对输入的特征进行分组,将输入的特征沿通道方向分成G组子特征,每组子特征分成第一子特征和第二子特征;
[0023]通道注意力分支部分,用于对第一子特征进行全局平均池化处理得到第一子特征的全局信息,并生成通道特征图,并通过激活函数输出,得到第一输出特征;
[0024]空间注意力分支部分,用于对第二子特征进行组归一化处理得到空间统计量,并通过激活函数输出,得到第二输出特征;
[0025]拼接部分,用于将第一输出特征和第二输出特征进行拼接,得到输出特征。
[0026]所述通道注意力分支部分和空间注意力分支部分采用的激活函数均为Sigmoid激活函数。
[0027]有益效果
[0028]由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果:本专利技术将头部位置用二值图像进行编码,通过三个连续的最大池化进行降维,再利用卷积核提取特征,并将多种特征融合后进行线性变换,这样对头部位置信息进行了更深层的特征提取;本专利技术在对头部图像的特征进行提取时引入注意力策略,实现对脸部特征重要
性的自适应学习,加强特征表示能力,提高视线方向预测精度;本专利技术将场景深度图、场景原始图像、注视场在通道方向上拼接后输入到深度学习网络,能够提取出有效的场景深度信息,并在深度学习网络中加入置换注意力模块,可以对每一组特征学习出在空间与通道维度上的重要性(权重),对信息更丰富的特征表达分配更大的权重,同时抑制无用的特征表达。
附图说明
[0029]图1是本专利技术实施方式注意力机制和深度先验的注视点检测方法的原理图;
[0030]图2是本专利技术实施方式中的模型总框架图;
[0031]图3是本专利技术实施方式中视线预测模块框图;
[0032]图4是本专利技术实施方式中显著性检测模块框图;
[0033]图5是本专利技术实施方式中置换注意力模块的示意图。
具体实施方式
[0034]下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
[0035]本专利技术的实施方式涉及一种基于注意力机制和深度先验的注视点检测方法,该方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制和深度先验的注视点检测方法,其特征在于,包括:对场景图中的头部图像进行特征提取得到视线特征,根据视线特征预测出注视方向,并根据注视方向进行编码生成注视场;将场景图、场景深度图和注视场输入至以ResNet网络为骨干的特征金字塔网络,得到视线区域定位注视区域的显著物体。2.根据权利要求1所述的基于注意力机制和深度先验的注视点检测方法,其特征在于,所述对场景图中的头部图像进行特征提取得到视线特征,根据视线特征预测出注视方向,并根据注视方向进行编码生成注视场,包括:从场景图中截取出头部图像;将所述头部图像输入至ResNet

50神经网络中进行特征提取,得到第一特征;将场景图中的头部位置用白色像素显示,其余位置用黑色像素显示,得到二值图,对二值图进行三个连续的最大池化操作,再通过卷积核提取特征,得到第二特征;将头部位置坐标通过线性层处理,得到第三特征;将第一特征、第二特征和第三特征进行拼接得到视线特征;将视线特征进行线性变换得到注视方向,再将注视方向通过编码得到多尺度的注视场。3.根据权利要求2所述的基于注意力机制和深度先验的注视点检测方法,其特征在于,所述ResNet

50神经网络中引入注意力策略以实现眼部特征重要性的自适应学习。4.根据权利要求2所述的基于注意力机制和深度先验的注视点检测方法,其特征在于,所述注视场是一个以头部位置为顶点的...

【专利技术属性】
技术研发人员:朱芸张晓林朱冬晨张广慧李嘉茂孙彦赞
申请(专利权)人:中国科学院上海微系统与信息技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1