一种基于注意力机制的多模态注视目标估计方法技术

技术编号:38718474 阅读:9 留言:0更新日期:2023-09-08 15:01
本发明专利技术属于人工智能技术领域,尤其公开了一种基于注意力机制的多模态注视目标估计方法,包括以下步骤:S1、通过RGB

【技术实现步骤摘要】
一种基于注意力机制的多模态注视目标估计方法


[0001]本专利技术属于人工智能
,特别涉及一种基于注意力机制的多模态注视目标估计方法。

技术介绍

[0002]传统方法将头部裁剪图像和场景图像作为输入,利用头部姿态特征和潜在凝视目标的显著性图来进行预测。传统方法包括以下缺点:
[0003]1、传统方法在2D表示中探索注视方向,几乎不对深度通道进行编码。然而,受试者的注视方向上可能存在多个不同深度的候选对象,这种情况下极有可能产生错误的估计。
[0004]2、虽然部分方法考虑到了深度图像,但只是进行简单的特征拼接,没有使两个模态的特征之间进行一定程度上的交互,不能使模态之间相互学习;
[0005]3、当人物注视目标位于场景整图之外时,模型往往也会给出一个注视目标在场景整图内的错误预测,缺少一个注视目标在场景整图内外的判断,影响注视目标估计的准确率。
[0006]因此,专利技术一种基于注意力机制的多模态注视目标估计方法来解决上述问题很有必要。

技术实现思路

[0007]针对上述问题,本专利技术提供了一种基于注意力机制的多模态注视目标估计方法,以解决上述
技术介绍
中提出的问题:
[0008]为实现上述目的,本专利技术提供如下技术方案:一种基于注意力机制的多模态注视目标估计方法,包括以下步骤:
[0009]S1、通过摄像头进行场景图片采集,分别得到二维场景图像S和深度图像D,并同时获取目标人物头部图像H和头部位置;
[0010]S2、通过共享骨干网络分别提取二维场景图像S、深度图像D和头部图像H的特征,分别得到场景特征f
s
、深度特征f
d
和头部特征f
h

[0011]S3、通过多个embedding层得到头部位置的位置特征p
h
,将位置特征p
h
、场景特征f
s
和头部特征f
h
送入特征增强模块中得到增强场景特征F
s
,将位置特征p
h
、深度特征f
d
和头部特征f
h
送入特征增强模块中得到增强深度特征F
d

[0012]S4、将增强场景特征F
s
和增强深度特征F
d
输入至交叉注意力模块来进行特征交互,得到交互后的增强特征;
[0013]S5、通过三个输出头处理交互后的增强特征,计算设计损失函数,得到目标预测模型,通过摄像头将采集到的视频经过预处理输入至目标预测模型中,得到预测结果。
[0014]进一步的,还包括通过选用BERT

base模型作为骨干网络对文本特征进行编码,文本特征f
t
,将文本特征f
t
与增强场景特征F
s
通过交叉注意力模块进行特征交互,得到融合特征F
ts
,并将融合特征F
ts
与交互后的增强特征进行融合,得到交互后的融合增强特征。
[0015]进一步的,在S4中,具体包括:
[0016]将增强场景特征F
s
和增强深度特征F
d
各自送入Transformer Encoder后紧接着交换两者的图像特征key和value再进行一次Transformer Encoder,最后对得到的特征进行拼接来输出交互后的增强特征。
[0017]进一步的,所述交互后的增强特征的计算过程如下:
[0018]将增强场景特征F
s
和增强深度特征F
d
各自送入Transformer Encoder:
[0019]得到式(1):
[0020]F
d2s
,F
s2d
=CrossAtt(F
s
,F
d
);
[0021]交换两者的key和value再进行一次Transformer Encoder:
[0022]得到式(2):
[0023]F

s
=F
s
+F
d2s
;F

d
=F
d
+F
s2d

[0024]将得到的特征进行拼接:
[0025]得到式(3):
[0026][0027]进一步的,所述通过三个输出头处理交互后的增强特征包括:
[0028]第一输出头设置为目标检测模块,用于检测场景内对象;
[0029]第二输出头设置为注视目标估计模块,用于通过编解码器来输出注视热图;
[0030]第三输出头设置为编码器,用于输出注意力落在场景内外In/Out的二分类判断(In:0;Out:1)。
[0031]进一步的,所述计算设计损失函数包括:
[0032]式(4):L
total
=w
det
L
det
+w
heatmap
L
heatmap
+w
box
L
box
+w
In/Out
L
In/Out

[0033]其中,L
total
表示目标预测模型的模型总损失,L
det
表示目标检测模块检测的损失,L
heatmap
表示注视热图的均方误差损失,L
In/Out
表示In/Out输出的加权二元交叉熵损失,L
box
表示注视热图与目标框图真值的交叉损失,w
det
、w
heatmap
、w
box
和w
In/Out
都是可学习权重。
[0034]进一步的,所述计算设计损失函数还包括:
[0035]式(5):
[0036][0037]其中,N
g
表示注视热图落在目标框内的有效像素个数,N
box
表示目标框内总的像素个数。
[0038]进一步的,所述式(4)包括:
[0039]式(6):
[0040][0041]且
[0042]其中,类别权重w
i
由视线In/Out两类标签所占训练集r
j
的比例r
i
计算得来,y
i
为标签真值,p(y
i
)为标签y
i
的预测概率。
[0043]本专利技术的技术效果和优点:
[0044]本专利技术通过文本特征来指导模型训练,通过目标框图的位置信息来指导注视估计,并且使得场景的深度信息和二维纹理信息充分交互,提高了注视目标估计的准确率,可以帮助计算机视觉系统更好的理解人们在场景中所作事情及本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的多模态注视目标估计方法,其特征在于:包括以下步骤:S1、通过摄像头进行场景图片采集,分别得到二维场景图像S和深度图像D,并同时获取目标人物头部图像H和头部位置;S2、通过共享骨干网络分别提取二维场景图像S、深度图像D和头部图像H的特征,分别得到场景特征f
s
、深度特征f
d
和头部特征f
h
;S3、通过多个embedding层得到头部位置的位置特征p
h
,将位置特征p
h
、场景特征f
s
和头部特征f
h
送入特征增强模块中得到增强场景特征F
s
,将位置特征p
h
、深度特征f
d
和头部特征f
h
送入特征增强模块中得到增强深度特征F
d
;S4、将增强场景特征F
s
和增强深度特征F
d
输入至交叉注意力模块来进行特征交互,得到交互后的增强特征;S5、通过三个输出头处理交互后的增强特征,计算设计损失函数,得到目标预测模型,通过摄像头将采集到的视频经过预处理输入至目标预测模型中,得到预测结果。2.根据权利要求1所述的基于注意力机制的多模态注视目标估计方法,其特征在于:还包括通过选用BERT

base模型作为骨干网络对文本特征进行编码,得到文本特征f
t
,将文本特征f
t
与增强场景特征F
s
通过交叉注意力模块进行特征交互,得到融合特征F
ts
,并将融合特征F
ts
与交互后的增强特征进行融合,得到交互后的融合增强特征。3.根据权利要求1所述的基于注意力机制的多模态注视目标估计方法,其特征在于:在S4中,具体包括:将增强场景特征F
s
和增强深度特征F
d
各自送入Transformer Encoder后紧接着交换两者的图像特征key和value再进行一次Transformer Encoder,最后对得到的特征进行拼接来输出交互后的增强特征。4.根据权利要求3所述的基于注意力机制的多模态注视目标估计方法,其特征在于:所述交互后的增强特征的计算过程如下:将增强场景特征F
s
和增强深度特征F
d
各自送入Transformer Encoder:得到式(1):F
d2s
,F
s2d
=CrossAtt(F
s
,F

【专利技术属性】
技术研发人员:徐骜陈欣蒋贻顺李敏王方兵
申请(专利权)人:合肥中聚源智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1