一种基于注意力机制的多模态注视目标估计方法技术

技术编号：38718474 阅读：9 留言：0更新日期：2023-09-08 15:01

本发明专利技术属于人工智能技术领域，尤其公开了一种基于注意力机制的多模态注视目标估计方法，包括以下步骤：S1、通过RGB

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力机制的多模态注视目标估计方法

[0001]本专利技术属于人工智能
，特别涉及一种基于注意力机制的多模态注视目标估计方法。

技术介绍

[0002]传统方法将头部裁剪图像和场景图像作为输入，利用头部姿态特征和潜在凝视目标的显著性图来进行预测。传统方法包括以下缺点：
[0003]1、传统方法在2D表示中探索注视方向，几乎不对深度通道进行编码。然而，受试者的注视方向上可能存在多个不同深度的候选对象，这种情况下极有可能产生错误的估计。
[0004]2、虽然部分方法考虑到了深度图像，但只是进行简单的特征拼接，没有使两个模态的特征之间进行一定程度上的交互，不能使模态之间相互学习；
[0005]3、当人物注视目标位于场景整图之外时，模型往往也会给出一个注视目标在场景整图内的错误预测，缺少一个注视目标在场景整图内外的判断，影响注视目标估计的准确率。
[0006]因此，专利技术一种基于注意力机制的多模态注视目标估计方法来解决上述问题很有必要。

技术实现思路

[0007]针对上述问题，本专利技术提供了一种基于注意力机制的多模态注视目标估计方法，以解决上述
技术介绍
中提出的问题：
[0008]为实现上述目的，本专利技术提供如下技术方案：一种基于注意力机制的多模态注视目标估计方法，包括以下步骤：
[0009]S1、通过摄像头进行场景图片采集，分别得到二维场景图像S和深度图像D，并同时获取目标人物头部图像H和头部位置；
[0010]S2、通过共享骨干网络分...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的多模态注视目标估计方法，其特征在于：包括以下步骤：S1、通过摄像头进行场景图片采集，分别得到二维场景图像S和深度图像D，并同时获取目标人物头部图像H和头部位置；S2、通过共享骨干网络分别提取二维场景图像S、深度图像D和头部图像H的特征，分别得到场景特征f
s
、深度特征f
d
和头部特征f
h
；S3、通过多个embedding层得到头部位置的位置特征p
h
，将位置特征p
h
、场景特征f
s
和头部特征f
h
送入特征增强模块中得到增强场景特征F
s
，将位置特征p
h
、深度特征f
d
和头部特征f
h
送入特征增强模块中得到增强深度特征F
d
；S4、将增强场景特征F
s
和增强深度特征F
d
输入至交叉注意力模块来进行特征交互，得到交互后的增强特征；S5、通过三个输出头处理交互后的增强特征，计算设计损失函数，得到目标预测模型，通过摄像头将采集到的视频经过预处理输入至目标预测模型中，得到预测结果。2.根据权利要求1所述的基于注意力机制的多模态注视目标估计方法，其特征在于：还包括通过选用BERT
‑
base模型作为骨干网络对文本特征进行编码，得到文本特征f
t
，将文本特征f
t
与增强场景特征F
s
通过交叉注意力模块进行特征交互，得到融合特征F
ts
，并将融合特征F
ts
与交互后的增强特征进行融合，得到交互后的融合增强特征。3.根据权利要求1所述的基于注意力机制的多模态注视目标估计方法，其特征在于：在S4中，具体包括：将增强场景特征F
s
和增强深度特征F
d
各自送入Transformer Encoder后紧接着交换两者的图像特征key和value再进行一次Transformer Encoder，最后对得到的特征进行拼接来输出交互后的增强特征。4.根据权利要求3所述的基于注意力机制的多模态注视目标估计方法，其特征在于：所述交互后的增强特征的计算过程如下：将增强场景特征F
s
和增强深度特征F
d
各自送入Transformer Encoder：得到式(1)：F
d2s
,F
s2d
＝CrossAtt(F
s
,F

【专利技术属性】
技术研发人员：徐骜，陈欣，蒋贻顺，李敏，王方兵，
申请(专利权)人：合肥中聚源智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人