该发明专利技术公开了一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,属于多模态行为识别领域。本发明专利技术首先将视觉模态输入预训练的CLIP视觉编码器提取视觉特征,将经过STFT变换的加速度计模态、陀螺仪模态频谱图提取对应的特征,文本通过预训练的CLIP文本编码器提取到文本特征。然后将视觉特征传入到适配器模块,将零样本知识与新的自适应特征知识进行动态结合,得到最终的视觉特征。加速度计模态、陀螺仪模态通过惯性传感器融合模块得到最终的惯性传感器特征。最后将文本、视觉、惯性传感器特征一同输入多模态融合模块,充分考虑不同模态间对齐的问题,有效地提升模态融合的效果。该方法在零样本多模态第一视角行为识别任务上表现令人满意。
【技术实现步骤摘要】
本专利技术属于多模态行为识别领域,尤其涉及一种基于视觉语言知识引入的零样本多模态第一视角的行为识别方法。该方法可以在零样本设置下对多模态第一视角数据集实现行为识别。
技术介绍
1、近年来,由于广泛注释的数据集和显著提升的深度学习架构,第一视角下的视频动作识别任务取得了巨大进展。以自我为中心的动作识别(ear)专注于识别第一人称视频中的人类动作,丰富了更真实的人类环境交互,因其在人机交互、运动分析和视频摘要等领域的广泛应用而受到越来越多的关注。然而,为对象之间的每一种可能的交互收集和注释视频样本是不切实际的,因此识别以前未见过的动作仍然是一项具有挑战性的任务。
2、最近,在大规模数据集上进行预训练的视觉语言模型,在各种视觉识别任务中表现出了出色的零样本泛化能力。从强大的视觉语言模型转移视觉语言知识并将其扩展到零样本自我中心动作识别的策略正在成为一种有效且有前景的方法。现有的方法包括lavila、gpt4ego等,通过直接计算类名称和类标记特征的余弦相似度来执行全局视频文本匹配,实现了出色的性能。但是,上述方法不能很好地适应不同的下游数据集,需要进一步的微调。且目前的研究更关注于视觉模态的零样本第一视角行为识别,多模态行为识别任务很大程度上仍未得到探索。由于多模态信息的引入,会导致不同模态的对齐不理想,如何整合多模态信息并且对齐是需要考虑的问题。因此,为了解决上述问题,我们提出了一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,更好地整合多模态信息并将其对齐,在零样本多模态第一视角行为识别任务上表现令人满意。</p>
技术实现思路
1、现有的基于视觉语言模型的零样本行为识别方法不能很好的适应下游数据集,若优化模型的所有参数,由于过度参数化和缺乏足够的训练样本,会导致对特定的数据集过拟合,其原有的泛化能力丧失;现有的基于视觉语言模型的零样本行为识别方法在多模态行为识别任务很大程度上仍未得到探索。引入多模态数据后,不同模态包含更多的互补信息,但是这些信息难以建立对应关系。
2、由于预训练的视觉语言模型clip具有强大的零样本图像识别能力,因此本专利技术将clip模型的视觉和文本编码器作为特征提取器。在视觉分支提出了轻量化的适配器模块,仅对适配器模块中的参数进行微调,学习新知识适应预训练的视觉语言模型。通过将零样本知识与新的自适应特征知识进行动态结合以提高泛化能力。并提出了多模态融合模块,利用惯性传感器补充的全局信息,对视觉分支的抽取帧的输出作加权,从而实现视觉模态和惯性传感器模态的融合与对齐。本专利技术对基于视觉语言模型的零样本多模态第一视角行为识别方法进行了初步的探索,充分考虑不同模态间对齐的问题,有效地提升模态融合的效果,达到了目前最先进的行为识别性能。因而本专利技术技术方案为:一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,该方法包括:
3、步骤1:使用可穿戴智能眼镜进行数据采集,分别通过眼镜上的第一视角摄像头和传感器来收集同步的视觉数据和传感器数据,构建了多模态第一视角行为数据集。
4、步骤2:对于视觉数据,截取一段视频,然后将其输入冻结的clip视觉编码器,提取到视觉特征uv;对于文本分支,文本为视频中行为的类别名称,将k个类别的名称放入ci中,将ci输入到冻结的clip文本编码器,得到文本特征ft;
5、步骤3:对于惯性传感器数据,惯性传感器数据由三维时间序列构成,将每个维度的数据通过快速傅里叶变换转化为二维频谱图,然后二维频谱图通过视觉transformer提取到惯性传感器特征包括加速度计特征ua,陀螺仪特征ug;
6、步骤4:将视觉特征uv输入到适配器模块,适配器模块的输出与视觉特征uv拼接后得到最终新旧知识自适应结合后的视觉特征fv;
7、步骤5:将加速度计特征ua,陀螺仪特征ug输入到惯性传感器融合模块sa(·)中,得到惯性传感器特征fis;
8、步骤6:将文本特征ft,视觉特征fv,惯性传感器特征fi一同输入多模态融合模块中得到输出识别结果。
9、进一步的,所述步骤4中的适配器模块a(·)是由两层线性变换构成,其具体公式如下:
10、a(uv)=relu(uvtw1)w2
11、公式中,relu为激活函数,w1、w2为可学习的参数;
12、适配器模块的输出与视觉特征uv拼接方法为:
13、fv=αa(uv)t+βuv
14、公式中,α和β为残差系数,a(uv)为经过适配器微调得到的新知识。
15、进一步的,步骤5的具体方法为:
16、z=[ua||ug]
17、[q,k,v]=[wqz,wkz,wvz]
18、
19、公式中,| |表示拼接操作,z为惯性传感器的输入,输入z通过三个不同的投影矩阵wq,wk,wv对应得到q,k,v,d为特征维度,h为注意力头的数量,最终得到惯性传感器特征fi。
20、进一步的,所述多模态融合模块的具体方法为:
21、步骤6.1:将带有全局信息的惯性传感器的特征fi与视觉特征fv做内积,得到重要性得分s;
22、步骤6.2:计算视觉特征fv与文本特征ft匹配的相似度,得到相似度矩阵mij;
23、步骤6.3:将重要性得分s和相似度矩阵mij做内积,得到视频中每一帧的相似度,然后对所有帧的相似度进行加权求和,根据求和结果来预测当前视频的行为。
24、进一步的,所述步骤6.3的具体方法为:
25、将重要性得分s和相似度矩阵mij做内积,对不同帧输出的相似度进行更新得到f′vft,公式如下:
26、
27、
28、fis表示整段视频的惯性传感器特征,表示第i帧视觉特征,表示第j帧文本特征,最终加权之后的相似度分数,即预测概率,公式如下:
29、
30、其中,τ为softmax的温度,k为类别数,pj表示类别j的预测概率;选取得分最高的作为预测结果。
31、本专利技术首先将视觉模态输入预训练的clip视觉编码器提取视觉特征,将经过stft变换的加速度计模态、陀螺仪模态频谱图提取对应的特征,文本通过预训练的clip文本编码器提取到文本特征。然后将视觉特征传入到适配器模块,将零样本知识与新的自适应特征知识进行动态结合,得到最终的视觉特征。加速度计模态、陀螺仪模态通过惯性传感器融合模块得到最终的惯性传感器特征。最后将文本、视觉、惯性传感器特征一同输入多模态融合模块,充分考虑不同模态间对齐的问题,有效地提升模态融合的效果。该方法在零样本多模态第一视角行为识别任务上表现令人满意。
本文档来自技高网...
【技术保护点】
1.一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,该方法包括:
2.如权利要求1所述的一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,其特征在于,所述步骤4中的适配器模块A(·)是由两层线性变换构成,其具体公式如下:
3.如权利要求1所述的一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,其特征在于,步骤5的具体方法为:
4.如权利要求1所述的一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,其特征在于,所述多模态融合模块的具体方法为:
5.如权利要求1所述的一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,其特征在于,所述步骤6.3的具体方法为:
【技术特征摘要】
1.一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,该方法包括:
2.如权利要求1所述的一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,其特征在于,所述步骤4中的适配器模块a(·)是由两层线性变换构成,其具体公式如下:
3.如权利要求1所述的一种基于视觉语言知识引入的零样本多模态第...
【专利技术属性】
技术研发人员:吴庆波,周书畅,王浩杰,李宏亮,孟凡满,许林峰,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。