System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多模态提示学习的零样本行为识别方法技术_技高网

一种基于多模态提示学习的零样本行为识别方法技术

技术编号:43082665 阅读:0 留言:0更新日期:2024-10-26 09:33
本发明专利技术公开了一种基于多模态提示学习的零样本行为识别方法,将CLIP拓展为细粒度的多模态时空理解模型,通过即插即用的帧级别多尺度时序提示(MTP)和时空语义增强,同时提高多模态时空理解的特异性和普适性。提出的多模态动态提示框架使用CLIP模型的预训练权重进行初始化,并冻结文本编码器的权重。对于视觉编码器,通过将额外的可学习多尺度时序提示模块插入到视觉编码器的不同层中,以得到精炼的时空视觉特征。对于语义文本,通过拓展和精炼类别表示的语义知识,提升对不同行为类别的理解。本发明专利技术方法和主流方法对比表现出很好的性能。

【技术实现步骤摘要】

本专利技术属于模式识别,具体涉及一种基于多模态提示学习的零样本行为识别方法


技术介绍

1、零样本行为识别旨在对模型训练时没有见过的新行为进行识别,通过视频内容理解和建立行为类别之间的语义关系,使模型能够识别训练过程中未出现的类别。零样本行为识别方法能够缓解标注行为数据样本稀缺或者数据分布严重不平衡的问题,对智能视频理解领域和人工智能技术的发展提供了重要的支持。

2、相关技术中,零样本行为识别模型的训练范式主要包括三部分,视觉特征提取、语义特征提取以及特征映射。零样本行为识别所遵循的通用框架,是将视频样本的视觉嵌入与对应类别标签的语义嵌入,投影到同一嵌入空间中进行关联学习,通过辅助的语义信息和相对应的类别的关联性,在嵌入空间中使模型具有从可见类到不可见类的知识迁移的能力。传统的方法通常需要设计一些手工特征或者使用现成的预训练特征提取器,然后利用一些知识表示或者迁移学习的方法,主要关注视觉和语义关联的建模。最近的许多工作利用图像领域的多模态基础模型(clip)的高效视觉语言对齐能力,通过额外的时序建模,实现通用的行为识别。另外,一些工作专注于使用大语言模型拓展clip的专业知识来促进零样本通用性能力。


技术实现思路

1、为了克服现有技术的不足,本专利技术提供了一种基于多模态提示学习的零样本行为识别方法,将clip拓展为细粒度的多模态时空理解模型,通过即插即用的帧级别多尺度时序提示(mtp)和时空语义增强,同时提高多模态时空理解的特异性和普适性。提出的多模态动态提示框架使用clip模型的预训练权重进行初始化,并冻结文本编码器的权重。对于视觉编码器,通过将额外的可学习多尺度时序提示模块插入到视觉编码器的不同层中,以得到精炼的时空视觉特征。对于语义文本,通过拓展和精炼类别表示的语义知识,提升对不同行为类别的理解。本专利技术方法和主流方法对比表现出很好的性能。

2、本专利技术解决其技术问题所采用的技术方案如下:

3、步骤1:对于给定的t帧视频片段其中c、h、w分别表示视频帧的通道数、高度和宽度;通过补丁嵌入层,将每个视频帧划分为n个不重叠的补丁其中n=hw/p2,每个补丁的空间尺寸大小为p×p;

4、此过程中还包括拼接上额外的类别嵌入的操作,以得到第t帧对应编码器第一层的输入d表示嵌入维度;令表示输入到第l层视觉编码器的嵌入特征,得到第l+1层的输入

5、

6、其中,每个视觉编码层以跳跃连接的方式先通过一个层归一化ln和多头自注意力机制mhsa,然后通过层归一化和前馈网络mlp;

7、步骤2:多尺度时序提示模块mtp首先通过窗口移位掩码wsm和多尺度时序交叉注意力ms-tca分别对由多头自注意力得到的已去掉类别表示的查询键和值的嵌入进行计算:

8、

9、其中,是来自第l层视觉编码器的原始映射权重,代表时间尺度δi对应的中间特征,n′和s分别表示经过窗口移位掩码wsm的可见表示符的数量和多尺度时序注意力ms-tca的时间尺度的数量;

10、步骤3:将通过层归一化和前馈网络建模可见补丁的全局信息,以增强每帧不同空间位置的交互:

11、

12、步骤4:使用权重矩阵wδ∈r(s×n′)×p将映射得到长度为p的帧特定时序提示,表示视频中蕴含的时空信息:

13、

14、将时序提示与拼接作为下一层的输入多头自注意力分别以为查询表示,为键和值的表示;

15、步骤5:对于语义文本,使用时空文本增强以得到精炼的文本提示cst={cs,ct},通过文本编码器之后得到文本嵌入cst={cs,ct};

16、步骤6:根据和cst计算所有可见类别的细粒度对齐分数,通过最大化正确类别的得分同时最小化其他类别的得分优化模型在多尺度时序提示中的可学习参数;在推理阶段,将模型在未知行为类别上的识别结果与原始clip模型根据和cs得到的识别结果进行决策聚合,得到最后的识别结果。

17、优选地,所述多尺度时序提示mtp具体如下:

18、所述多尺度时序提示包括两个处理模块:(1)窗口移位掩码wsm模块旨在对处理的每帧中的补丁进行掩码操作,以一定比例的丢弃补丁从而减少后续交叉注意力机制的计算消耗;(2)多尺度时序交叉注意力ms-tca旨在对掩码后剩余的补丁进行处理,通过在多个时间尺度上进行通道混合,使得自注意力机制能够联合关注到空间和时间位置;

19、(1)窗口移位掩码wsm:

20、窗口移位掩码通过在时间维度上移位2*2空间大小的窗口掩码的形状,顺序地丢弃不同空间位置上的补丁;掩码的过程表示为:

21、mt,i=φ(mt-1,i|m1:t-2,i),i∈{1,…,r}

22、其中,其中mt,i表示第i个多尺度时序提示模块中第t帧的掩码图,φ(·|·)是根据前1到t-1的掩码帧生成掩码映射的周期函数;然后,将掩码图mt,i应用于查询、键和值表示,以产生窗口移位的对应表示:

23、

24、其中,表示n′个空间查询,分别将帧的键和值表示送入第l层视觉编码器;

25、(2)多尺度时序交叉注意力ms-tca:

26、经过窗口移位掩码后的键表示k′t首先通过索引前后时刻的通道信息来融合时序信息;令表示用k′t索引从ds到de的通道的运算符,时间尺度δ对应的混合过程表示为:

27、

28、其中,dδ=γ·d是用于混合索引通道的超参数;

29、引入多个时间尺度使k′t与δ范围的所有键表示混合,即从到

30、当δ=2时,得到多尺度混合后的键表示

31、

32、在没有引入任何额外参数的情况下,多尺度时序交叉注意力的计算表示为:

33、

34、优选地,所述时空文本增强具体如下:

35、所述时空文本增强包括两阶段的提示流程,即行为语义知识图谱的构建以及语义时空解耦;

36、(1)行为语义知识图谱askg;

37、askg将类别从空间表象和时间动态中分解为语义概念及其关系;askg通过将行为、相关对象和子行为表示为知识图谱中的节点,将它们的关系表示为边,将不同行为类别抽象为一种图结构;最后,通过汇总不同行为类别得到的输出,askg汇集了行为语义以及关联的不同粒度的结构化表示;

38、(2)语义时空解耦sstd;

39、语义时空解耦通过将文本提示分解为空间和时间层级来获得扩展文本提示;之后通过将硬提示模板与输出进行拼接,以获得最终的时空拓展文本提示;利用sstd,通过分别提取不同的对象和行为实体,根据askg的结构化的语义信息生成文本提示;空间文本提示cs描述通过提示对象关系三元组获得的静态外观描述,时间文本提示ct捕获通过提示动作关系三元组得到关于时间动态描述。

40、优选地,所述细粒度对齐具体如下:

41、对于第i帧本文档来自技高网...

【技术保护点】

1.一种基于多模态提示学习的零样本行为识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于多模态提示学习的零样本行为识别方法,其特征在于,所述多尺度时序提示MTP具体如下:

3.根据权利要求2所述的一种基于多模态提示学习的零样本行为识别方法,其特征在于,所述时空文本增强具体如下:

4.根据权利要求3所述的一种基于多模态提示学习的零样本行为识别方法,其特征在于,所述细粒度对齐具体如下:

5.根据权利要求4所述的一种基于多模态提示学习的零样本行为识别方法,其特征在于,所述决策聚合具体为:

【技术特征摘要】

1.一种基于多模态提示学习的零样本行为识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于多模态提示学习的零样本行为识别方法,其特征在于,所述多尺度时序提示mtp具体如下:

3.根据权利要求2所述的一种基于多模态提示学习的零样本行为识别...

【专利技术属性】
技术研发人员:曹聪琦余雅婷张越然吕勤毅闵令通张艳宁
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1