System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种轻量化多模态目标跟踪方法技术_技高网

一种轻量化多模态目标跟踪方法技术

技术编号:43522016 阅读:8 留言:0更新日期:2024-12-03 12:10
本发明专利技术提供一种轻量化多模态目标跟踪方法,属于计算机视觉、目标跟踪领域。将多专家模型的结构设计思路、多模态特征空间调制模块、时序的提示词模块嵌入一个简洁统一的多模态目标跟踪模型框架中,并以性能优异的多模态跟踪模型作为教师模型进行蒸馏引导,实现高效且性能较好的多模态跟踪算法。本发明专利技术可以同时处理RGB‑红外、RGB‑深度、RGB‑事件数据的多模态跟踪任务,与现有的高性能多模态跟踪算法相比,能够以较小的性能损失在CPU设备和端侧设备上达到实时速度,实现较好的性能和速度的平衡。

【技术实现步骤摘要】

本专利技术属于计算机视觉、目标跟踪领域,涉及轻量化预训练算法d-mae-tiny、多模态融合算法;具体为一种轻量化多模态目标跟踪方法


技术介绍

1、给定视频初始帧的待跟踪目标的目标框标注,目标跟踪算法将通过对目标和背景信息的时空建模实现后续帧中对该指定目标的持续跟踪。基于rgb视频的目标跟踪在近年来发展迅速,但是rgb图像可能在一些复杂的场景中难以较好地完成跟踪任务,如极端光照情况和遮挡情况等,这给应用到需要高鲁棒性跟踪的相关领域带来了限制。在如分割、检测、图像恢复等多个视觉感知领域中,多模态融合正在受到越来越多的关注。在跟踪领域中,多模态融合也可以使得跟踪算法从rgb以外的辅助模态获得更多有价值信息,实现更加全面互补的信息提取和融合,从而有助于提升目标跟踪的鲁棒性。

2、近期,许多工作将提示词学习技术应用到视觉领域,这一技术也同样在多模态跟踪领域展现出了其有效性。通过这一流程设计,可以使得多模态跟踪算法模型继承rgb跟踪算法模型的预训练知识,有效补足由于多模态跟踪数据集不足带来的短板。vipt、sdstrack、un-track等多模态跟踪算法均采用了以提示词学习技术为其中代表的参数高效微调技术。该技术能够有效减少训练中需要调整的参数量,以少量的调节参数达到和全参数微调近似甚至更优的性能。这些工作均关注于高效训练,而实际中,实现在资源有限设备上的高效跟踪推理,如cpu设备、端侧gpu设备等,也面临着较大的挑战。尽管已经有一些工作对纯rgb视频的轻量化目标跟踪算法进行了研究,如lightrack、hit、promptvt等,但是,却鲜少有工作关注多模态目标跟踪的高效和轻量化推理。同时,由于辅助模态可能包含红外图像、深度图、事件数据等多个模态,如何能够以更少的参数量实现适配多个辅助模态的轻量化多模态跟踪算法,也缺乏相关研究工作。

3、因此如何设计一个简洁统一的轻量化多模态目标跟踪模型,从而配合轻量化骨干网络,能够实现在资源有限的设备上的快速鲁棒多模态跟踪,是目前跟踪任务中需要解决的挑战问题之一。


技术实现思路

1、本专利技术旨在提供一种轻量化多模态目标跟踪方法,将多专家模型的结构设计思路、多模态特征空间调制模块、时序的提示词模块嵌入一个简洁统一的多模态目标跟踪模型框架中,并以性能优异的多模态跟踪模型作为教师模型进行蒸馏引导,实现高效且性能较好的多模态跟踪算法。本专利技术可以同时处理rgb-红外、rgb-深度、rgb-事件数据的多模态跟踪任务,与现有的高性能多模态跟踪算法相比,能够以较小的性能损失在cpu设备和端侧设备上达到实时速度,实现较好的性能和速度的平衡。

2、本专利技术的技术方案:

3、一种轻量化多模态目标跟踪方法,步骤如下:

4、步骤1:选择轻量化预训练算法d-mae-tiny(《a closer look at self-supervised lightweight vision transformers》)的权重作为初始化权重,以目标跟踪算法ostrack的训练模式和跟踪预测网络,并使用rgb模态目标跟踪数据进行全参数微调,获得rgb跟踪算法模型权重。

5、步骤2:以步骤1中获得的rgb跟踪算法模型权重作为初始化权重,选择目标跟踪算法ostrack中的单流跟踪模型结构以及其跟踪预测网络构建多模态目标跟踪模型;多模态目标跟踪模型包括图像块编码模块、多模态特征空间调制模块和多专家思路的编码层模块,所述的多专家思路的编码层模块包括共享的自注意力模块和不共享的多层感知机;在多模态目标跟踪模型中,为不同的模态设计结构相同但不共享权重的图像块编码模块,在图像块编码模块后,插入多模态特征空间调制模块对rgb模态和辅助模态进行自适应特征融合;然后通过多专家思路的编码层模块分别处理不同的辅助模态和rgb模态的特征融合信息;在多专家思路的编码层模块中,不同的辅助模态共享自注意力模块权重、不同的辅助模态不共享多层感知机权重;辅助模态包括红外模态、深度模态和事件模态,辅助模态和rgb模态构成不同的模态;

6、(1)多模态特征空间调制模块:

7、多模态目标跟踪模型中,针对不同的模态设计结构相同但不共享权重的图像块编码模块,分别获得图像块编码特征:

8、

9、

10、其中,右上标x代表某一个辅助模态,表示rgb模态的图像块编码特征,表示辅助模态的图像块编码特征,表示rgb模态的搜索区域的图像块编码特征,表示rgb模态的模板区域的图像块编码特征;表示辅助模态的搜索区域的图像块编码特征,表示辅助模态的模板区域的图像块编码特征。

11、对于搜索区域特征,首先多模态特征空间调制模块将rgb模态的搜索区域的图像块编码特征和辅助模态的搜索区域的图像块编码特征按照通道维度进行拼接,获得,再使用两组多层感知机网络和作用于拼接特征,为rgb模态和辅助模态图像块编码特征分别生成对应的空间权重,实现对编码特征的空间调制:

12、

13、

14、对于模板区域特征,和搜索区域特征的处理方式同理,但是负责预测空间调制权重的两组多层感知机网络、与搜索区域特征的两组多层感知机、不共享权重:

15、

16、

17、其中,是由rgb模态的模板区域的图像块编码特征和辅助模态的模板区域的图像块编码特征按照通道维度进行拼接得到的;

18、通过自适应调制的辅助模态图像块编码特征最终为:

19、

20、通过自适应调制的rgb模态图像块编码特征最终为:

21、

22、最终,将自适应调制后的结果相加获得融合后的图像块编码特征:

23、;

24、(2)多专家思路的编码层模块:

25、在共享的自注意力模块的前提下,为每个rgb模态与辅助模态的任务配置特定的多层感知机形成多专家思路的编码层模块,多专家思路的编码层模块中的多层感知机包括红外多层感知机、深度多层感知机、事件多层感知机。每一个rgb-x的多模态跟踪任务只激活对应的多层感知机模块,实现多个多模态跟踪任务的同时联合统一训练:

26、,

27、

28、其中,t代表红外模态,d代表深度模态,e代表事件模态。

29、同时联合统一训练过程中,沿用轻量化预训练算法d-mae-tiny中的自注意力图蒸馏方式,以多模态跟踪算法模型vipt(《visual prompt multi-modal tracking》)作为教师模型,对当前轻量化学生模型的最后一层自注意力图进行蒸馏,提供更大模型的有效信息引导训练,蒸馏损失与目标跟踪算法ostrack采用的跟踪损失联合共同指导模型的训练:

30、

31、其中,为蒸馏损失,mse为均方差损失函数,为学生模型的最后一层自注意力图,为教师模型的最后一层自注意力图。为某一辅助模态x的映射层;

32、步骤3:在经过步骤2的结构设计和本文档来自技高网...

【技术保护点】

1.一种轻量化多模态目标跟踪方法,其特征在于,步骤如下:

2.根据权利要求1所述的一种轻量化多模态目标跟踪方法,其特征在于,所述的步骤2中的多模态特征空间调制模块:

3.根据权利要求2所述的一种轻量化多模态目标跟踪方法,其特征在于,所述的步骤2中的多专家思路的编码层模块:

4.根据权利要求3所述的一种轻量化多模态目标跟踪方法,其特征在于,步骤3具体为:

【技术特征摘要】

1.一种轻量化多模态目标跟踪方法,其特征在于,步骤如下:

2.根据权利要求1所述的一种轻量化多模态目标跟踪方法,其特征在于,所述的步骤2中的多模态特征空间调制模块:

3.根...

【专利技术属性】
技术研发人员:王栋刘畅赵洁刘洋卢湖川
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1