基于多层特征融合和语义增强的目标跟踪方法技术

技术编号：42660536 阅读：16 留言：0更新日期：2024-09-10 12:18

本发明专利技术公开的基于多层特征融合和语义增强的目标跟踪方法，通过获取目标图像，将目标图像输入TransT网络中，获取输出特征；将提取的特征输入到带有多交叉注意力机制的目标语义增强模型当中，通过模型提取与强调和目标最相关的特征，并对模型的交叉注意力机制进行优化，进行目标识别和跟踪；设计判断机制对跟踪结果进行判定，判定单跟踪边界框是否发生漂移，在没有发生漂移的情况下输出跟踪结果，完成目标跟踪。本发明专利技术的基于多层特征融合和语义增强的目标跟踪方法，通过引入交叉注意力机制以及判断机制，升对目标识别的准确性，对跟踪结果的准确性进行判定，准确输出跟踪结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉，具体涉及基于多层特征融合和语义增强的目标跟踪方法。

技术介绍

1、目标跟踪技术是计算机视觉领域的关键研究领域，在进行目标跟踪时，算法必须能够在复杂多变的场景中准确识别目标，并在多个相似物体存在的情况下保持对原始目标的稳定跟踪。相比较基于transformer的目标跟踪方法通过自注意力机制，能够捕捉目标和背景之间的细微差距，利用全局特征的空间和纹理信息来跟踪目标，显著提高了跟踪的精度和鲁棒性。transt能够突破全卷积孪生网络的局部感受野限制，但是transt在推理过程中未能充分利用主干网络的多层输出来综合性的对场景内容进行分析，而且在使用交叉注意力机制关联信息的同时使用太多的冗余特征，没有判定当前特征是否均为有用特征，没有实现引入时序信息以适应目标的外观和位置变换，导致跟踪结果不稳定，从而影响了整体表现和适用性。

技术实现思路

1、本专利技术的目的是提供基于多层特征融合和语义增强的目标跟踪方法，通过引入交叉注意力机制以及判断机制，提升对目标识别的准确性，对跟踪结果的准确性进行判定，准确输出跟踪结果。

2、本专利技术所采用的技术方案是，基于多层特征融合和语义增强的目标跟踪方法，具体包括以下步骤：

3、步骤1、获取目标图像，将目标图像输入transt特征提取网络resnet50中，获取输出特征；

4、步骤2、将步骤1提取的特征输入到带有多交叉注意力机制的目标语义增强模型当中，通过所述模型提取与强调和目标最相关的特征，并对所述

5、步骤3、设计判断机制对步骤2中的跟踪结果进行判定，判定单跟踪边界框是否发生漂移，在没有发生漂移的情况下输出跟踪结果，完成目标跟踪。

6、本专利技术的特征还在于，

7、步骤1具体按照以下步骤实施：

8、步骤1.1、跟踪器第一次接收到图像和标注框时，初始化跟踪器的模板特征，计算目标的中心位置和尺寸，根据设置的模板尺寸计算裁剪大小，获取目标的初始模板图像z；

9、步骤1.2、更新目标的位置，获取并处理当前帧的目标图像区域，根据设置的搜索图像尺寸计算裁剪大小，获取目标的新位置和尺寸，得到搜索图像x，使用处理后的图像区域更新网络；

10、步骤1.3、将得到的模板图像、搜索图像输入到transt的主干特征提取网络中，transt的主干为预训练的resnet50网络，输出第二层layer2层级和第三层layer3层级的特征图，通道数分别为512和1024。

11、步骤2具体按照以下步骤实施：

12、步骤2.1、基于transt改进transtfpn的训练；

13、步骤2.2、基于transt改进transtfpn的跟踪；

14、步骤2.3、引入算法transtfpn-mask，优化所述模型的交叉注意力机制，进行目标识别和跟踪。

15、步骤2.1具体按照以下步骤实施：

16、步骤2.1.1、从训练序列中采样帧以形成批次数据，从预定义的数据集列表中随机选择一个数据集，数据集列表为[lasot、got-10k]，在选定的视频序列中随机选择一个基础帧，从选定的视频序列中随机选择一个基础帧，基础帧用于后续确定模板帧和搜索帧的采样范围，基于基础帧的位置和设置的最大间隙max gap＝100，分别从视频序列中采样出模板帧和搜索帧，模板帧是在基础帧之前或包括基础帧的范围内采样的，而搜索帧是在基础帧之后采样的，

17、步骤2.1.2、处理采样帧，在初始化过程中，设置了多个参数，包括搜索区域大小系数、模板区域大小系数，搜索区域和模板区域的尺寸，中心和尺度的扰动系数，对边界框的中心位置和大小添加随机噪声，然后，对于搜索图像和模板图像，根据各自的区域大小系数和目标尺寸，从图像中裁剪出以扰动后的目标框为中心的区域，并调整这些区域到固定尺寸；

18、对裁剪并调整尺寸后的搜索区域、模板区域应用预定义的变换，先转换为灰度图，随后进行平移，缩放或旋转等抖动变换和颜色标准化，最后封装处理后的数据，包括搜索图像和模板图像和模板图像的边界框；

19、步骤2.1.3、提取图像特征，训练transtfpn时使用在imagenet上预训练好的resnet50作为主干网络进行特征提取，使用layer2和layer3模板的输出，通道数分别为512和1024，

20、步骤2.1.4、对提取的特征进行位置编码，使用1*1的全连接层将resnet50输出的layer2特征图和layer3特征图的通道数调整为模型需要的固定通道数256，通过正弦波位置编码向每个输入特征添加一个独特的编码，使得模型能够利用位置信息；

21、正弦波位置编码根据公式动态生成，其中位置编码的每个维度对应于正弦或余弦函数的不同频率；对于位置p和维度i，位置编码可以表示为：

22、如果i为偶数，则使用：

23、

24、如果i为奇数，则使用：

25、

26、式中，d是整个位置编码向量的维度，表示位置编码中所有特征向量点的总数，p代表像素点在行或列中的位置，包括两个维度(x,y)，分别代表像素的行位置和列位置，即就是p指在x方向编码或y方向编码；i表示位置编码向量中的一半维度索引；

27、步骤2.1.5、加上位置编码的输入特征随后被输入到transtfpn的特征融合网络中，特征融合网络主要为层级特征关联模块和层级特征融合模块组成，层级特征关联模块由4个基础层堆叠而成，每个基础层由交叉注意力机制构成，编码器输入模板图像和搜索图像的layer2特征和layer3特征，首先对layer2层级的两部分特征进行交叉注意力操作，交叉注意力机制为多头注意力，单头注意力机制的学习可以表示为：

28、

29、式中，q、k、v为输入的特征向量，在计算注意力时对q和k添加位置编码，i代表多头注意力的数量，设置为8，多头注意力将256维的特征分割为8个头，每个头对应的特征维度为256/8，然后并行进行注意力操作，

30、对layer2层的模板特征进行交叉注意力学习的过程为：

31、x′z2＝xz2+multihead(xz2+pz2，xx2+px2，xx2) (4)

32、式中，p为位置编码，xz2为layer2层级的模板特征，x′z2i经过交叉注意力学习后的模板特征；

33、对layer2层的搜索特征进行交叉注意力学习的过程为：

34、x′x2＝xx2+multihead(xx2+px2，xz2+pz2，xz2) (5)

35、其中p为位置编码，xx2为layer2层级的搜索特征，并且x′x2为经过交叉注意力学习后的搜索特征；

36、步骤2.1.6、前馈网络对layer2层级交叉注意力的输出进一步进行处理，前馈网络包含两个线性层和一个非线本文档来自技高网...

【技术保护点】

1.基于多层特征融合和语义增强的目标跟踪方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于多层特征融合和语义增强的目标跟踪方法，其特征在于，所述步骤1具体按照以下步骤实施：

3.根据权利要求1所述的基于多层特征融合和语义增强的目标跟踪方法，其特征在于，所述步骤2具体按照以下步骤实施：

4.根据权利要求3所述的基于多层特征融合和语义增强的目标跟踪方法，其特征在于，所述步骤2.1具体按照以下步骤实施：

5.根据权利要求4所述的基于多层特征融合和语义增强的目标跟踪方法，其特征在于，所述步骤2.2具体按照以下步骤实施：

6.根据权利要求5所述的基于多层特征融合和语义增强的目标跟踪方法，其特征在于，所述步骤2.3具体按照以下步骤实施：

7.根据权利要求6所述的基于多层特征融合和语义增强的目标跟踪方法，其特征在于，所述步骤3具体按照以下步骤实施：

8.根据权利要求7所述的基于多层特征融合和语义增强的目标跟踪方法，其特征在于，所述步骤3.1具体按照以下步骤实施：

9.根据权利要求8所

...

【技术特征摘要】

1.基于多层特征融合和语义增强的目标跟踪方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于多层特征融合和语义增强的目标跟踪方法，其特征在于，所述步骤1具体按照以下步骤实施：

3.根据权利要求1所述的基于多层特征融合和语义增强的目标跟踪方法，其特征在于，所述步骤2具体按照以下步骤实施：

4.根据权利要求3所述的基于多层特征融合和语义增强的目标跟踪方法，其特征在于，所述步骤2.1具体按照以下步骤实施：

5.根据权利要求4所述的基于多层特征融合和语义增强的目标跟踪方法，其特征在于，...

【专利技术属性】
技术研发人员：王婧，魏媛，吴学毅，黄伟超，景翠宁，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人