一种基于示例注意力机制的单目标跟踪方法技术

技术编号:39575617 阅读:11 留言:0更新日期:2023-12-03 19:27
本发明专利技术公开了一种基于示例注意力机制的单目标跟踪方法,包括以下步骤:

【技术实现步骤摘要】
一种基于示例注意力机制的单目标跟踪方法


[0001]本专利技术涉及视觉目标跟踪领域,具体涉及一种基于示例注意力机制的单目标跟踪方法


技术介绍

[0002]视觉目标跟踪是计算机视觉领域的一个非常具有吸引力的课题,其目的是在一段连续视频中保持对特定目标的关注,可应用于自动驾驶

视频监控和无人机导航等领域

基于相关滤波的视觉目标跟踪器通过计算目标模板与当前帧之间的相关性来确定目标的位置,它在速度方面远超实时性所规定的要求,但是,其模型相对简单,能够记住的用于识别目标的鲁棒性特征较少,由于受到模型本身的限制,在准确性方面表现很差

基于孪生网络的跟踪器利用两个相同的神经网络来提取目标和搜索区域的特征表示,并通过计算它们之间的相似度来预测目标的位置

尽管该方式在准确性上取得了突破性进展,但由于现有的绝大多数跟踪器在推理时所需的计算量和存储量极大,无法实现现实世界中在嵌入式和移动设备中的部署,即还不具备应用在自动驾驶

无人机导航等移动终端上的条件

因此,轻量化的高效实时目标跟踪仍然是一个极具挑战性的课题


技术实现思路

[0003]针对现有技术中的上述不足,本专利技术提供的一种基于示例注意力机制的单目标跟踪方法解决了现有视觉目标跟踪器难以兼顾实时性和准确率的问题

[0004]为了达到上述专利技术目的,本专利技术采用的技术方案为:
[0005]提供一种基于示例注意力机制的单目标跟踪方法,其包括以下步骤:
[0006]S1、
获取模板图像和搜索图像的深度融合特征图;
[0007]S2、
计算深度融合特征图的实例级自注意力,获取响应图;
[0008]S3、
根据所得响应图进行目标定位及边界框回归

[0009]提供一种基于示例注意力机制的单目标跟踪系统,其包括:
[0010]特征提取及融合模块,用于获取模板图像和搜索图像的深度融合特征图;
[0011]示例注意力单元,用于计算深度融合特征图的实例级自注意力,获取响应图;
[0012]跟踪模块,用于根据所得响应图进行目标定位及边界框回归

[0013]本专利技术的有益效果为:本专利技术构建了轻量化鲁棒跟踪模型,解决计算能力弱

存储量小的嵌入式和移动设备的跟踪器部署问题,从而有效扩大视觉跟踪模型的应用场景

附图说明
[0014]图1为本方法的流程示意图;
[0015]图2为本系统的结构框图;
[0016]图3为示例注意力模块的结构框图;
[0017]图4为像素洗牌模块
+
示例注意力模块的结构框图;
[0018]图5为本专利技术在
OTB
数据集上与其它跟踪器的成功率对比图;
[0019]图6是本专利技术在
OTB
数据集上与其它跟踪器的精确率对比图;
[0020]图7是本专利技术在
LaSOT
数据集上与其它跟踪器的成功率对比图;
[0021]图8是本专利技术在
LaSOT
数据集上与其它跟踪器的精确率对比图

具体实施方式
[0022]下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本专利技术的精神和范围内,这些变化是显而易见的,一切利用本专利技术构思的专利技术创造均在保护之列

[0023]如图1所示,该基于示例注意力机制的单目标跟踪方法包括以下步骤:
[0024]S1、
获取模板图像和搜索图像的深度融合特征图;
[0025]S2、
计算深度融合特征图的实例级自注意力,获取响应图;
[0026]S3、
根据所得响应图进行目标定位及边界框回归

[0027]步骤
S1
的具体方法包括以下子步骤:
[0028]S1

1、
获取带有首帧标签的视频图像序列,采样其第一帧作为模板帧,将后续帧采样为搜索帧;
[0029]S1

2、
对搜索帧和模板帧进行随机翻转

随机灰度化预处理,并将预处理后的搜索帧裁剪缩放到
255
×
255
像素大小,将预处理后的模板帧裁剪缩放到
128
×
128
像素大小;
[0030]S1

3、
通过权重共享的主干网络分别获取裁剪缩放后的模板帧的特征图和裁剪缩放后的搜索帧的特征图;
[0031]S1

4、
将获得的两个特征图分别进行特征降维和批归一化,并进行像素级融合,得到模板图像和搜索图像的深度融合特征图

[0032]步骤
S2
的具体方法包括以下子步骤:
[0033]S2

1、
通过深度卷积模块增加深度融合特征图的通道维度;
[0034]S2

2、
将增加了通道维度后的深度融合特征图送入边界框回归分支进行串行计算,得到第一响应图;
[0035]S2

3、
将增加了通道维度后的深度融合特征图送入目标定位分支进行串行计算,得到第二响应图

[0036]步骤
S3
的具体方法为:将第一响应图和第二响应图进行特征融合,得到用于定位和回归的特征图,完成目标定位及边界框回归

[0037]步骤
S2
‑1的具体方法为:
[0038]将深度融合特征图复制为两份;
[0039]对于需要进入边界框回归分支的深度融合特征图,对其进行3×3卷积后进行1×1卷积,使其通道维度增加至
192

[0040]对于需要进入目标定位分支的深度融合特征图,对其进行5×5卷积后进行1×1卷积,使其通道维度增加至
256

[0041]在增加通道维度过程中,通过控制深度融合特征图填充数和卷积核移动步长来保持深度融合特征图的空间维度不变

[0042]步骤
S2
‑2的具体方法包括以下子步骤:
[0043]S2
‑2‑
1、
将增加了通道维度后的深度融合特征图进行自适应最大池化,并对于任一像素点,获取以该像素点为中心的
M
×
N
区域最大的像素值作为该像素点的像素值,得到最大池化后的特征图
x

[0044]S2
‑2‑...

【技术保护点】

【技术特征摘要】
1.
一种基于示例注意力机制的单目标跟踪方法,其特征在于,包括以下步骤:
S1、
获取模板图像和搜索图像的深度融合特征图;
S2、
计算深度融合特征图的实例级自注意力,获取响应图;
S3、
根据所得响应图进行目标定位及边界框回归
。2.
根据权利要求1所述的一种基于示例注意力机制的单目标跟踪方法,其特征在于,步骤
S1
的具体方法包括以下子步骤:
S1

1、
获取带有首帧标签的视频图像序列,采样其第一帧作为模板帧,将后续帧采样为搜索帧;
S1

2、
对搜索帧和模板帧进行随机翻转

随机灰度化预处理,并将预处理后的搜索帧裁剪缩放到
255
×
255
像素大小,将预处理后的模板帧裁剪缩放到
128
×
128
像素大小;
S1

3、
通过权重共享的主干网络分别获取裁剪缩放后的模板帧的特征图和裁剪缩放后的搜索帧的特征图;
S1

4、
将获得的两个特征图分别进行特征降维和批归一化,并进行像素级融合,得到模板图像和搜索图像的深度融合特征图
。3.
根据权利要求1所述的一种基于示例注意力机制的单目标跟踪方法,其特征在于,步骤
S2
的具体方法包括以下子步骤:
S2

1、
通过深度卷积模块增加深度融合特征图的通道维度;
S2

2、
将增加了通道维度后的深度融合特征图送入边界框回归分支进行串行计算,得到第一响应图;
S2

3、
将增加了通道维度后的深度融合特征图送入目标定位分支进行串行计算,得到第二响应图
。4.
根据权利要求3所述的一种基于示例注意力机制的单目标跟踪方法,其特征在于,步骤
S3
的具体方法为:将第一响应图和第二响应图进行特征融合,得到用于定位和回归的特征图,完成目标定位及边界框回归
。5.
根据权利要求3所述的一种基于示例注意力机制的单目标跟踪方法,其特征在于,步骤
S2
‑1的具体方法为:将深度融合特征图复制为两份;对于需要进入边界框回归分支的深度融合特征图,对其进行3×3卷积后进行1×1卷积,使其通道维度增加至
192
;对于需要进入目标定位分支的深度融合特征图,对其进行5×5卷积后进行1×1卷积,使其通道维度增加至
256
;在增加通道维度过程中,通过控制深度融合特征图填充数和卷积核移动步长来保持深度融合特征图的空间维度不变
。6.
根据权利要求3所述的一种基于示例注意力机制的单目标跟踪方法,其特征在于,步骤
S2
‑2的具体方法包括以下子步骤:
S2
‑2‑
1、
将增加了通道维度后的深度融合特征图进行自适应最大池化,并对于任一像素点,获取以该像素点为中心的
M
×
N
区域最大的像素值作为该像素点的像素值,得到最大池化后的特征图
x

S2
‑2‑
2、
将最大池化后的特征图
x
进行自适应平均池化,使其池化为1×1大小的单通道特征向量,得到查询向量
Q

S2
‑2‑
3、
优化一组与最大池化后的特征图
x
无关的可训练参数,并将其作为键向量
K

S2
‑2‑
4、
将最大池化后的特征图
x

【专利技术属性】
技术研发人员:熊兴中陈镇孟凡钦肖显兵刘骏
申请(专利权)人:四川轻化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1