基于多尺度可形变注意力的红外图像目标跟踪系统及方法技术方案

技术编号:35355443 阅读:34 留言:0更新日期:2022-10-26 12:31
本发明专利技术公开了一种基于多尺度可形变注意力的红外图像目标跟踪系统及方法。其中跟踪系统包括搜索图分支、模板图分支、特征融合模块和预测模块;其中搜索图分支用于提取搜索图在第一尺度和第二尺度下的特征拼接得到的搜索图多尺度特征F

【技术实现步骤摘要】
基于多尺度可形变注意力的红外图像目标跟踪系统及方法


[0001]本专利技术属于计算机视觉领域,具体涉及一种基于多尺度可形变注意力的红外图像目标跟踪系统及方法。

技术介绍

[0002]视觉目标跟踪任务是在视频的初始帧中给定要跟踪的目标,预测后续视频帧中该目标出现的位置和大小。热红外目标跟踪是在热红外摄像头的成像条件下进行视觉目标跟踪任务,由于红外目标跟踪可以在可见度低甚至完全黑暗的情况下跟踪目标,其不受光线变化的影响,具有全天候、可在复杂环境下工作的能力,因此具有较好的应用价值,广泛应用在监护机器人的夜间监护、保安机器人夜间巡逻,城市交通夜间监控等场景中。红外目标跟踪的难点是由于红外图像纹理缺失,信噪比低,视觉效果模糊,容易导致跟踪对象变形,尺度变化等问题。
[0003]为了解决上述问题,目前有方法通过transformer注意力机制捕捉全局特征,结合特征之间的上下文关系,建立远程特征之间的关联和长距离依赖关系来克服上述难点。虽然此类方法取得了较好的结果,但由于transformer注意模块在处理图像特征图时具有局限性,例如在初始化时,自注意力模块在整个特征图上的注意力几乎是平均的。然而,在训练的最后阶段,注意力图会变得稀疏,只专注于目标的局部,如人物的四肢,由此需要一个长时间的训练过程来学习注意力图上的这些显著变化,从而导致收敛速度慢,特征空间分辨率由于复杂计算量的影响会受到很大的限制。

技术实现思路

[0004]专利技术目的:针对现有技术中存在的问题,本专利技术提供一种基于多尺度可形变注意力的红外图像目标跟踪系统,该系统融合了低层和高层的特征,有利于红外图像中目标的跟踪。
[0005]技术方案:本专利技术一方面提供了一种基于多尺度可形变注意力的红外图像目标跟踪系统,包括:搜索图分支1、模板图分支2、特征融合模块3和预测模块4;所述搜索图分支1包括第一特征提取模块101、第一转换拼接模块102;所述模板图分支2包括第二特征提取模块201、第二转换拼接模块202;
[0006]所述第一特征提取模块101用于提取搜索图在第一尺度和第二尺度下的初始特征图和第一转换拼接模块102对和进行通道统一和维度调整,得到搜索图在第一尺度和第二尺度下的特征f
s1
和f
s2
,并拼接为搜索图多尺度特征F
s
=[f
s1
,f
s2
];所述第二特征提取模块201用于提取模板图在第三尺度和第四尺度下的初始特征图和第二转换拼接模块202对和进行通道统一和维度调整,得到模板图在第三尺度和第四尺度下的特征f
t1
和f
t2
,并拼接为模板图多尺度特征F
t
=[f
t1
,f
t2
];所述特征融合模块3用于根据搜索图多尺度特征F
s
和模板图多尺度特征F
t
计算融合特征G
st
;所述预测模块4用于根据融合特
征G
st
预测搜索图中的目标边框;
[0007]所述搜索图为搜索分支1的输入,所述模板图为模板分支2的输入。
[0008]所述第一特征提取模块101和第二特征提取模块201的结构相同,结构为依次级联的第一卷积模块、第一池化模块、第二卷积模块、三卷积模块、第四卷积模块、第五卷积模块;
[0009]第一特征提取模块101中的第四卷积模块输出搜索图在第一尺度下的初始特征图第五卷积模块输出搜索图在第二尺度下的初始特征图第二特征提取模块201中的第四卷积模块输出模板图在第三尺度下的初始特征图第五卷积模块输出模板图在第四尺度下的初始特征图
[0010]所述特征融合模块3包括N个级联的特征融合子模块,其中第一级特征融合子模块的输入为搜索图多尺度特征F
s
和模板图多尺度特征F
t
,输出为第一级搜索图对模板图的注意力特征和第一级模板图对搜索图的注意力特征第N级特征融合子模块的输入为第N

1级输出的和第N级特征融合子模块的输出为特征融合模块得到的融合特征G
st

[0011]第n级特征融合子模块包括第一可形变自注意力模块301、第二可形变自注意力模块302和交叉注意力模块303,n=1,2,

,N;所述第一可形变自注意力模块301和第二可形变自注意力模块302分别用于计算两路输入特征I
s
和I
t
的上下文关系特征和T
s
和T
t
;所述交叉注意力模块303用于计算两路输入向量的上下文关系特征T
s
和T
t
对彼此的注意力特征和
[0012]所述第一可形变自注意力模块301提取输入特征I
s
的上下文关系特征T
s
的步骤为:
[0013]a1、将输入特征I
s
与搜索图多尺度位置编码SLP
s
相加生成第一查询向量Q
s
,Q
s
=[Q
s1
,Q
s2
],Q
s1
为第一尺度下的查询向量,Q
s2
为第二尺度下的查询向量
[0014]a2、将第一查询向量Q
s
、输入特征I
s
、搜索图初始参考点R
s
输入到第一多头注意力网络,得到搜索图第一多头可形变注意力I
s

;所述第一多头注意力网络有M个并联的注意力单元;
[0015]所述搜索图初始参考点R
s
的计算步骤为:计算搜索图在第一尺度下的特征f
s1
中每个向量在初始特征图上的坐标,组成第一初始参考点r
s1
;计算第二尺度下的特征f
s2
中每个向量在初始特征图上的坐标,组成第二初始参考点r
s2

[0016]对第一初始参考点r
s1
中的坐标归一化,并映射于初始特征图上,得到第一坐标映射点r
s12
;对第二初始参考点r
s2
中的坐标归一化,并映射于初始特征图上,得到第二坐标映射点r
s21

[0017]构建搜索图初始参考点
[0018]所述搜索图第一多头可行变注意力I

s
=[I

s1
,I

s2
],I

s1
为第一尺度下的可变形注意力,I

s2
为第二尺度下的可变形注意力;
[0019]I

s1
中第i个元素I

s1i
的计算步骤为:
[0020]Q
s1
向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度可形变注意力的红外图像目标跟踪系统,其特征在于,包括:搜索图分支(1)、模板图分支(2)、特征融合模块(3)和预测模块(4);所述搜索图分支(1)包括第一特征提取模块(101)、第一转换拼接模块(102);所述模板图分支(2)包括第二特征提取模块(201)、第二转换拼接模块(202);所述第一特征提取模块(101)用于提取搜索图在第一尺度和第二尺度下的初始特征图和第一转换拼接模块(102)对和进行通道统一和维度调整,得到搜索图在第一尺度和第二尺度下的特征f
s1
和f
s2
,并拼接为搜索图多尺度特征F
s
=[f
s1
,f
s2
];所述第二特征提取模块(201)用于提取模板图在第三尺度和第四尺度下的初始特征图和第二转换拼接模块(202)对和进行通道统一和维度调整,得到模板图在第三尺度和第四尺度下的特征f
t1
和f
t2
,并拼接为模板图多尺度特征F
t
=[f
t1
,f
t2
];所述特征融合模块(3)用于根据搜索图多尺度特征F
s
和模板图多尺度特征F
t
计算融合特征G
st
;所述预测模块(4)用于根据融合特征G
st
预测搜索图中的目标边框;所述搜索图为搜索分支(1)的输入,所述模板图为模板分支(2)的输入。2.根据权利要求1所述的基于多尺度可形变注意力的红外图像目标跟踪系统,其特征在于,所述第一特征提取模块(101)和第二特征提取模块(201)的结构相同,结构为依次级联的第一卷积模块、第一池化模块、第二卷积模块、三卷积模块、第四卷积模块、第五卷积模块;第一特征提取模块(101)中的第四卷积模块输出搜索图在第一尺度下的初始特征图第五卷积模块输出搜索图在第二尺度下的初始特征图第二特征提取模块(201)中的第四卷积模块输出模板图在第三尺度下的初始特征图第五卷积模块输出模板图在第四尺度下的初始特征图3.根据权利要求1所述的基于多尺度可形变注意力的红外图像目标跟踪系统,其特征在于,所述特征融合模块(3)包括N个级联的特征融合子模块,其中第一级特征融合子模块的输入为搜索图多尺度特征F
s
和模板图多尺度特征F
t
,输出为第一级搜索图对模板图的注意力特征和第一级模板图对搜索图的注意力特征第N级特征融合子模块的输入为第N

1级输出的和第N级特征融合子模块的输出为特征融合模块得到的融合特征G
st
;第n级特征融合子模块包括第一可形变自注意力模块(301)、第二可形变自注意力模块(302)和交叉注意力模块(303),n=1,2,

,N;所述第一可形变自注意力模块(301)和第二可形变自注意力模块(302)分别用于计算两路输入特征I
s
和I
t
的上下文关系特征和T
s
和T
t
;所述交叉注意力模块(303)用于计算两路输入向量的上下文关系特征T
s
和T
t
对彼此的注意力特征和所述第一可形变自注意力模块(301)提取输入特征I
s
的上下文关系特征T
s
的步骤为:a1、将输入特征I
s
与搜索图多尺度位置编码SLP
s
相加生成第一查询向量Q
s
,Q
s
=[Q
s1
,Q
s2
],Q
s1
为第一尺度下的查询向量,Q
s2
为第二尺度下的查询向量;a2、将第一查询向量Q
s
、输入特征I
s
、搜索图初始参考点R
s
输入到第一多头注意力网络,
得到搜索图第一多头可形变注意力I
s

;所述第一多头注意力网络有M个并联的注意力单元;所述搜索图初始参考点R
s
的计算步骤为:计算搜索图在第一尺度下的特征f
s1
中每个向量在初始特征图上的坐标,组成第一初始参考点r
s1
;计算第二尺度下的特征f
s2
中每个向量在初始特征图上的坐标,组成第二初始参考点r
s2
;对第一初始参考点r
s1
中的坐标归一化,并映射于初始特征图上,得到第一坐标映射点r
s12
;对第二初始参考点r
s2
中的坐标归一化,并映射于初始特征图上,得到第二坐标映射点r
s21
;构建搜索图初始参考点所述搜索图第一多头可行变注意力I

s
=[I

s1
,I

s2
],I

s1
为第一尺度下的可变形注意力,I

s2
为第二尺度下的可变形注意力;I

s1
中第i个元素I

s1i
的计算步骤为:Q
s1
向量中第i个向量Q
s1i
通过全连接层Linear2得到第一初始参考点r
s1
的第i个元素和第一坐标映射点r
s12
的第i个元素r
s1i
、r
s12i
在每个注意力单元中的每个采样点的采样偏移和其中m表示第一多头注意力网络中注意力单元的序号,m=1,2,

,M;k表示采样点序号,k=1,2,

,K;K为每个注意力单元中的采样点总数;将r
s1i
与相加得到第一尺度下第m个注意力单元,第k个采样点坐标将r
s12i
与相加得到第二尺度下第m个注意力单元,第k个采样点坐标将在第一尺度下的特征图经过全连接层Linear1后插值得到Q
s1i
在第一尺度下,第m个注意力单元第k个采样点的值,记为Inter为插值函数;将在第二尺度下的特征图经过全连接层Linear1后插值得到Q
s1i
在第二尺度下,第m个注意力单元第k个采样点的值,记为Inter为插值函数;Q
s1
向量中第i个向量Q
s1i
通过全连接层Linear3得到所对应的注意力权重和所对应的注意力权重因此得到Q
s2
向量中第i个向量Q
s2i
通过全连接层Linear2得到第二初始参考点r
s2
中第i个元素r
s2i
和第二坐标映射点r
s21
中第i个元素r
s21i
在每个注意力单元中的每个采样点的采样偏移和将r
s2i
与相加得到第二尺度下第m个注意力单元,第k个采样点坐标
将r
s21i
与相加得到第一尺度下第m个注意力单元,第k个采样点坐标将在第一尺度下的特征图经过全连接层Linear1插值得到Q
s2i
在第一尺度下,第m个注意力单元第k个采样点的值,记为将在第二尺度下的特征图经过全连接层Linear1插值得到Q
...

【专利技术属性】
技术研发人员:李小红周喜齐美彬庄硕郝世杰刘学亮
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1