一种基于时空交互及长短时注意力的无人机目标跟踪方法技术

技术编号：44878358 阅读：7 留言：0更新日期：2025-04-08 00:17

本发明专利技术公开了一种基于时空交互及长短时注意力的无人机目标跟踪方法，包括构建跟踪模型、模型对目标跟踪和目标模板更新，构建跟踪模型包括构建主干网，从主干网输出的特征映射，在输入主干网之前进行瓶颈结构“扁平化”处理，将特征序列输入到LSDA模块，获取特征序列的全局和局部信息，解码器从编码器中获取一个目标查询一个增强的特征序列作为输入，输入送到边框预测头来预测对象边框坐标。本发明专利技术通过替代原Transformer模型中的自注意力，提升目标跟踪性能的同时降低模型计算量，更适于视角复杂，计算资源有限的无人机目标跟踪。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无人机跟踪，具体涉及到一种基于时空交互及长短时注意力的无人机目标跟踪方法。

技术介绍

1、视觉目标跟踪是根据给定目标的初始状态，预测后续帧中该目标的位置与大小，是计算机视觉中的一个重要研究方向，在人机交互、智能视频监控等领域有着重要应用。随着无人机技术在军事、民用等领域的广泛运用，精度高、功耗低、实时性好的智能无人机跟踪系统的需求也日益增多。

2、目前，大多数流行的跟踪器都是基于深度孪生网络架构，使用相关操作来考虑模版分支和搜索分支之间相似性，但相关操作本身是一个线性匹配过程，会导致语义信息的丢失，这限制了跟踪器捕获模板和搜索区域之间复杂的非线性交互。

3、transformer 作为一种基于自注意力机制（self-attention）的神经网络模型，可以很好地建模长距离依赖关系，通过自注意力代替相关操作，实现特征的融合与增强，被广泛应用于目标跟踪领域并有效提升了跟踪算法的性能。由于无人机独特的空中视角以及复杂多变的应用场景，目前基于 transformer 的跟踪算法应用于无人机目标跟踪领域仍存在以下主要问题。

4、首先，基于 transformer 模型的跟踪算法主要利用注意力机制增强和融合特征以提升性能，在提取局部细节特征方面存在不足，例如 cgcad 和 siamattn 算法引入相关引导注意和自注意进行鉴别跟踪，transt 和 trdimp 通过增强目标模板和搜索区域特征进行跟踪，由于缺乏对目标区域中相关局部信息的关注，在复杂背景或相似目标干扰时容易丢失目

5、针对上述问题，本专利技术提供了一种可适应无人机目标跟踪场景需求的一种基于时空交互及长短时注意力的无人机目标跟踪方法。

技术实现思路

1、本专利技术提供了一种可适应无人机目标跟踪场景需求的基于时空交互及长短时注意力的无人机目标跟踪方法。

2、本专利技术的目的是提供一种基于时空交互及长短时注意力的无人机目标跟踪方法，包括构建跟踪模型、模型对目标跟踪和目标模板更新，述构建跟踪模型包括构建主干网，从主干网输出的特征映射，在输入主干网之前进行瓶颈结构“扁平化”处理，将特征序列输入到lsda模块，获取特征序列的全局和局部信息，解码器从编码器中获取一个目标查询一个增强的特征序列作为输入，输入送到边框预测头来预测对象边框坐标，模型对目标跟踪包括框出目标物体所在位置，再微调回归框，以此训练模型预测目标位置并将关键点距离交并比作为框回归函数加入 tlsda 算法，目标模板更新包括设计目标状态感知模块，对目标模板的更新。

3、进一步的，构建主干网具体步骤如下：

4、步骤一、主干网的输入是三元组图像：初始目标对象的模板图像、当前帧的搜素区域和动态模板；

5、步骤二、通过主干后，模板 z、搜索图像 x和动态模板 t分别被映射为、和，其中，初始模版提供空间信息，动态模版可以捕获目标外观随时间的变化，从而提供额外的时间信息。

6、进一步的，瓶颈结构“扁平化”为一种“扁平”结构，在不改变通道维度，注意力占据“扁平”transformer 模型中的主要计算，在大的计算量下获得相当的性能，通过进一步优化来降低。

7、进一步的，lsda模块具体步骤如下：

8、步骤一、分别捕获全局和局部上下文，lsda 模块遵循双分支设计，左分支捕获全局上下文，而右分支建模局部上下文；

9、步骤二、将特征沿通道维度拆分为两部分，由紧跟着的 ffn 层混合，整体计算量减少了一半；

10、步骤三、左分支是正常的注意力模块，而通道维度减少了一半，对于捕获局部关系的右分支，一个自然的想法是在序列上应用卷积；

11、步骤四、通过滑动窗口，对角线被覆盖；

12、步骤五、为了进一步减少计算量，将普通卷积替换为由线性层和深度卷积组成的较轻版本；

13、步骤六、通过将注意力和卷积模块并排放置的方式，激励模型从全局和局部这两种不同的视角去处理特征序列，这样架构就能从专注化中受益。

14、进一步的，解码器与采用 100 个对象查询的 detr 不同，模型只在解码器中输入一个查询来预测目标对象的一个边界框，只有一个预测，删除了 detr 中用于预测关联的匈牙利算法，解码器堆叠n个解码器层，每一层由一个自注意力并行卷积、一个编解码器注意力和一个前馈网络组成，在encoder-decoder 注意模块中，目标查询可以关注模板上的所有位置和搜索区域特征，从而学习最终边框预测的鲁棒表示。

15、进一步的，边框预测头的具体步骤如下：

16、步骤一、从编码器的输出序列中提取搜索区域特征；

17、步骤二、计算搜索区域特征与解码器的输出嵌入之间的相似性；

18、步骤三、将相似度得分与搜索区域特征元素相乘，以增强重要区域，削弱鉴别性较差的区域，将新的特征序列重塑为的特征图；

19、步骤四、输入一个简单的全卷积网络fcn，fcn 由l个堆叠的 conv-bn-relu 层组成，分别为对象边界框的左上角和右下角输出两个概率映射和,通过估计边框角点的概率分布，提高边框估计质量。

20、进一步的，关键点距离交并具体计算步骤如下：

21、步骤一、框和框分别为真实框和预测框，记两框对应顶点间线段，，的长度为，，，记两框中心点间线段的长度为，分别延长两框边长，得到最小覆盖框，连接点和点，得到最小覆盖框的对角线，长度记为，的计算是通过在的基础上添加惩罚项实现的：

22、（1）

23、其中，，为保证值的非负性，惩罚项必须是一个分布在[0, 1]之间的数值；

24、步骤二、计算四组点间欧氏距离的平方和，包括三对顶点及一对中心点，接着，归一化处理加和结果以确保惩罚项的归一性，归一化基准满足两个条件：（1）归一化基准作为分母，用来与加和结果做对比，因此基准不能为 0；（2）为保证惩罚项是一个分布于[0，1]之间的数值，归一化基准要比上述加和结果的值大，选择预测框与真实框的最小覆盖框的对角线长度𝑐为归一化基准，𝑐的最小值是真实框的对角线长度，满足条件一；此外，最小覆盖框的对角线长度𝑐是两框间任意两个点的最长距离，大于两框对应的三个顶点与中心点的距离，满足条件二，另外，使用点间距离的欧式平方，得到的数值比直接采用点间距离值大，提高了惩罚项的计算灵敏度，惩罚项的计算公式为：

本文档来自技高网...

【技术保护点】

1.一种基于时空交互及长短时注意力的无人机目标跟踪方法，包括构建跟踪模型、模型对目标跟踪和目标模板更新，其特征在于：所述构建跟踪模型包括构建主干网，从主干网输出的特征映射，在输入主干网之前进行瓶颈结构“扁平化”处理，将特征序列输入到LSDA模块，获取特征序列的全局和局部信息，解码器从编码器中获取一个目标查询一个增强的特征序列作为输入，输入送到边框预测头来预测对象边框坐标，所述模型对目标跟踪包括框出目标物体所在位置，再微调回归框，以此训练模型预测目标位置并将关键点距离交并比作为框回归函数加入 TLSDA 算法，所述目标模板更新包括设计目标状态感知模块，对目标模板的更新。

2.如权利要求1所述的一种基于时空交互及长短时注意力的无人机目标跟踪方法，其特征在于：所述构建主干网具体步骤如下：

3.如权利要求1所述的一种基于时空交互及长短时注意力的无人机目标跟踪方法，其特征在于：所述瓶颈结构“扁平化”为一种“扁平”结构，在不改变通道维度，注意力占据“扁平”Transformer 模型中的主要计算，在大的计算量下获得相当的性能，通过进一步优化来降低。

4.如

5.如权利要求1所述的一种基于时空交互及长短时注意力的无人机目标跟踪方法，其特征在于：所述解码器与采用 100 个对象查询的 DETR 不同，模型只在解码器中输入一个查询来预测目标对象的一个边界框，只有一个预测，删除了 DETR 中用于预测关联的匈牙利算法，解码器堆叠N个解码器层，每一层由一个自注意力并行卷积、一个编解码器注意力和一个前馈网络组成，在Encoder-Decoder 注意模块中，目标查询可以关注模板上的所有位置和搜索区域特征，从而学习最终边框预测的鲁棒表示。

6.如权利要求 1所述的一种基于时空交互及长短时注意力的无人机目标跟踪方法，其特征在于：所述边框预测头的具体步骤如下：

7.如权利要求1所述的一种基于时空交互及长短时注意力的无人机目标跟踪方法，其特征在于：所述关键点距离交并具体计算步骤如下：

8.如权利要求7所述一种基于时空交互及长短时注意力的无人机目标跟踪方法，其特征在于：所述损失函数的具体设计步骤如下：

9.如权利要求1所述的一种基于时空交互及长短时注意力的无人机目标跟踪方法，其特征在于：所述目标模板更新具体步骤为：

...

【技术特征摘要】

1.一种基于时空交互及长短时注意力的无人机目标跟踪方法，包括构建跟踪模型、模型对目标跟踪和目标模板更新，其特征在于：所述构建跟踪模型包括构建主干网，从主干网输出的特征映射，在输入主干网之前进行瓶颈结构“扁平化”处理，将特征序列输入到lsda模块，获取特征序列的全局和局部信息，解码器从编码器中获取一个目标查询一个增强的特征序列作为输入，输入送到边框预测头来预测对象边框坐标，所述模型对目标跟踪包括框出目标物体所在位置，再微调回归框，以此训练模型预测目标位置并将关键点距离交并比作为框回归函数加入 tlsda 算法，所述目标模板更新包括设计目标状态感知模块，对目标模板的更新。

2.如权利要求1所述的一种基于时空交互及长短时注意力的无人机目标跟踪方法，其特征在于：所述构建主干网具体步骤如下：

3.如权利要求1所述的一种基于时空交互及长短时注意力的无人机目标跟踪方法，其特征在于：所述瓶颈结构“扁平化”为一种“扁平”结构，在不改变通道维度，注意力占据“扁平”transformer 模型中的主要计算，在大的计算量下获得相当的性能，通过进一步优化来降低。

4.如权利要求1 所述的一种基于时空交互及长短时注意力的无人机目标跟踪方法...

【专利技术属性】
技术研发人员：刘明华，张瑞全，范晓雨，李文静，邵洪波，渠连恩，王贺，李丹宁，刘晓霞，张宇琦，毛欣怡，
申请(专利权)人：青岛科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人