一种基于多层深度特征融合的相关滤波跟踪方法及装置制造方法及图纸

技术编号：40545966 阅读：18 留言：0更新日期：2024-03-05 19:03

本公开揭示了一种基于多层深度特征融合的相关滤波跟踪方法，包括：1、获取待跟踪视频的第一帧图像，提取多层深度特征并降维，利用降维后的多层深度特征对相关滤波模型进行训练；2、获取待跟踪视频的第二帧图像，提取多层深度特征并降维，将降维后的多层深度特征输入训练好的相关滤波模型，以获得多个响应图，通过对多个响应图融合以实现待跟踪目标的第一次跟踪；3、获取待跟踪视频的第三帧图像，同时利用特征复用方法对相关滤波模型进行更新，并基于更新后的相关滤波模型实现待跟踪目标的第二次跟踪；4、重复执行步骤3，直至完成待跟踪目标的最后一次跟踪。本公开在提高目标跟踪精度的同时能够极大地降低算法运算开销，满足实时性要求。

全部详细技术资料下载

【技术实现步骤摘要】

本公开属于深度学习以及计算机视觉领域，具体涉及一种基于多层深度特征融合的相关滤波跟踪方法及装置。

技术介绍

1、视觉跟踪是计算机视觉领域的难点和热点问题，在视频监控、人机交互、军事侦察、无人机跟踪等领域都有着广泛地应用。视觉跟踪一般指的是单目标跟踪，是在给定首帧目标状态信息的前提条件下，在后续帧中估计出目标的位置和尺度等信息。由于在现实场景中，目标自身存在各类形变，环境也存在光照变化、遮挡等复杂情形，使得视觉跟踪仍然是一个很有挑战性的问题。

2、近年来，基于深度特征的相关滤波跟踪算法取得了长足的发展。研究表明，从深度神经网络提取的不同卷积层特征具有不同的视觉任务特性。高层的卷积特征捕捉目标的抽象语义特征，这些特征可以用来区分不同类别的对象，并且对目标外观的剧烈变化有着良好的适应性，但是难以区分相似目标的干扰。相反，浅层的特征对于目标外观变化的稳健性较差，但是可以提供目标更加详细的局部信息，这些特征对于区分相似外观的目标非常有利，同时也可以获得对目标更加准确的定位。

3、但是，已有的基于深度特征和相关滤波的跟踪方法虽然在性能上取得了较大的提升，但是在速度上普遍较慢，难以满足视觉跟踪任务对实时性的要求。速度较慢的原因可以归结到两个方面，一是采用的深度特征维度太高，深度神经网络参数量太大；二是算法在模型预测和更新过程中会提取两次深度特征，增加了计算开销，这是影响跟踪速度的一个重要因素。总体而言，现有的基于深度特征的相关滤波算法虽然性能取得了很大进步，但是实时性欠佳，仍然有较大提升空间。

<b>技术实现思路

1、针对现有技术中的不足，本公开的目的在于提供一种基于多层深度特征融合的相关滤波跟踪方法，该方法基于特征融合能够提高待跟踪目标的跟踪精度。

2、为实现上述目的，本公开提供以下技术方案：

3、一种基于多层深度特征融合的相关滤波跟踪方法，包括如下步骤：

4、s100：获取待跟踪视频的第一帧视频图像，并输入训练好的卷积神经网络，以获得所述第一帧视频图像的多层深度特征，对所述第一帧视频图像的多层深度特征进行降维，以获得降维后的第一帧视频图像的多层深度特征；

5、s200：将所述降维后的第一帧视频图像的多层深度特征输入构建好的相关滤波模型对模型进行训练，以获得训练好的相关滤波模型；

6、s300：获取待跟踪视频的第二帧视频图像，并输入训练好的卷积神经网络，以获得所述第二帧视频图像的多层深度特征，对所述第二帧视频图像的多层深度特征进行降维，以获得降维后的第二帧视频图像的多层深度特征；

7、s400：将所述降维后的第二帧视频图像的多层深度特征输入训练好的相关滤波模型，以获得与所述降维后的第二帧视频图像的多层深度特征对应的多个响应图；

8、s500：对所述多个响应图进行融合，以获得融合后的响应图，基于融合后的响应图获取待跟踪目标在第二帧视频图像中的当前位置信息，以实现对待跟踪目标的第一次跟踪；

9、s600：对所述相关滤波模型进行第一次更新；

10、s700：获取待跟踪视频的第三帧视频图像，并重复执行如步骤s300所述操作以获得降维后的第三帧视频图像的多层深度特征，将降维后的第三帧视频图像的多层深度特征输入第一次更新后的相关滤波模型，并重复执行步骤s400至步骤s500所述操作，以获取待跟踪目标在第二帧视频图像中的当前位置信息，以实现对待跟踪目标的第二次跟踪；

11、s800：对所述相关滤波模型进行第二次更新；

12、s900：依次获取待跟踪视频的第四帧至最后一帧视频图像，并重复执行步骤s700和步骤s800，直至获取待跟踪目标在最后一帧视频图像中的当前位置信息，以实现对待跟踪目标的最后一次跟踪。

13、优选的，步骤s100中，所述卷积神经网络采用vgg-19神经网络。

14、优选的，步骤s100中，所述对每帧图像的多层深度特征进行降维包括以下步骤：

15、s101：分别计算各层深度特征的均值向量；

16、s102：利用均值向量分别计算各层深度特征的协方差矩阵。

17、优选的，步骤s400中，所述响应图e表示为：

18、

19、其中，表示逆傅里叶变换，表示第t帧图像第d个通道的特征，·表示元素的点乘运算，d表示通道数量，d表示通道，t表示图像帧数。

20、优选的，步骤s500中，所述融合后的响应图efinal表示为：

21、efinal＝γ1·e1+γ2·e4+γ3·e5

22、其中，γ1,γ2和γ3表示不同响应图的权值，e1表示与卷积神经网络第一层提取的深度特征对应的响应图，e4表示与卷积神经网络第四层提取的深度特征对应的响应图，e5表示与卷积神经网络第五层提取的深度特征对应的响应图。

23、本公开还提供一种基于多层深度特征融合的相关滤波跟踪装置，包括：

24、第一获取模块，用于获取待跟踪视频的第一帧视频图像，并输入训练好的卷积神经网络，以获得第一帧视频图像的多层深度特征，对第一帧视频图像的多层深度特征进行降维，以获得降维后的第一帧视频图像的多层深度特征；

25、模型训练模块，用于将降维后的第一帧视频图像的多层深度特征输入构建好的相关滤波模型进行训练，以获得训练好的相关滤波模型；

26、第二获取模块，用于获取待跟踪视频的第二帧视频图像，并输入训练好的卷积神经网络，以获得第二帧视频图像的多层深度特征，对第二帧视频图像的多层深度特征进行降维，以获得降维后的第二帧视频图像的多层深度特征；

27、响应图获取模块，用于将降维后的第二帧视频图像的多层深度特征输入训练好的相关滤波模型，以获得与降维后的第二帧视频图像的多层深度特征对应的多个响应图；

28、响应图融合模块，用于对多个响应图进行融合，以获得融合后的响应图，基于融合后的响应图获取待跟踪目标在第二帧视频图像中的当前位置信息，以实现对待跟踪目标的第一次跟踪；

29、第一模型更新模块，用于对相关滤波模型进行第一次更新；

30、第三获取模块，用于获取待跟踪视频的第三帧视频图像，并输入训练好的卷积神经网络，以获得第三帧视频图像的多层深度特征，对第三帧视频图像的多层深度特征进行降维，以获得降维后的第二帧视频图像的多层深度特征，以及用于将降维后的第三帧视频图像的多层深度特征输入第一次更新后的相关滤波模型，并通过调用响应图获取模块和响应图融合模块以获取待跟踪目标在第三帧视频图像中的当前位置信息，以实现对待跟踪目标的第二次跟踪；

31、第二模型更新模块，用于对相关滤波模型进行第二次更新；

32、跟踪模块，用于依次获取待跟踪视频的第四帧至最后一帧视频图像，直至获取待跟踪目标在最后一帧视频图像中的当前位置信息，以实现对待跟踪目标的最后一次跟踪。

33、本公开还提供一种电子设备，包括：

34、存储器本文档来自技高网...

【技术保护点】

1.一种基于多层深度特征融合的相关滤波跟踪方法，包括如下步骤：

2.根据权利要求1所述的方法，其中，优选的，步骤S100中，所述卷积神经网络采用VGG-19神经网络。

3.根据权利要求1所述的方法，其中，步骤S100中，所述对第一帧视频图像的多层深度特征进行降维包括以下步骤：

4.根据权利要求1所述的方法，其中，步骤S400中，所述响应图E表示为：

5.根据权利要求1所述的方法，其中，步骤S500中，所述融合后的响应图Efinal表示为：

6.一种基于多层深度特征融合的相关滤波跟踪装置，包括：

7.一种电子设备，包括：

8.一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至5任一所述的方法。

【技术特征摘要】

1.一种基于多层深度特征融合的相关滤波跟踪方法，包括如下步骤：

2.根据权利要求1所述的方法，其中，优选的，步骤s100中，所述卷积神经网络采用vgg-19神经网络。

3.根据权利要求1所述的方法，其中，步骤s100中，所述对第一帧视频图像的多层深度特征进行降维包括以下步骤：

4.根据权利要求1所述的方法，其中，步骤s400中，所...

【专利技术属性】
技术研发人员：蒲磊，李海龙，魏振华，何玉杰，韩思明，
申请(专利权)人：中国人民解放军火箭军工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人