一种利用像素级时空特征记忆库的视频目标跟踪方法技术

技术编号:37854418 阅读:15 留言:0更新日期:2023-06-14 22:47
本发明专利技术属于计算机视觉技术领域,具体为一种利用像素级时空特征记忆库的视频目标跟踪方法。本发明专利技术方法包括:剪裁动态目标图像和搜索区域图像、提取图像特征、像素级在线预测、像素级更新策略“融合

【技术实现步骤摘要】
一种利用像素级时空特征记忆库的视频目标跟踪方法


[0001]本专利技术属于计算机视觉
,具体涉及一种利用像素级时空特征记忆库的视频目标跟踪方法。

技术介绍

[0002]目标跟踪是计算机视觉领域的一个重要方向,也是视频分析技术的重要组成部分。视频目标跟踪是在视频中针对某一目标,在给定目标的初始状态后,利用包围框,持续地检测和识别出目标位置和形态。随着计算机技术的广泛普及,以及成像效果更好的摄像设备的应用,当前视频成为主流的信息传播媒介。因此,对于视频中图像内容的分析在实际生产生活中有很大的意义。视频目标跟踪利用计算机技术,对视频中物体的几何信息,包括形状、纹理、姿态等,进行分析利用,挖掘物体的运动信息,进而研究目标的运动规律,或为系统决策提供支持。因此,视频目标跟踪在当前有很广泛的应用,例如安防监控分析、自动驾驶、人机交互等,同时在军事领域也发挥了很大的作用。
[0003]现有目标跟踪方法是利用已知的目标信息,通过孪生神经网络(Siamese Network),即网络架构和参数都相同的两个神经网络,对已知目标信息和当前视频帧进行特征抽取,将两者编码到相同的嵌入空间中,随后在当前视频帧特征中进行目标的检索与匹配,从而确定目标位置和形态。其中,目标的初始状态是已知目标信息的最主要来源。然而,在目标跟踪的实际应用中,目标的外观变化限制了现有目标跟踪方法的性能。随着目标在视频中发生形变或视频视角变化等,目标的外观信息较初始信息发生大的变化,很难有效地利用目标初始信息在当前视频帧中进行匹配,导致跟踪漂移或者目标丢失,对目标外观的适应性和鲁棒性较差。
[0004]在大多数视频序列中,目标的外观并不会发生突变,而是随着视频序列的推进逐步发生变化。因此,更好地利用视频中目标的时序信息,分析目标在视频序列中的状态,从而把握目标的形变,是目标跟踪方法中应对形变的最有效途径。近年来,研究人员通过实时存储目标在视频中的历史状态,丰富目标信息,提高目标跟踪方法应对目标形变的能力。但在实际应用中,受制于存储空间的大小,目标跟踪方法很难存储过多的目标信息。同时,目标跟踪任务对方法的实时性要求很高,过多地存储目标信息会带来更大的计算资源消耗,从而影响方法的速度,阻碍了这些方法在实际场景中的应用。
[0005]综上所述,如何更高效地存储目标的历史状态,在性能和存储资源、计算资源的消耗中达到平衡,进而充分利用目标在视频中的时序信息,提高跟踪方法在应对目标外观变化时的适应性和鲁棒性,具有较高的研究意义和实际应用价值。

技术实现思路

[0006]本专利技术的目的在于提出一种记忆库存储效率高、对目标外观变化时适应性和鲁棒性好的利用像素级时空特征记忆库的视频目标跟踪方法。
[0007]本专利技术提供的利用像素级时空特征记忆库的视频目标跟踪方法,能够在时间域对
目标特征像素进行存储与更新,在维持记忆内存大小不变的同时,充分利用目标在视频时序中的历史信息,适应当前视频帧中的目标形变,并在当前视频帧中通过像素级匹配,确定目标的位置和姿态,实现更鲁棒的跟踪。本专利技术启发于人脑在跟踪目标的作用机制,即人脑在长期跟踪目标的过程中,首先会记住目标的基础特征,如纹理、颜色等,这些特征在视频中并不易变化;随后,会在视频中,不断适应目标的新变化,以准确地跟踪。
[0008]本专利技术提供的利用像素级时空特征记忆库的视频目标跟踪方法,具体步骤为:
[0009]步骤(一):根据初始帧的目标基准框或前一帧的跟踪结果包围框,剪裁出目标,作为动态目标图像;根据前一帧的目标状态,在当前帧剪裁出搜索区域;
[0010]步骤(二):利用孪生神经网络对动态目标图像和搜索区域提取特征,将两者映射到相同的特征空间;其中初始帧目标特征构建初始像素级时空特征记忆库(以下简称:记忆库),动态目标图像的特征(以下称为:动态目标特征)用来更新记忆库;
[0011]步骤(三):利用像素级在线预测模块,预测动态目标特征中目标的基础特征和与变化相关的特征,指导更新过程;
[0012]步骤(四):依据步骤(三)中检索的目标的基础特征和与变化相关的特征,设计像素级更新策略,对应地将基础特征与记忆库中的基础特征融合,形成新的基础特征;将与变化相关的特征替换记忆库中过时的变化特征;
[0013]步骤(五):对记忆库和搜索区域特征进行特征增强,随后通过像素级匹配与微调模块,将记忆库中的目标信息与搜索区域特征进行匹配,生成目标位置权重图,并对其进行微调;
[0014]步骤(六):将目标位置权重图输入到头网络模块,利用分类网络区分目标与背景,用交并比网络预测每一个包围框与真实目标框的交并比,用回归网络回归出每一个包围框的具体坐标;
[0015]步骤(七):结合分类得分和交并比得到的得分,索引出位置权重图中得分最高点位置,对应找到回归坐标,即为跟踪目标包围框坐标。
[0016]下面分别对各步骤作进一步说明。
[0017]步骤(一)中,本方法基于目标在连续帧中位移和形变不会发生剧烈变化这一性质,参考前一帧的目标状态来确定当前帧搜索区域。同时,裁剪出的动态目标图像和搜索区域会调整至固定大小,方便对跟踪网络结构的设计。
[0018]步骤(二)中:利用孪生神经网络对动态目标图像和搜索区域提取特征,将两者映射到相同的特征空间,即将两者输入到具有相同网络结构和权值的网络;其中初始帧目标图像特征构建初始像素级时空特征记忆库(以下简称:记忆库),动态目标图像的特征(以下称为:动态目标特征)用来更新记忆库。
[0019]步骤(三)中,所述“利用像素级在线预测模块,预测动态目标特征中目标的基础特征和与变化相关的特征,指导更新过程”,具体是将动态图像特征,输入到像素级在线预测模块。所述预测模块是一个动态滤波器F,将动态图像特征与记忆库中目标特征计算相关性,实现预测功能。本方法基于时域上卷积等于频域上的乘积这一性质,首先对记忆库M和动态目标特征f
z
做傅里叶变换,得到M
*
和随后,记忆库M
*
与动态滤波器F计算矩阵哈达玛积,得到响应图R。这里的响应图R是通过拟合动态目标特征实现预测功能,具体公式如
下,其中

为哈达玛积,即矩阵对应元素的点积:
[0020]R=M*

F.
ꢀꢀ
(1)
[0021]为了保证响应图R的拟合效果,本方法利用在线学习,通过最小化响应图R与傅里叶变换后的动态目标特征的平方差损失,提高预测精准性,具体公式如下,其中n为记忆库中的n个单元:
[0022]min[∑
n
|R

f
z*
|2],
ꢀꢀ
(2)
[0023]随后,本方法利用Wirtinger导数来求解该优化问题并得到了动态滤波器F的一般表达式,具体公式如下,其中η为调节因子超参数,F

为更新前的滤波器:
[0024][0025]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用像素级时空特征记忆库的视频目标跟踪方法,其特征在于,能够在时间域对目标特征像素进行存储与更新,在维持记忆内存大小不变的同时,充分利用目标在视频时序中的历史信息,适应当前视频帧中的目标形变,并在当前视频帧中通过像素级匹配,确定目标的位置和姿态,实现更鲁棒的跟踪,具体步骤为:步骤(一):根据初始帧的目标基准框或前一帧的跟踪结果包围框,剪裁出目标,作为动态目标图像;根据前一帧的目标状态,在当前帧剪裁出搜索区域;步骤(二):利用孪生神经网络对动态目标图像和搜索区域提取特征,将两者映射到相同的特征空间;其中,初始帧目标特征构建初始像素级时空特征记忆库,简称记忆库,动态目标图像的特征用来更新记忆库;动态目标图像的特征简称动态目标特征;步骤(三):利用像素级在线预测模块,预测动态目标特征中目标的基础特征和与变化相关的特征,指导更新过程;步骤(四):依据步骤(三)中检索的目标的基础特征和与变化相关的特征,设计像素级更新策略,对应地将基础特征与记忆库中的基础特征融合,形成新的基础特征;将与变化相关的特征替换记忆库中过时的变化特征;步骤(五):对记忆库和搜索区域特征进行特征增强,随后通过像素级匹配与微调模块,将记忆库中的目标信息与搜索区域特征进行匹配,生成目标位置权重图,并对其进行微调;步骤(六):将目标位置权重图输入到头网络模块,利用分类网络区分目标与背景,用交并比网络预测每一个包围框与真实目标框的交并比,用回归网络回归出每一个包围框的具体坐标;步骤(七):结合分类得分和交并比得到的得分,索引出位置权重图中得分最高点位置,对应找到回归坐标,即为跟踪目标包围框坐标。2.根据权利要求1所述的视频目标跟踪方法,其特征在于,步骤(一)中,基于目标在连续帧中位移和形变不会发生剧烈变化这一性质,参考前一帧的目标状态来确定当前帧搜索区域;同时,裁剪出的动态目标图像和搜索区域会调整至固定大小,方便对跟踪网络结构的设计。3.根据权利要求2所述的视频目标跟踪方法,其特征在于,步骤(二)中所述利用孪生神经网络对动态目标图像和搜索区域提取特征,将两者映射到相同的特征空间,即将两者输入到具有相同网络结构和权值的网络;其中初始帧目标图像的特征构建初始像素级时空特征记忆库,动态目标图像的特征用来更新该记忆库。4.根据权利要求3所述的视频目标跟踪方法,其特征在于,步骤(三)中所述“利用像素级在线预测模块,预测动态目标特征中目标的基础特征和与变化相关的特征,指导更新过程”,具体是将动态图像特征输入到像素级在线预测模块;所述预测模块是一个动态滤波器F,将动态图像特征与记忆库中目标特征计算相关性,实现预测功能;基于时域上卷积等于频域上的乘积这一性质,首先对记忆库M和动态目标特征f
z
做傅里叶变换,得到M
*
和随后,记忆库M
*
与动态滤波器F计算矩阵哈达玛积,得到响应图R;这里的响应图R是通过拟合动态目标特征实现预测功能,具体公式如下,其中

为哈达玛积,即矩阵对应元素的点积:R=M
*

F.
ꢀꢀꢀꢀ
(1)为了保证响应图R的拟合效果,利用在线学习,通过最小化响应图R与傅里叶变换后的
动态目标特征的平方差损失,提高预测精准性,具体公式如下,其中n为记忆库中的n个单元:随后,利用Wirtinger导数来求解该优化问题,并得到动态滤波器F的一般表达式,具体公式如下,其中η为更新权重超参数,F

为更新前的滤波器:在跟踪每一帧时,不断重复步骤(三),使得响应图R与动态目标特征构成一一对应的关系;因此,响应图R中响应得分的高低对应着动态目标特征与记忆库中的相关性,即更高的得分对应动态目标特征中的基础特征,反之更低的得分对应动态目...

【专利技术属性】
技术研发人员:张文强周泽楚周新宇
申请(专利权)人:复旦大学义乌研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1