基于多头对比网络的目标跟踪方法技术

技术编号:34774047 阅读:52 留言:0更新日期:2022-08-31 19:42
本发明专利技术涉及一种基于多头对比网络的目标跟踪方法,包括构建多头对比网络;获取模板图像;获取对比图像;获取搜索图像;提取图像的深度特征;计算空间依赖关系;计算通道依赖关系;计算语义依赖关系;目标分类和边界框回归;多损失联合训练;分类头和回归头。本发明专利技术通过构建多头对比网络,它对骨干网络中的每个卷积层构建一个单独的嵌入空间,学习同一目标不同外观的特征表示的不变性;提出了全局上下文一致性损失,不仅仅保持语义信息上的一致性,也在特征表示的空间关系和通道关系上保持一致性,进一步增强了特征表示的能力,显著的提升了跟踪方法的性能。踪方法的性能。踪方法的性能。

【技术实现步骤摘要】
基于多头对比网络的目标跟踪方法


[0001]本专利技术属于目标跟踪
,特别涉及一种基于多头对比网络的目标跟踪方法,可应用于光学图像中单个物体的目标跟踪。

技术介绍

[0002]目标跟踪通过在视频的第一帧中给定目标的位置和边界框的大小,在后续的序列中持续的定位目标,是计算机视觉领域的一项重要任务。伴随着相关滤波技术和深度学习技术的迅速发展,光学图像场景下的目标跟踪取得了显著的进步。但是局部遮挡、目标形变、背景杂乱、光照变化等因素往往严重的损害了跟踪目标的能力。
[0003]基于相关滤波的跟踪方法借助循环矩阵的特征,结合傅里叶变换技术,对视频第一帧中给定的目标进行密集采样。通过最小化L2范数损失,在线训练相关滤波器的权重,在后续的视频帧中预测目标的位置。该方法虽然取得了较好的跟踪结果,但是仍然存在特征提取模型和相关滤波器需要分开训练的问题,不能充分的挖掘大规模数据集中样本间的依赖关系。此外,由于该方法需要在线更新滤波器的权重,无法满足实时跟踪的需求,限制了目标跟踪的应用场景。
[0004]基于深度孪生网络的目标跟踪方法由于其很好的平衡了跟踪的准确度和速度得到了极大的关注。这些目标跟踪方法通过深度孪生网络以端到端的方式离线学习相似性映射,避免在线更新跟踪模型的权重,保证了跟踪的效率。但是,基于深度孪生网络的目标跟踪方法首先提取目标模板的深度特征和搜索区域的深度特征,然后计算模板图像特征和搜索区域特征之间的相似性映射,其目的是区分搜索区域内的目标和背景,忽略了同一目标不同外观间的深度特征表示的相似性,降低目标跟踪的性能。
[0005]虽然基于相关滤波和深度学习的跟踪方法取得了优秀的跟踪性能,但是这些方法都难以统一同一目标不同外观间的深度特征表示。

技术实现思路

[0006]为了解决上述现有的基于相关滤波和深度学习的目标跟踪方法中存在的问题,本专利技术的目的在于提供一种基于多头对比网络的目标跟踪方法,该方法主要关注同一目标不同外观表示的深度特征表示的学习过程,主要由训练样本的数据增强、运动目标的特征提取、全局一致性损失三部分构成。本专利技术充分利用数据增强技术,构建同一目标的不同外观表示,结合对比学习技术,构建了多头对比学习网络,既能够有效的处理光照变化、目标形变等干扰因素,实现对目标进行准确鲁棒的跟踪,又显著的提升跟踪效率,满足实时跟踪的需求。
[0007]为了实现上述目的,本专利技术采用的技术方案是:
[0008]一种基于多头对比网络的目标跟踪方法,包括如下步骤:
[0009]步骤1:构建MCTrack多头对比网络结构:引入多头对比架构和全局一致性学习机制,所述多头对比架构通过在ResNet

50网络的基础上,对每个卷积层增加单独的对比学习
模型实现,所述对比学习模型包含一个参数共享的对比孪生网络、一个映射头和一个预测头;所述对比孪生网络包括模板分支和对比分支,所述全局一致性学习机制由空间一致性模块、通道一致性模块和语义一致性模块组成;
[0010]步骤2:获取模板图像:利用光学摄影系统获取图像序列,对目标周围的区域以平行于坐标轴的方式进行裁剪,作为模板图像Z;
[0011]步骤3:获取对比图像:对模板图像Z进行数据增强,得到对比图像A;
[0012]步骤4:获取搜索图像:在当前的视频序列中,选择与模板图像Z不同的视频帧,以平行于坐标轴的方式进行裁剪,其图像分辨率是模板图像Z的2倍大小,作为搜索图像X;
[0013]步骤5:提取模板图像Z、对比图像A和搜索图像X的深度特征:以ResNet

50网络作为骨干网络,提取第三卷积层、第四卷积层和第五卷积层的输出,即conv3
i
,conv4
i
,conv5
i
,i∈{Z,A,X};
[0014]步骤6:计算空间依赖关系:将模板图像Z的深度特征和对比图像A的深度特征输入空间一致性模块,得到特征之间的空间依赖一致性损失;
[0015]步骤7:计算通道依赖关系:将模板图像Z的深度特征和对比图像A的深度特征输入通道一致性模块,得到特征之间的通道依赖一致性损失;
[0016]步骤8:计算语义依赖关系:将模板图像Z的深度特征和对比图像A的深度特征输入语义一致性模块,得到特征之间的语义依赖一致性损失;
[0017]步骤9:目标分类和边界框回归:计算模板图像Z的深度特征和搜索图像X的深度特征之间的互相关,并作为分类头和回归头的输入,得到分类损失和回归损失;
[0018]步骤10:联合空间依赖一致性损失、通道依赖一致性损失、语义依赖一致性损失、分类损失和回归损失,结合反向传播算法,训练多头对比网络的权重;
[0019]步骤11:当训练收敛后,进入推理阶段;对于新的视频序列,提取目标的模板图像,并且以前一帧的跟踪结果,提取当前帧的搜索图像;
[0020]步骤12:以步骤10得到多头对比网络提取模板图像和搜索图像的深度特征;
[0021]步骤13:计算模板图像的深度特征和搜索图像的深度特征之间的互相关,并作为分类头和回归头的输入,依照分类与回归结果得到当前搜索图像中的目标所在的位置与目标框,即为当前帧的跟踪结果;
[0022]步骤14:当输入新的一帧视频序列后,转到步骤11继续执行,直到跟踪结束。
[0023]与现有技术相比,本专利技术的有益效果是:
[0024]第一,本专利技术构建多头对比网络,对骨干网络中的每个卷积层构建单独的对比网络,以增强不同层次的深度特征表示的一致性,提高目标跟踪的效果。
[0025]第二,本专利技术通过设计空间依赖一致性损失、通道依赖一致性损失和语义依赖一致性损失,进一步的拉近了同一目标不同外观的特征表示之间的距离,增强了跟踪方法处理目标形变、光照变化等影响因素的能力,显著的提升了目标跟踪的性能。
[0026]第三,本专利技术构建的多头对比网络的参数规模非常小,引入的计算量可以忽略不计,几乎没有增加额外计算成本。克服了现有技术中无法实时跟踪的缺点,使得使用本专利技术中的方法能够快速准确的跟踪目标。
附图说明
[0027]图1为本专利技术的流程图。
[0028]图2为本专利技术的多头对比网络框架图。
[0029]图3为本专利技术的空间依赖一致性损失。
[0030]图4为本专利技术的通道依赖一致性损失。
[0031]图5为本专利技术的语义依赖一致性损失。
[0032]图6为本专利技术在可见光场景下的仿真。
[0033]图7为本专利技术在红外场景下的仿真。
具体实施方式
[0034]下面结合附图和实施例详细说明本专利技术的实施方式。
[0035]参照图1,本专利技术基于多头对比网络的目标跟踪方法,具体包括如下步骤:
[0036]步骤1:构建MCTrack多头对比网络结构
[0037]参照图2,引入多头对比架构和全局一致性学习机制,多头对比架构通过在ResNet
...

【技术保护点】

【技术特征摘要】
1.一种基于多头对比网络的目标跟踪方法,其特征在于,包括如下步骤:步骤1:构建MCTrack多头对比网络结构:引入多头对比架构和全局一致性学习机制,所述多头对比架构通过在ResNet

50网络的基础上,对每个卷积层增加单独的对比学习模型实现,所述对比学习模型包含一个参数共享的对比孪生网络、一个映射头和一个预测头;所述对比孪生网络包括模板分支和对比分支,所述全局一致性学习机制由空间一致性模块、通道一致性模块和语义一致性模块组成;步骤2:获取模板图像:利用光学摄影系统获取图像序列,对目标周围的区域以平行于坐标轴的方式进行裁剪,作为模板图像Z;步骤3:获取对比图像:对模板图像Z进行数据增强,得到对比图像A;步骤4:获取搜索图像:在当前的视频序列中,选择与模板图像Z不同的视频帧,以平行于坐标轴的方式进行裁剪,其图像分辨率是模板图像Z的2倍大小,作为搜索图像X;步骤5:提取模板图像Z、对比图像A和搜索图像X的深度特征:以ResNet

50网络作为骨干网络,提取第三卷积层、第四卷积层和第五卷积层的输出,即conv3
i
,conv4
i
,conv5
i
,i∈{Z,A,X};步骤6:计算空间依赖关系:将模板图像Z的深度特征和对比图像A的深度特征输入空间一致性模块,得到特征之间的空间依赖一致性损失;步骤7:计算通道依赖关系:将模板图像Z的深度特征和对比图像A的深度特征输入通道一致性模块,得到特征之间的通道依赖一致性损失;步骤8:计算语义依赖关系:将模板图像Z的深度特征和对比图像A的深度特征输入语义一致性模块,得到特征之间的语义依赖一致性损失;步骤9:目标分类和边界框回归:计算模板图像Z的深度特征和搜索图像X的深度特征之间的互相关,并作为分类头和回归头的输入,得到分类损失和回归损失;步骤10:联合空间依赖一致性损失、通道依赖一致性损失、语义依赖一致性损失、分类损失和回归损失,结合反向传播算法,训练多头对比网络的权重;步骤11:当训练收敛后,进入推理阶段;对于新的视频序列,提取目标的模板图像,并且以前一帧的跟踪结果,提取当前帧的搜索图像;步骤12:以步骤10得到多头对比网络提取模板图像和搜索图像的深度特征;步骤13:计算模板图像的深度特征和搜索图像的深度特征之间的互相关,并作为分类头和回归头的输入,依照分类与回归结果得到当前搜索图像中的目标所在的位置与目标框,即为当前帧的跟踪结果;步骤14:当输入新的一帧视频序列后,转到步骤11继续执行,直到跟踪结束。2.根据权利要求1所述基于多头对比网络的目标跟踪方法,其特征在于,所述步骤2的具体步骤如下:2a),计算模板图像中目标边界框的高H和宽W的平均值:avg
hw
=(H+W)/22b),计算尺度变化因子s:s(W+avg
hw
)
×
s(H+avg
hw
)=O2其中O表示模板图像的边长;2c),按照尺度变化因子倍数对目标边界框进行放缩,以平行于坐标轴的方式,裁剪视
频帧,提取模板图像Z。3.根据权利要求1所述基于多头对比网络的目标跟踪方法,其特征在于,所述步骤3数据增强是在在模板图像Z的基础上,进行旋转变换、对比度变换或缩放变换。4.根据权利要求1所述基于多头对比网络的目标跟踪方法,其特征在于,所述步骤6的具体步骤如下:步骤6a),将具有C个通道的模板图像Z的特征表示f(Z)∈R
C
×
H
×
W
作为两个1
×
1的卷积层θ和σ的输入,分别生成两个新的特征图θ和σ的输入,分别生成两个新的特征图步骤6b),对步骤6a)中新生成的特征图进行变换,和其中N=H
×
W表示特征图的像素点的数量;步骤6c),计算特征图K

和Q

之间的一致性,并通过softmax函数生成f(Z)中第i个位置和第j个位置之间的空间依赖关系和第j个位置之间的空间依赖关系其中Q

j
表示特征图Q

中第j个位置的特征向量,K

i
表示特征图K

中第i个位置的特征向量,上标T表示转置,计算特征图Q

中每个位置的特征向量与特征图K

中每个位置的特征向量之间的空间依赖关系,构成空间依赖图P
Z
∈R
N
×
N
,步骤6d),对于对比图像A,采用与步骤6a)至步骤6c)相同的操作计算特征表示f(A)∈R
C
×
H
×
W
中第i个位置和第j个位置之间的空间依赖关系中第i个位置和第j个位置之间的空间依赖关系其中σ(f(A))和θ(f(A))分别表示卷积层σ和卷积层θ以对比图像A的特征表示f(A)∈R
C
×
H
×
W
作为输入,σ(f(A))
j
表示特征图σ(f(A))中第j个位置的特征向量,θ(f(A))
i
表示特征图θ(f(A))中第i个位置的特征向量,上标T表示转置,计算特征图σ(f(A))中每个位置的特征向量与特征图θ(f(A))中每个位置的特征向量之间的空间依赖关系...

【专利技术属性】
技术研发人员:苗启广葛道辉李宇楠贾秉文宋建锋刘向增赵博程刘如意
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1