一种基于模块迁移的无监督目标跟踪方法和系统技术方案

技术编号:35691157 阅读:33 留言:0更新日期:2022-11-23 14:39
本发明专利技术提供了一种基于模块迁移的无监督目标跟踪方法及系统。该方法包括在网络第一个卷积层与第二个卷积层之间添加在有监督网络中已经训练好的通道注意力层;在通道注意力层后添加元迁移学习网络层;以及进行回溯训练。本发明专利技术通过元迁移学习机制来在线更新被迁移通道注意力模块的参数,以此让无监督网络具专注被跟踪目标显著性区域。与传统异构无监督学习相比,本发明专利技术不仅涉及分类与回归这两种异构任务的迁移,而且涉及图像处理任务到视频处理任务间的跨越,实现一个图像域到多个视频帧域之间的域自适应。同时,本发明专利技术可在保证迁移性能的前提下降低迁移运算复杂度,有效提升无监督目标跟踪在复杂场景下的跟踪精度。督目标跟踪在复杂场景下的跟踪精度。督目标跟踪在复杂场景下的跟踪精度。

【技术实现步骤摘要】
一种基于模块迁移的无监督目标跟踪方法和系统


[0001]本专利技术属于计算机视觉
,尤其涉及一种基于模块迁移的无监督目标跟踪方法和系统。

技术介绍

[0002]目前主流的、基于深度学习的目标跟踪方法分为三种:有监督学习、无监督学习以及半监督学习。
[0003]有监督学习的目标跟踪方法利用大量已标记数据来训练模型,已有模型结构主要为判别式模型。输入已标记好的视频初始帧中目标的尺度大小和位置坐标,网络根据初始化目标框在下一帧图像中生成多个候选框并提取特征,根据每个特征点像素计算置信度,将置信度得分最高的候选框作为预测的下一帧目标位置,实现后续帧的目标跟踪。鉴于网络通过已标记数据来学习到有效的特征,有监督学习的目标跟踪方法往往能够获得较高的跟踪精度。
[0004]无监督学习的目标跟踪利用大量未标记数据来训练模型,模型在不依赖数据标签引导的情况下自行学习数据特征,其难度在于无法像有监督学习那样,通过不断缩小预测的标签与真实标记的标签之间的欧氏距离来反向更新网络的参数。无监督学习需要设计具体的方法来衡量模型的性能,例如无监督的回溯训练方式,通过高斯分布函数随机生成第一帧的初始化标签,经过多帧前向跟踪后,反向预测回第一帧并生成伪标签,依据伪标签和初始化标签之间的欧氏距离设计损失函数来衡量模型的性能。相比于有监督学习,无监督学习无需大量人工标记的数据,更节约人工智能的成本,但更具有挑战。
[0005]半监督学习的目标跟踪方法介于上述两种方法之间,利用大量未标记训练数据和少量的已标记数据来训练模型,其中已标记数据的分布和未标记数据的分布相似,其模型结构与有监督学习相似,不同点在于大量无标签数据训练只需要标记少量的代表性样本,以此来引导模型学习未标记的数据分布特性。
[0006]当前,主流目标跟踪方法通常以大规模有监督学习的方式进行网络模型训练,然而,此方式通常需要大量手工标记的视频数据,从而明显增加了训练成本。由于大量未带标签的视频很容易在互联网上获得,因此如何有效利用未标记的视频序列来进行目标跟踪已成为一个新兴的研究课题。
[0007]在现有的无监督目标跟踪算法中,其训练的方式是使用不含标签的数据进行回归模型学习,这导致网络无法有效关注被跟踪目标的显著性区域,这成为限制该类目标跟踪精度的主要原因。虽然注意力机制可有效提高网络的有效特征提取能力,但仅仅是在有监督学习下的分类网络中证明了其有效性。由于源域与目标域之间模型的差别,直接将现有注意力模块添加在其他任务网络模型中并不能实现应有的效果。因此涉及有效的模块迁移策略,将有监督网络中的注意力模块迁移到无监督目标跟踪网络中是十分必要的。

技术实现思路

[0008]本专利技术的目的是实现一个图像域到多个视频帧域之间的域自适应,同时在保证迁移性能的前提下降低迁移运算复杂度,有效提升无监督目标跟踪在复杂场景下的跟踪精度。
[0009]为实现以上目的,本专利技术提供了一种基于模块迁移的无监督目标跟踪方法,包括在网络第一个卷积层与第二个卷积层之间添加在有监督网络中已经训练好的通道注意力层;在通道注意力层后添加元迁移学习网络层;进行回溯训练。
[0010]本专利技术的进一步改进在于,添加通道注意力层的步骤包括:首先,将上一层卷积层输出的多通道特征图作为输入,分别经过自适应最大池化和自适应平均池化操作来聚合特征图的空间信息,生成两个不同的空间上下文描述符:和以分别表示最大合并特征和平均合并特征;之后,将这两个特征经过同一个共享网络,生成通道注意图M
c
∈R
c
×1×1;在共享网络应用于每个特征后,使用元素求和合并输出特征向量;其中,共享网络由包含两个卷积层的多层感知器(MLP)组成,通道注意力的计算方法为公式(1)所示:
[0011][0012]其中,M
c
(F)为生成的通道注意图,σ为Sigmoid函数,MLP为多层感知器,AvgPool为平均池化函数,MaxPool为最大池化函数,W0∈R
c/r
×
c
&W1∈R
c
×
c/r
为两个连续的卷积核大小为1x1的卷积层,唯一的ReLU激活函数是添加在W0之后;将生成的通道注意力图与输入的多通道特征图进行点乘,可以使得特定通道的特征图对应的权重得到提升,从而让网络能够提取到全面的目标特征。
[0013]本专利技术的进一步改进在于,为了减少参数开销,将输出大小设置为R
c/r
×1×1,其中,r=16为还原比。
[0014]本专利技术的进一步改进在于,将元迁移学习网络层添加在通道注意力层后面,通过在线训练缩放和平移参数来构建新的卷积层,在不改变特征图维度大小的情况下对预训练好的通道注意力层参数进行在线更新优化,以此达到通道注意力模块从分类模型到回归模型中的迁移学习。
[0015]本专利技术的进一步改进在于,所述回溯训练包括:输入第一帧图像,通过高斯函数生成随机的初始化目标边界框标签,首先前向跟踪以预测其在后续帧中的位置,直到第三帧图像预测出边界框后,反转视频序列并以第三帧预测出的边界框作为伪标签,进行反向跟踪,预测出第一帧图像上的目标边界框;通过计算第一帧图像上反向跟踪预测出的边界框与初始化的边界框之间的差异,构造网络的一致性损失,并通过大量的视频数据训练不断缩小此差异,从而训练出较好的网络模型参数。
[0016]本专利技术的进一步改进在于,训练阶段流程包括以下步骤:
[0017]步骤一:对现有的视频数据进行预处理,将每帧图像以目标为中心裁剪成125x125x3大小的图像;
[0018]步骤二:对图像数据做数据增强,包括图像翻转、平移、仿射变换等操作;
[0019]步骤三:将第一帧(模板帧)与第二帧(搜寻帧)图像输入孪生网络中,经过第一层
卷积层生成123x123x32的多通道特征图,之后特征图进入预训练好的通道注意力层,将生成的维度为32x1的注意力权重与原来123x123x32的特征图相乘,从而提高通道所对应的特征图权重,经过注意力权重的覆盖后,特征图进入元迁移学习层,之后经过最后一层卷积层以及归一化网络层后输出121x121x32大小的特征图,最终特征图结合高斯模型函数生成的第一帧图像的初始化标签,通过判别相关滤波器生成对应的响应图;
[0020]步骤四:将响应图中像素点的峰值位置视为预测的下一帧目标中心位置,并以此根据高斯模型函数处理生成第二帧图像的伪标签;
[0021]步骤五:将第二帧(模板帧)与第三帧(搜寻帧)图像以及步骤四生成的伪标签送入网络模型中,重复步骤三所述内容得到相应的响应图,并生成第三帧图像的伪标签;以及,
[0022]步骤六:反转视频序列,以第三帧图像为模板帧,反向预测出第一帧图像上的伪标签,将此伪标签与第一帧的初始化标签做欧氏距离计算,以此构建网络的一致性损失(Consistency Loss),其计算公式如公式(2)所示:
[0023][0024]其中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模块迁移的无监督目标跟踪方法,其特征在于:包括在网络第一个卷积层与第二个卷积层之间添加在有监督网络中已经训练好的通道注意力层;在通道注意力层后添加元迁移学习网络层;进行回溯训练。2.根据权利要求1所述的方法,其特征在于:添加通道注意力层的步骤包括:首先,将上一层卷积层输出的多通道特征图作为输入,分别经过自适应最大池化和自适应平均池化操作来聚合特征图的空间信息,生成两个不同的空间上下文描述符:和以分别表示最大合并特征和平均合并特征;之后,将这两个特征经过同一个共享网络,生成通道注意图M
c
∈R
c
×1×1;在共享网络应用于每个特征后,使用元素求和合并输出特征向量;其中,共享网络由包含两个卷积层的多层感知器(MLP)组成,通道注意力的计算方法为公式(1)所示:其中,M
c
(F)为生成的通道注意图,σ为Sigmoid函数,MLP为多层感知器,AvgPool为平均池化函数,MaxPool为最大池化函数,W0∈R
c/r
×
c
&W1∈R
c
×
c/r
为两个连续的卷积核大小为1x1的卷积层,唯一的ReLU激活函数是添加在W0之后;将生成的通道注意力图与输入的多通道特征图进行点乘,可以使得特定通道的特征图对应的权重得到提升,从而让网络能够提取到全面的目标特征。3.根据权利要求2所述的方法,其特征在于:为了减少参数开销,将输出大小设置为R
c/r
×1×1,其中,r=16为还原比。4.根据权利要求2所述的方法,其特征在于:将元迁移学习网络层添加在通道注意力层后面,通过在线训练缩放和平移参数来构建新的卷积层,在不改变特征图维度大小的情况下对预训练好的通道注意力层参数进行在线更新优化,以此达到通道注意力模块从分类模型到回归模型中的迁移学习。5.根据权利要求4所述的方法,其特征在于:所述回溯训练包括:输入第一帧图像,通过高斯函数生成随机的初始化目标边界框标签,首先前向跟踪以预测其在后续帧中的位置,直到第三帧图像预测出边界框后,反转视频序列并以第三帧预测出的边界框作为伪标签,进行反向跟踪,预测出第一帧图像上的目标边界框;通过计算第一帧图像上反向跟踪预测出的边界框与初始化的边界框之间的差异,构造网络的一致性损失,并通过大量的视频数据训练不断缩小此差异,从而训练出较好的网络模型...

【专利技术属性】
技术研发人员:谭元咏康彬陈高伟苏诺宇颜俊
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1