一种基于目标变换回归网络的精确目标跟踪方法技术

技术编号：35050112 阅读：14 留言：0更新日期：2022-09-28 10:48

一种基于目标变换回归网络的精确目标跟踪方法，包括以下步骤：1)生成训练样例阶段；2)网络的配置阶段；3)离线训练阶段；4)在线跟踪阶段。本发明专利技术设计的目标变换回归网络，将待测视频第一帧的目标信息融入待跟踪视频帧的回归分支中，并且在目标框回归中引入了在线更新的机制，实现目标跟踪。相比现有的无锚框跟踪方法，本发明专利技术的跟踪方法能对跟踪过程中的物体变形有更好的适应能力，有效地提升目标回归的精度。精度。精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于目标变换回归网络的精确目标跟踪方法

[0001]本专利技术属于计算机视觉
，涉及单目标跟踪技术，具体为一种基于目标变换回归网络的精确目标跟踪方法。

技术介绍

[0002]作为计算机视觉中的基本任务，视觉物体跟踪旨在为视频中的一个任意一般物体估计它在每一帧中出现的空间位置并标出物体边框。大体上，目前的视觉物体跟踪可以被分为物体分类和边框回归两个子任务。
[0003]为了构建一个精确的跟踪器，边框回归的设计是至关重要的。当前的跟踪方法按照回归分支来进行分类的话主要可以分为两种：简洁的预测和直接回归。对于前一类，早前的相关滤波方法和孪生网络方法例如SiamFC等主要采用了多尺度预测的方法来粗略的估计目标的尺度。接下来，ATOM方法提出了一个特别设计的IoU预测网络来挑选出多个预选框中得分最高的并且进行微调，从而得到比较精确的框。对于第二类直接回归的方法，一系列Siamese方法例如SiamRPN、SiamRPN++等采用了一种基于锚框的RPN(Region Proposal Net)网络来直接回归预设的锚框。另外，近期的一些无锚框跟踪器通过一个简单的网络直接预测每个点的目标大小。无锚框跟踪器不仅简单直接，而且取得了不错的跟踪效果，因此逐渐称为目前比较流行的一种方法。然而，当前的这些无锚框方法例如SiamFC++、Ocean等依然不够精确，这是由于待跟踪的目标在后续帧中可能会发生形变等。

技术实现思路

[0004]本专利技术要解决的问题是：在视频目标跟踪中，存在如何将视频第一帧中给定的目...

【技术保护点】

【技术特征摘要】
1.一种基于目标变换回归网络的精确目标跟踪方法，其特征是构建目标变换回归网络，包括分类分支和回归分支，训练网络时，分别提取训练帧和测试帧的分类特征和回归特征，由分类特征训练对目标特征的识别，由回归特征训练对目标框的的生成，输出的目标框即跟踪结果，其中对测试帧的回归特征先经一个回归目标变换器Transformer增强特征后，再结合训练帧的回归特征训练对目标框的生成；训练好的网络用于在线跟踪，以待跟踪视频的第一帧的目标分类特征信息引入回归分支中，后续视频帧作为测试帧，经目标变换回归网络得到目标框用于跟踪。2.根据权利要求1所述的一种基于目标变换回归网络的精确目标跟踪方法，其特征是在跟踪过程中挑选出部分已经跟踪完的视频帧作为分类分支的在线训练样本以及回归分支的在线更新样本，来更新分类分支和回归分支的网络参数。3.根据权利要求1或2所述的一种基于目标变换回归网络的精确目标跟踪方法，其特征是所述回归目标变换器Transformer具体为：首先将测试帧的回归特征经过一个1*1卷积产生查询向量，同时将训练帧的回归特征经过两个1*1卷积分别产生键向量和值向量用作查询，将查询向量经过矩阵转置之后与键向量相乘，再用该相乘结果与值向量进行相乘得到增强特征，最后将测试帧的原始回归特征与增强特征相加，从而在保留初始信息的基础上使特征得到变换增强。4.根据权利要求1或2所述的一种基于目标变换回归网络的精确目标跟踪方法，其特征是所述跟踪方法包括生成训练样例阶段、网络配置阶段、离线训练阶段以及在线跟踪阶段：1)生成训练样例阶段，在离线训练过程中生成训练样例，首先对离线训练数据集中每个视频的每一帧图像进行目标区域抖动处理，然后裁剪出抖动处理后的目标搜索区域，从每个视频帧序列的前半部分抽取三帧作为训练帧，从每个视频帧序列的后半部分抽取一帧作为测试帧，对测试帧标注目标框作为验证帧，对于每个验证帧生成一个以目标框的中心为中心的高斯标签图作为验证集的分类分支标签，并且记录下每帧验证帧中目标框的中心距离目标框的四个边界的距离，作为离线训练过程中回归分支的标签；2)网络配置阶段，提取测试帧和训练帧的分类特征图和回归特征图，根据训练帧的分类特征图生成分类分支的可适应卷积核f
cls
，以可适应卷积核f
cls
作为分类卷积的卷积核，作用于测试帧的分类特征图，经过分类卷积操作之后产生分类得分置信图M
cls
；同时将训练帧的回归特征图作为指导回归分支的目标特征样本，测试帧的回归特征图经过一个回归目标变换器Transformer后，回归产生中心点到目标边界距离回归偏置图M
reg
，用于表示目标的中心点距离物体的四个边界的距离，根据置信图M
cls
找到得分最高的点，然后在M
reg
中找出该点对应的四个偏置距离，即输出测试帧上目标的目标框；3)离线训练阶段，对于分类分支的离线训练使用DiMP提出的类合页损失LBHinge Loss作为损失函数，对于回归分支使用IoU损失函数，结合由验证帧得到的标签，使用SGD优化器，通过反向传播算法来更新整个网络参数，不断重复步骤2)，直至达到迭代次数；4)在线跟踪阶段，首先裁剪出待跟踪视频的第一帧图像中的目标框搜索区域作为模板，然后将模板帧扩充为一个包含30帧图像的在线训练数据集，作为训练帧F
train
，将待跟踪视频中后续待跟踪的帧作为测试帧F
test
，以F
train
输入步骤2)的网络，得到F
test
上的目标框，实现目标跟踪。5.根据权利要求4所述的一种基于目标变换回归网络的精确目标跟踪方法，其特征是
步骤4)的跟踪过程中，从已经跟踪完的帧序列中每25帧挑选出一个分类得分最高的帧和已经跟踪得到的目标框作为标签添加到在线训练数据集中，用于更新分类分支的可适应卷积核f
cls
及回归分支的目标特征样本。6.根据权利要求4所述的一种基于目标变换回归网络的精确目标跟踪方法，其特征是步骤2)网络配置具体为：2.1)提取测试帧的编码特征：首先使用Resnet
‑
50的Block
‑
1、Block
‑
2、Block
‑
3和Block
‑
4作为编码器进行提取特征，对测试帧F
test
∈R
B
×3×
288
×
288
提取特征得到提取特征得到其中上标e2的含义是编码层Block
‑
2提取的特征，e3的含义是编码层Block
‑
3提取的特征，e4的含义是编码层Block
‑
4提取的特征，下标test表示测试帧，B代表batch size的大小，其中包括卷积层和池化层，卷积层是3*3和1*1两种卷积核，分别用来提取更高维度的特征和对特征维度进行变换，每个卷积层的卷积核采取随机初始化的方式进行初始化；2.2)提取测试帧的解码特征：使用一个卷积核为1*1的卷积层作用于步骤2.1)得到的输入通道数为1024，输出通道数为256，得到第一层解码特征特征层大小为256*18*18，对经过一个1*1的卷积层使其通道数目变成256；用一个双线性插值层对第一层解码特征进行2倍上采样操作，将通道变换后的结果和倍上采样操作后的结果相加之后进行一次卷积操作，卷积核为1*1，得到第二层的解码特征对步骤2.1)得到的经过一个1*1的卷积层变换通道数目为256，用一个双线性插值层对第二层解码特征进行2倍上采样操作，将通道变换后的结果和倍上采样后的结果相加之后进行一次卷积操作，卷积核为1*1，得到第三层解码特征2.3)提取测试帧的分类特征：将步骤2.2)得到的解码特征经过一个卷积层，所述卷积层采用3*3的卷积核，步长为1，接着经过一个组标准化层Group Normalization和一个ReLU激活层，将得到的特征再经过两个可形变卷积，可形变卷积的卷积核大小为3*3，步长为1，并且在两个可形变卷积之间设有一个组标准化层Group Normalization和一个ReLU激活层，得到测试帧的分类特征图其中两处组标准化层的组大小均为32；2.4)提取测试帧的回归特征：将步骤2.2)得到的解码特征经过一个卷积层，所述卷积层采用3*3的卷积核，步长为1，接着过一个组标准化层Group Normalization和一个ReLU激活层，将得到的特征再经过两个可形变卷积，可形变卷积的卷积核大小为3*3，步长为1，其中在第一个可形变卷积之后具有一个组标准化层Group Normalization和一个ReLU激活层，组标准化层的组大小均为32，在第二个可形变卷积之后具有一个ReLU激活层，输出回归特征，将得到的特征2倍上采样，将和上采样后的结果拼接之后输入到一个1*1的卷积层中变换通道，得到测试帧的回归特征图2.5)提取训练帧的编码特征：同步骤2.1)对测试帧的处理，对多个训练帧F
train
∈R
B
×3×3×
288
×
288
提取特征得到
2.6)提取训练帧的解码特征：同步骤2.2)对测试帧的处理，基于训练帧的编码特征得到第一层解码特征第二层的解码特征和第三层的解码特征2.7)提取训练帧的分类特征：同步骤2.3)对测试帧的处理，由得到训练帧的分类特征图2.8)提取训练帧的回归特征：同步骤2.4)对测试帧的处理，由得到测试帧的回归特征图2.9)生成分类分支的可适应卷积核：将步骤2.7)得到的分类特征图首先输入到一...

【专利技术属性】
技术研发人员：王利民，崔玉涛，蒋承，武港山，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人