一种基于卷积神经网络的单目标跟踪方法技术

技术编号：15438385 阅读：136 留言：0更新日期：2017-05-26 04:19

本发明专利技术公开了一种基于卷积神经网络的单目标跟踪方法。该方法首先利用训练数据在线下预训练一个六层的卷积神经网络分类模型。在跟踪测试时，首先利用视频第一帧给出的Ground‑truth信息，提取一些样本数据，微调网络模型的参数，使得网络模型能够更好的适应当前跟踪的视频序列。同时针对当前跟踪的目标训练一个Bounding Box回归模型用于对跟踪结果的优化。然后对于正确的跟踪结果，利用Bounding Box回归模型对跟踪结果进行优化，得到目标对象更加精确的位置。所以在跟踪的同时，适时、适当的对网络模型参数进行更新，使得模型更好的适应当前跟踪的视频序列。本发明专利技术对网络结构中的pooling层进行了改进，同时添加了检测模块，使得跟踪器的性能更加的鲁棒，提高了跟踪的精度。

A single target tracking method based on convolutional neural network

The invention discloses a single target tracking method based on a convolutional neural network. Firstly, a six layer convolutional neural network classification model is trained by using the training data online. In the tracking test, we use Ground truth video information given by the first frame, extracting some sample data, parameter tuning network model, the network model can better adapt to the current tracking in video sequences. At the same time according to the target tracking training a Bounding Box regression model for the optimization of tracking result. Then the tracking results are correct, the use of Bounding Box regression model to optimize the tracking results, get more accurate position of the target object. Therefore, the network model parameters are updated at the same time while tracking, so that the model is better adapted to the current tracking video sequence. The invention improves the pooling layer in the network structure, and adds a detection module at the same time, which makes the performance of the tracker more robust and improves the tracking accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积神经网络的单目标跟踪方法
本专利技术涉及深度学习、目标跟踪、目标检测、图像预处理、特征表达等技术，属于计算机视觉跟踪

技术介绍
视觉跟踪任务是计算机视觉领域中一个非常基础且重要的问题，受到越来越多的科研工作者的关注。视觉跟踪任务的要求是对于给定的一段视频片段，给出要跟踪对象在视频第一帧中的位置坐标，然后要求在随后的视频序列中能够自动的识别出要跟踪的目标对象，并将其在视频中的位置标出(用一个框框住目标)。由于要跟踪的目标对象的外观受到运动突变、形变、遮挡、光照变化等因素带来的影响，使得视觉跟踪任务依然是一个很具有挑战性的问题。之前的一些方法大多是利用手工提取的特征来描述目标对象，这在一定程度上解决了一些视觉跟踪的问题。但是由于这些手工特征是针对特定的问题而设计的，不能够很好的提取到目标对象的高层的语义信息，导致了它的泛化性能很差，而这往往会导致跟踪效果不理想甚至跟踪失败。因此，亟需一种高效的、泛化性能好的跟踪器来解决这些问题。随着近年来机器学习、深度学习技术的不断发展，深度学习技术应用到越来越多的计算机视觉任务中。其中卷积神经网络(ConvolutionNeuralNetwork，CNN)应用的最为广泛，CNN广泛应用在图像分类、图像识别、图像分割和目标检测等计算机视觉领域，取得了不错的效果。CNN所表现出来的出色的性能归功于它对视觉任务数据的强大的表达和描述能力。CNN的分层结构，使得它能够从原始的数据中学习到目标的不同层次的特征表达，靠近底层提取到的是目标的一些结构化的信息，而高层提取到的是目标的一些语义信息。这些经过CNN提取到的...
一种基于卷积神经网络的单目标跟踪方法

【技术保护点】
一种基于卷积神经网络的单目标跟踪方法，其特征在于：本方法的具体实施包括以下几个步骤：(一)构建并训练网络模型；步骤一：准备训练数据集，本方法中使用的数据集包括Object Tracking Benchmark即OTB数据集和Visual Object Tracking即VOT数据集；步骤二：准备预训练好的卷积神经网络模型，构建卷积神经网络模型并利用预训练的模型参数来初始化新构建的卷积神经网络的模型的初始参数；步骤三：训练网络模型；网络模型参数初始化完毕之后，利用训练数据集训练整个网络模型，直到网络收敛；(二)微调网络模型并训练Bounding Box回归模型；步骤四：跟踪测试时，首先根据视频第一帧图像中的ground‑truth提取正、负样本，将正、负样本输入网络中，微调网络模型参数，使其适应当前跟踪的视频序列；步骤五：利用提取到的正样本的卷积层特征训练一个针对当前目标的Bounding Box回归模型，该Bounding Box回归模型用于对跟踪结果的精确化处理；(三)提取候选区域块并计算跟踪结果；步骤六：根据前一帧目标所处位置的坐标信息，以其坐标位置为中心，根据高斯分布模型在其周围...

【技术特征摘要】
1.一种基于卷积神经网络的单目标跟踪方法，其特征在于：本方法的具体实施包括以下几个步骤：(一)构建并训练网络模型；步骤一：准备训练数据集，本方法中使用的数据集包括ObjectTrackingBenchmark即OTB数据集和VisualObjectTracking即VOT数据集；步骤二：准备预训练好的卷积神经网络模型，构建卷积神经网络模型并利用预训练的模型参数来初始化新构建的卷积神经网络的模型的初始参数；步骤三：训练网络模型；网络模型参数初始化完毕之后，利用训练数据集训练整个网络模型，直到网络收敛；(二)微调网络模型并训练BoundingBox回归模型；步骤四：跟踪测试时，首先根据视频第一帧图像中的ground-truth提取正、负样本，将正、负样本输入网络中，微调网络模型参数，使其适应当前跟踪的视频序列；步骤五：利用提取到的正样本的卷积层特征训练一个针对当前目标的BoundingBox回归模型，该BoundingBox回归模型用于对跟踪结果的精确化处理；(三)提取候选区域块并计算跟踪结果；步骤六：根据前一帧目标所处位置的坐标信息，以其坐标位置为中心，根据高斯分布模型在其周围提取适量的目标对象候选块；步骤七：将提取到的目标对象候选块依次输入网络模型中，分别计算每一个候选块的得分，选取得分高于预先设定阈值的候选块作为最终的跟踪结果，即当前目标所在的位置；(四)后处理优化跟踪结果；步骤八：利用步骤五中训练好的BoundingBox回归模型对跟踪结果进行回归操作，得到目标更加精确的位置；步骤九：根据当前跟踪的结果，根据高斯分布模型收集一定数量的正、负样本数据，收集到的正、负样本数据用来更新网络模型；(五)更新网络模型；步骤十：利用收集到的正、负样本数据适时、适当地更新网络模型参数，使其能够持久的保持良好的跟踪性能。2.根据权利要求1所述的一种基于卷积神经网络的单目标跟踪方法，其特征在于：(一)构建并训练网络模型本方法是预先利用标注的数据集在线下预训练一个网络模型，该网络模型的作用是将每一个输入网络的候选区域进行特征提取、匹配，计算出每一个候选区域的得分，从而判别出输入的候选区域哪些是目标对象、哪些不是目标对象；然后在实际跟踪测试的时候，首先利用当前跟踪的视频信息在线微调网络，使其达到能够很好的适应跟踪当前目标的效果；步骤一，首先准备线下预训练网络模型时要使用的数据集，本方法的测试数据集是OTB50数据集，训练数据集是VOT数据集；OTB是一个标准的跟踪基准数据集，它包含50个全部标注的视频序列，视频的长度在几百帧到上千帧之间，这些视频拍摄于不同的场景，内容相差较大；VOT数据集是一个视觉挑战赛使用的数据集，一共包含58个和OTB50中不同的视频序列；这些视频序列有光照变化、遮挡、形变、分辨率、运动模糊、快速移动、背景干扰等不同干扰因素；步骤二，准备好训练数据集之后，需要构建网络模型；使用的网络模型结构是一个含有三个卷积层和三个全连接层的卷积神经网络，卷积神经网络各层的参数设置如表1中所示；首先利用在ImageNet分类数据集上预训练好的网络模型参数对新构建的网络模型进行参数初始化，这样做节省网络训练的时间，从而达到快速收敛的效果；表1步骤三，初始化网络模型参数后，利用标注好的VOT数据集对网络进行训练；在每一帧中收集50个正样本数据和200个负样本数据，这些样本数据的提取规则是，当提取的块跟Ground-truth的重合率大于0.7的时候，认为是正样本数据，当提取的块跟Ground-truth的重合率小于0.5的时候，认为是负样本数据；此训练过程是一个分领域的分步训练，将每一段视频序列看作是一个独立的领域，用其单独训练一个分类器，之后对于每一段输入的训练视频，首先重新初始化倒数第二层和最后一层的网络连接参数，即重新初始化一个分类节点，然后训练这个对应的分类器，使其能够正确的区分当前视频序列中的目标和背景；当输入的图片中是目标对象时，网络的输出为1，当输入的图片为背景时，网络的输出为0；所有视频序列一次训练完成算作是一个大的迭代完成；然后重复迭代训练，直到网络收敛，实验中迭代训练100次后网络收敛；训练完成后，将网络最后一层的所有分领域的分类节点去掉，并重新初始化一个新的二分类节点，同时重新初始化其与前一层的连接参数，保存好训练的网络模型；(二)微调网络模型并训练BoundingBox回归模型步骤四，测试时，首先加载训练好的模型，然后根据要跟踪的视频第一帧中给出的目标对象的Ground-truth...

【专利技术属性】
技术研发人员：段立娟，李凯，孙琦龙，安见才让，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人