一种基于卷积神经网络的单目标跟踪方法技术

技术编号:15438385 阅读:127 留言:0更新日期:2017-05-26 04:19
本发明专利技术公开了一种基于卷积神经网络的单目标跟踪方法。该方法首先利用训练数据在线下预训练一个六层的卷积神经网络分类模型。在跟踪测试时,首先利用视频第一帧给出的Ground‑truth信息,提取一些样本数据,微调网络模型的参数,使得网络模型能够更好的适应当前跟踪的视频序列。同时针对当前跟踪的目标训练一个Bounding Box回归模型用于对跟踪结果的优化。然后对于正确的跟踪结果,利用Bounding Box回归模型对跟踪结果进行优化,得到目标对象更加精确的位置。所以在跟踪的同时,适时、适当的对网络模型参数进行更新,使得模型更好的适应当前跟踪的视频序列。本发明专利技术对网络结构中的pooling层进行了改进,同时添加了检测模块,使得跟踪器的性能更加的鲁棒,提高了跟踪的精度。

A single target tracking method based on convolutional neural network

The invention discloses a single target tracking method based on a convolutional neural network. Firstly, a six layer convolutional neural network classification model is trained by using the training data online. In the tracking test, we use Ground truth video information given by the first frame, extracting some sample data, parameter tuning network model, the network model can better adapt to the current tracking in video sequences. At the same time according to the target tracking training a Bounding Box regression model for the optimization of tracking result. Then the tracking results are correct, the use of Bounding Box regression model to optimize the tracking results, get more accurate position of the target object. Therefore, the network model parameters are updated at the same time while tracking, so that the model is better adapted to the current tracking video sequence. The invention improves the pooling layer in the network structure, and adds a detection module at the same time, which makes the performance of the tracker more robust and improves the tracking accuracy.

【技术实现步骤摘要】
一种基于卷积神经网络的单目标跟踪方法
本专利技术涉及深度学习、目标跟踪、目标检测、图像预处理、特征表达等技术,属于计算机视觉跟踪

技术介绍
视觉跟踪任务是计算机视觉领域中一个非常基础且重要的问题,受到越来越多的科研工作者的关注。视觉跟踪任务的要求是对于给定的一段视频片段,给出要跟踪对象在视频第一帧中的位置坐标,然后要求在随后的视频序列中能够自动的识别出要跟踪的目标对象,并将其在视频中的位置标出(用一个框框住目标)。由于要跟踪的目标对象的外观受到运动突变、形变、遮挡、光照变化等因素带来的影响,使得视觉跟踪任务依然是一个很具有挑战性的问题。之前的一些方法大多是利用手工提取的特征来描述目标对象,这在一定程度上解决了一些视觉跟踪的问题。但是由于这些手工特征是针对特定的问题而设计的,不能够很好的提取到目标对象的高层的语义信息,导致了它的泛化性能很差,而这往往会导致跟踪效果不理想甚至跟踪失败。因此,亟需一种高效的、泛化性能好的跟踪器来解决这些问题。随着近年来机器学习、深度学习技术的不断发展,深度学习技术应用到越来越多的计算机视觉任务中。其中卷积神经网络(ConvolutionNeuralNetwork,CNN)应用的最为广泛,CNN广泛应用在图像分类、图像识别、图像分割和目标检测等计算机视觉领域,取得了不错的效果。CNN所表现出来的出色的性能归功于它对视觉任务数据的强大的表达和描述能力。CNN的分层结构,使得它能够从原始的数据中学习到目标的不同层次的特征表达,靠近底层提取到的是目标的一些结构化的信息,而高层提取到的是目标的一些语义信息。这些经过CNN提取到的特征相对于之前人们手工设计的特征具有更好的鲁棒性,使得在处理计算机视觉任务上表现出较好的性能。传统的目标跟踪算法是基于产生式和判别式的方式。产生式的方式利用一个生成模型来描述目标的外观,然后搜索候选区域中和当前目标最相似的目标。判别式的方法是建立一个区分目标和背景的模型,它的目的是将目标从背景中有效的区分开来。而在这两种方法中通常使用的特征都是一些手工提取的特征,这些低层的手工特征往往对于光照变化、遮挡、形变等动态情景是十分的不鲁棒的。
技术实现思路
对于单目标跟踪来说,首先要知道跟踪的目标对象是什么,有哪些特点,然后在随后的视频中找到与之对应的目标对象。早期的基于手工特征的判别式模型只能够提取到目标对象的一些浅层的特征,并不能够很好的描述目标对象的本质。而卷积神经网络通过一个分层的结构,可以学习到目标对象不同层次的特征表达。底层能够学习到目标对象的一些结构特征,而高层则可以学习到目标对象的一些语义信息,而这些信息能够很好的描述目标对象。本专利技术的目的在于利用CNN强大的特征提取能力,提取到更加鲁棒的特征,使得能够更好的描述要跟踪的目标对象,然后使用一个判别式的模型,从视频序列中把要跟踪的目标找出来并标记目标的坐标位置,从而提高模型对于动态情景的鲁棒性。本专利技术采用的技术方案为一种基于卷积神经网络的单目标跟踪方法。构建并训练网络模型;微调网络模型;提取候选区域块并计算跟踪结果;后处理优化跟踪结果;更新网络模型。根据上述主要思路,本方法的具体实施包括以下几个步骤:(一)构建并训练网络模型;步骤一:准备训练数据集,本方法中使用的数据集包括ObjectTrackingBenchmark(OTB)数据集和VisualObjectTracking(VOT)数据集;步骤二:准备预训练好的卷积神经网络模型,构建卷积神经网络模型并利用预训练的模型参数来初始化新构建的卷积神经网络的模型的初始参数;步骤三:训练网络模型。网络模型参数初始化完毕之后,利用训练数据集训练整个网络模型,直到网络收敛;(二)微调网络模型并训练BoundingBox回归模型;步骤四:跟踪测试时,首先根据视频第一帧图像中的ground-truth提取正、负样本,将正、负样本输入网络中,微调网络模型参数,使其适应当前跟踪的视频序列;步骤五:利用提取到的正样本的卷积层特征训练一个针对当前目标的BoundingBox回归模型,该BoundingBox回归模型用于对跟踪结果的精确化处理;(三)提取候选区域块并计算跟踪结果;步骤六:根据前一帧目标所处位置的坐标信息,以其坐标位置为中心,根据高斯分布模型在其周围提取适量的目标对象候选块;步骤七:将提取到的目标对象候选块依次输入网络模型中,分别计算每一个候选块的得分,选取得分高于预先设定阈值的候选块作为最终的跟踪结果,即当前目标所在的位置;(四)后处理优化跟踪结果;步骤八:利用步骤五中训练好的BoundingBox回归模型对跟踪结果进行回归操作,得到目标更加精确的位置;步骤九:根据当前跟踪的结果,根据高斯分布模型收集一定数量的正、负样本数据,收集到的正、负样本数据用来更新网络模型;(五)更新网络模型;步骤十:利用收集到的正、负样本数据适时、适当地更新网络模型参数,使其能够持久的保持良好的跟踪性能。与现有技术相比,本专利技术具有如下优点:本专利技术方法应用CNN来提取目标对象的特征,使得能够更好的表达目标,提高了目标表述的鲁棒性。在网络结构上,因为pooling操作的使用,会使物体丢失一些结构上的信息,本专利技术将原有的pooling层的大小变得更小(kernelsize2x2),这样能够提高目标定位的精度。同时,本专利技术在跟踪框架的基础上添加了一个用于检测目标的模块,在跟踪失败的时候,利用该模块在当前帧上对目标进行重检测,提高了跟踪器对于遮挡等动态情景的鲁棒性,从而提高了跟踪的准确率。附图说明图1是本专利技术所涉及的方法的整体流程示意图;图2是训练阶段的流程图图3是测试阶段的流程图图4是网络模型的整体框架图具体实施方式下面结合具体实施方式对本专利技术做进一步的说明。(一)构建并训练网络模型本方法是预先利用标注的数据集在线下预训练一个网络模型,该网络模型的作用是将每一个输入网络的候选区域进行特征提取、匹配,计算出每一个候选区域的得分,从而判别出输入的候选区域哪些是目标对象、哪些不是目标对象。然后在实际跟踪测试的时候,首先利用当前跟踪的视频信息在线微调网络,使其达到能够很好的适应跟踪当前目标的效果。步骤一,首先准备线下预训练网络模型时要使用的数据集,本方法的测试数据集是OTB50数据集,训练数据集是VOT数据集。OTB是一个标准的跟踪基准数据集,它包含50个全部标注的视频序列,视频的长度在几百帧到上千帧之间,这些视频拍摄于不同的场景,内容相差较大。VOT数据集是一个视觉挑战赛使用的数据集,一共包含58个和OTB50中不同的视频序列。这些视频序列有光照变化、遮挡、形变、分辨率、运动模糊、快速移动、背景干扰等不同干扰因素。步骤二,准备好训练数据集之后,需要构建网络模型。本方法使用的网络模型结构如图2所示,它是一个含有三个卷积层和三个全连接层的卷积神经网络,卷积神经网络各层的参数设置如表1中所示。首先利用在ImageNet分类数据集上预训练好的网络模型参数对新构建的网络模型进行参数初始化,这样做节省网络训练的时间,从而达到快速收敛的效果。表1步骤三,初始化网络模型参数后,利用标注好的VOT数据集对网络进行训练。在每一帧中收集50个正样本数据和200个负样本数据,这些样本数据的提取规则是,当提取本文档来自技高网
...
一种基于卷积神经网络的单目标跟踪方法

【技术保护点】
一种基于卷积神经网络的单目标跟踪方法,其特征在于:本方法的具体实施包括以下几个步骤:(一)构建并训练网络模型;步骤一:准备训练数据集,本方法中使用的数据集包括Object Tracking Benchmark即OTB数据集和Visual Object Tracking即VOT数据集;步骤二:准备预训练好的卷积神经网络模型,构建卷积神经网络模型并利用预训练的模型参数来初始化新构建的卷积神经网络的模型的初始参数;步骤三:训练网络模型;网络模型参数初始化完毕之后,利用训练数据集训练整个网络模型,直到网络收敛;(二)微调网络模型并训练Bounding Box回归模型;步骤四:跟踪测试时,首先根据视频第一帧图像中的ground‑truth提取正、负样本,将正、负样本输入网络中,微调网络模型参数,使其适应当前跟踪的视频序列;步骤五:利用提取到的正样本的卷积层特征训练一个针对当前目标的Bounding Box回归模型,该Bounding Box回归模型用于对跟踪结果的精确化处理;(三)提取候选区域块并计算跟踪结果;步骤六:根据前一帧目标所处位置的坐标信息,以其坐标位置为中心,根据高斯分布模型在其周围提取适量的目标对象候选块;步骤七:将提取到的目标对象候选块依次输入网络模型中,分别计算每一个候选块的得分,选取得分高于预先设定阈值的候选块作为最终的跟踪结果,即当前目标所在的位置;(四)后处理优化跟踪结果;步骤八:利用步骤五中训练好的Bounding Box回归模型对跟踪结果进行回归操作,得到目标更加精确的位置;步骤九:根据当前跟踪的结果,根据高斯分布模型收集一定数量的正、负样本数据,收集到的正、负样本数据用来更新网络模型;(五)更新网络模型;步骤十:利用收集到的正、负样本数据适时、适当地更新网络模型参数,使其能够持久的保持良好的跟踪性能。...

【技术特征摘要】
1.一种基于卷积神经网络的单目标跟踪方法,其特征在于:本方法的具体实施包括以下几个步骤:(一)构建并训练网络模型;步骤一:准备训练数据集,本方法中使用的数据集包括ObjectTrackingBenchmark即OTB数据集和VisualObjectTracking即VOT数据集;步骤二:准备预训练好的卷积神经网络模型,构建卷积神经网络模型并利用预训练的模型参数来初始化新构建的卷积神经网络的模型的初始参数;步骤三:训练网络模型;网络模型参数初始化完毕之后,利用训练数据集训练整个网络模型,直到网络收敛;(二)微调网络模型并训练BoundingBox回归模型;步骤四:跟踪测试时,首先根据视频第一帧图像中的ground-truth提取正、负样本,将正、负样本输入网络中,微调网络模型参数,使其适应当前跟踪的视频序列;步骤五:利用提取到的正样本的卷积层特征训练一个针对当前目标的BoundingBox回归模型,该BoundingBox回归模型用于对跟踪结果的精确化处理;(三)提取候选区域块并计算跟踪结果;步骤六:根据前一帧目标所处位置的坐标信息,以其坐标位置为中心,根据高斯分布模型在其周围提取适量的目标对象候选块;步骤七:将提取到的目标对象候选块依次输入网络模型中,分别计算每一个候选块的得分,选取得分高于预先设定阈值的候选块作为最终的跟踪结果,即当前目标所在的位置;(四)后处理优化跟踪结果;步骤八:利用步骤五中训练好的BoundingBox回归模型对跟踪结果进行回归操作,得到目标更加精确的位置;步骤九:根据当前跟踪的结果,根据高斯分布模型收集一定数量的正、负样本数据,收集到的正、负样本数据用来更新网络模型;(五)更新网络模型;步骤十:利用收集到的正、负样本数据适时、适当地更新网络模型参数,使其能够持久的保持良好的跟踪性能。2.根据权利要求1所述的一种基于卷积神经网络的单目标跟踪方法,其特征在于:(一)构建并训练网络模型本方法是预先利用标注的数据集在线下预训练一个网络模型,该网络模型的作用是将每一个输入网络的候选区域进行特征提取、匹配,计算出每一个候选区域的得分,从而判别出输入的候选区域哪些是目标对象、哪些不是目标对象;然后在实际跟踪测试的时候,首先利用当前跟踪的视频信息在线微调网络,使其达到能够很好的适应跟踪当前目标的效果;步骤一,首先准备线下预训练网络模型时要使用的数据集,本方法的测试数据集是OTB50数据集,训练数据集是VOT数据集;OTB是一个标准的跟踪基准数据集,它包含50个全部标注的视频序列,视频的长度在几百帧到上千帧之间,这些视频拍摄于不同的场景,内容相差较大;VOT数据集是一个视觉挑战赛使用的数据集,一共包含58个和OTB50中不同的视频序列;这些视频序列有光照变化、遮挡、形变、分辨率、运动模糊、快速移动、背景干扰等不同干扰因素;步骤二,准备好训练数据集之后,需要构建网络模型;使用的网络模型结构是一个含有三个卷积层和三个全连接层的卷积神经网络,卷积神经网络各层的参数设置如表1中所示;首先利用在ImageNet分类数据集上预训练好的网络模型参数对新构建的网络模型进行参数初始化,这样做节省网络训练的时间,从而达到快速收敛的效果;表1步骤三,初始化网络模型参数后,利用标注好的VOT数据集对网络进行训练;在每一帧中收集50个正样本数据和200个负样本数据,这些样本数据的提取规则是,当提取的块跟Ground-truth的重合率大于0.7的时候,认为是正样本数据,当提取的块跟Ground-truth的重合率小于0.5的时候,认为是负样本数据;此训练过程是一个分领域的分步训练,将每一段视频序列看作是一个独立的领域,用其单独训练一个分类器,之后对于每一段输入的训练视频,首先重新初始化倒数第二层和最后一层的网络连接参数,即重新初始化一个分类节点,然后训练这个对应的分类器,使其能够正确的区分当前视频序列中的目标和背景;当输入的图片中是目标对象时,网络的输出为1,当输入的图片为背景时,网络的输出为0;所有视频序列一次训练完成算作是一个大的迭代完成;然后重复迭代训练,直到网络收敛,实验中迭代训练100次后网络收敛;训练完成后,将网络最后一层的所有分领域的分类节点去掉,并重新初始化一个新的二分类节点,同时重新初始化其与前一层的连接参数,保存好训练的网络模型;(二)微调网络模型并训练BoundingBox回归模型步骤四,测试时,首先加载训练好的模型,然后根据要跟踪的视频第一帧中给出的目标对象的Ground-truth...

【专利技术属性】
技术研发人员:段立娟李凯孙琦龙安见才让
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1