本发明专利技术公开了多视角专家组的区域建议预测的视觉跟踪方法及系统,包括:获取待跟踪视频;其中,待跟踪视频中第一帧图像中设有待跟踪对象的目标区域框和待跟踪对象目标区域周围两倍大的区域框;基于第一帧图像的区域框,对分类器进行训练,得到训练后的分类器;基于多专家模型,对待跟踪视频的第i帧图像进行特征提取,得到最优特征;其中,i的取值范围为2~N;N为正整数;将最优特征输入到训练后的分类器中,输出得到一个粗略的正样本候选框;基于粗略的正样本候选框,得到最优候选框。以桥接区域建议网络预测学习跟踪器和多视角多专家修复方案,从而可以协同的提高其跟踪性能。从而可以协同的提高其跟踪性能。从而可以协同的提高其跟踪性能。
【技术实现步骤摘要】
多视角专家组的区域建议预测的视觉跟踪方法及系统
[0001]本专利技术涉及视觉跟踪
,特别是涉及多视角专家组的区域建议预测的视觉跟踪方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]视觉跟踪是在第一个视频帧中给定带有边框标记的初始目标,在后续视频帧中定位目标。视觉跟踪一直是计算机视觉领域的热门研究课题,在视频监控、视频检索、体育视频分析等方面有着广泛的应用。由于目标跟踪存在几项有独特特性的问题而被深入研究,例如:跟踪过程中由于物体的剧烈形变、物体旋转、严重遮挡以及视频帧的光照变化等原因造成的跟踪不稳定,还有跟踪过程中能够获取的正样本数量有限问题。
[0004]现有的视觉跟踪器大多由三个部分组成:特征表示(外观模型)、模型更新器和集成后处理器。在这三个组件中,“特征表示器”和“模型更新器”是两个重要的组件,它们在目标跟踪中起着关键作用,但却面临着以下挑战:1)判别特征表示缺乏多样性:2)目标定位过于模糊3)正样本的数量。
[0005]最近,许多研究人员广泛的使用综合基准来评估在线跟踪算法的有效性。其中,多专家模型(MEEM,Multiple Experts using Entropy Minimization)采用熵极小化跟踪器,并建立了一个过去的快照专家数据库,通过这个专家数据库可以对目标进行识别,以减少其模糊度的程度。MEEM提出了一种潜在机制来修正跟踪过程中之前帧跟踪的错误。然而,它的跟踪性能很大程度上受到以上三个问题的制约。
技术实现思路
[0006]为了解决现有技术的不足,本专利技术提供了多视角专家组的区域建议预测的视觉跟踪方法及系统;
[0007]第一方面,本专利技术提供了多视角专家组的区域建议预测的视觉跟踪方法;
[0008]多视角专家组的区域建议预测的视觉跟踪方法,包括:
[0009]获取待跟踪视频;其中,待跟踪视频中第一帧图像中设有待跟踪对象的目标区域框和待跟踪对象目标区域周围两倍大的区域框;
[0010]基于第一帧图像的区域框,对分类器进行训练,得到训练后的分类器;
[0011]基于多专家模型,对待跟踪视频的第i帧图像进行特征提取,得到最优特征;其中,i的取值范围为2~N;N为正整数;将最优特征输入到训练后的分类器中,输出得到一个粗略的正样本候选框;基于粗略的正样本候选框,得到最优候选框。
[0012]第二方面,本专利技术提供了多视角专家组的区域建议预测的视觉跟踪系统;
[0013]多视角专家组的区域建议预测的视觉跟踪系统,包括:
[0014]获取模块,其被配置为:获取待跟踪视频;其中,待跟踪视频中第一帧图像中设有待跟踪对象的目标区域框和待跟踪对象目标区域周围两倍大的区域框;
[0015]训练模块,其被配置为:基于第一帧图像的区域框,对分类器进行训练,得到训练后的分类器;
[0016]特征提取模块,其被配置为:基于多专家模型,对待跟踪视频的第i帧图像进行特征提取,得到最优特征;其中,i的取值范围为2~N;N为正整数;将最优特征输入到训练后的分类器中,输出得到一个粗略的正样本候选框;基于粗略的正样本候选框,得到最优候选框。
[0017]第三方面,本专利技术还提供了一种电子设备,包括:
[0018]存储器,用于非暂时性存储计算机可读指令;以及
[0019]处理器,用于运行所述计算机可读指令,
[0020]其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
[0021]第四方面,本专利技术还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
[0022]与现有技术相比,本专利技术的有益效果是:
[0023]本专利技术提出了一种基于多视角专家组的区域建议网络的预测学习算法去解决在同一个框架中的上述问题。本专利技术的算法集成了多个视图以构建一个多视角多专家跟踪器,它可以利用丰富多样的语义信息来解决判别特征表示单一的问题,从而提高跟踪性能。
[0024]已知的大多数现有的目标检测算法都不能直接用于跟踪过程,而本专利技术的方法巧妙地重新构造了目标检测算法,以实现跟踪目的。虽然跟踪目标的正样本数量是有限的,但是在通常情况下所采集到的负样本数量是足够多的。因此,如何充分的利用负样本对于一个好的跟踪器提高跟踪性能来说是至关重要的。本专利技术围绕目标物体的大概位置扩展出了一个边界框,并多次迭代执行细粒度搜索算法,将通过这样的方法识别出的更加精确的负样本作为负样本。通过在扩展的边界框上建立多个SVM模型的输出以预测最优的目标位置,本专利技术的方法因此可以同时解决跟踪目标定位模糊和正样本数量有限的问题。
[0025]在此之前已经提出了多种方法来进行特征融合,本专利技术的目的是提出一个新的跟踪框架,而不是重新设计一个新特征融合网络。
[0026]本专利技术工作的主要贡献可以归纳为三个方面:
[0027]首先,本专利技术提出了一种全新的基于多视角的顶层特征的区域建议网络预测学习跟踪器(M2RT),该跟踪器可以通过使用细粒度搜索算法,来找到更准确的目标位置。它可以通过细粒度的搜索算法,在大概的预测位置周围使用一些区域的建议候选框来找到更精确的目标位置。
[0028]其次,本专利技术设计了一种基于多特征集成的多专家最小化修复方案。与现有技术不同之处在于本专利技术的工作是通过同时考虑不同专家在不同视图之间共享的潜在关联对预测的跟踪进行判断,本专利技术的方法不仅能够纠正错误的模型更新,而且还可以利用互相关联的多视角表示进行鲁棒的外观建模。
[0029]最后,本专利技术建立了一个闭环的解决方案,以桥接区域建议网络预测学习跟踪器和多视角多专家修复方案,从而可以协同的提高其跟踪性能。基准评估表明,本专利技术的跟踪器在比例变化和遮挡方面更鲁棒,更准确,并且可以得到显著提升的性能。
[0030]本专利技术附加方面的优点将在下面的描述中部分给出,或通过本专利技术的实践了解到。
附图说明
[0031]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0032]图1为第一个实施例的M2RT跟踪器的流程图;
[0033]图2(a)为第一个实施例的作为锚点查看顶层特征图的结构,它显示了如果IOU为0.7时所有的锚点匹配的锚框;
[0034]图2(b)为第一个实施例的不同的视角结构,在顶层特征图上不带有任何的结构化信息;
[0035]图3(a)~图3(h)为第一个实施例的视频Jogging
‑
2中第50帧到64帧跟踪结果比较;
[0036]图4(a)~图4(h)为第一个实施例的视频CarScale中第152帧到180帧跟踪结果比较;
[0037]图5(a)为第一个实施例的平均精度图
[0038]图5(b本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.多视角专家组的区域建议预测的视觉跟踪方法,其特征是,包括:获取待跟踪视频;其中,待跟踪视频中第一帧图像中设有待跟踪对象的目标区域框和待跟踪对象目标区域周围两倍大的区域框;基于第一帧图像的区域框,对分类器进行训练,得到训练后的分类器;基于多专家模型,对待跟踪视频的第i帧图像进行特征提取,得到最优特征;其中,i的取值范围为2~N;N为正整数;将最优特征输入到训练后的分类器中,输出得到一个粗略的正样本候选框;基于粗略的正样本候选框,得到最优候选框。2.如权利要求1所述的多视角专家组的区域建议预测的视觉跟踪方法,其特征是,基于第一帧图像的区域框,对分类器进行训练,得到训练后的分类器;具体包括:将第一帧图像中设有待跟踪对象的目标区域框作为正样本,将第一帧图像中待跟踪对象目标区域周围两倍大的区域框作为负样本,对正样本区域进行特征提取和特征融合;对负样本区域进行特征提取和特征融合;将正样本的特征融合结果和负样本的特征融合结果输入到分类器中,对分类器进行训练,得到训练后的分类器。3.如权利要求1所述的多视角专家组的区域建议预测的视觉跟踪方法,其特征是,基于多专家模型,对待跟踪视频的第i帧图像进行特征提取,得到最优特征;具体包括:将待跟踪视频的第i帧图像分别提取三种特征;对提取的三种特征采用多专家模型MEEM进行评估,输出最优特征。4.如权利要求1所述的多视角专家组的区域建议预测的视觉跟踪方法,其特征是,基于粗略的正样本候选框,得到最优候选框;具体包括:将粗略的正样本候选框输入到训练后的区域建议网络,产生待跟踪视频的第i帧图像的若干个区域候选框;训练后的区域建议网络从若干个区域候选框中,选取最优候选框为最...
【专利技术属性】
技术研发人员:郭文,丁昕苗,单彬,王铭淏,
申请(专利权)人:山东工商学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。