复杂场景下单目标跟踪系统、方法、电子设备及存储介质技术方案

技术编号:32526398 阅读:18 留言:0更新日期:2022-03-05 11:18
本发明专利技术公开了复杂场景下单目标跟踪系统、方法、电子设备及存储介质,所述跟踪系统包括:预处理模块,用于执行:根据传入的违规模板边框对初始的目标帧以及后续的视频帧进行处理,得到模板区域和搜索区域;将目标模板区域传入再识别网络,得到目标的初始特征;跟踪初筛模块,用于执行:获取所述预处理模块的模板区域和搜索区域,将二者传入深度学习的单目标跟踪算法,然后通过NMS算法筛选出置信度高的前10个候选跟踪框,然后将前10个候选跟踪框传入特征对比模块;特征对比模块,用于执行:分别比较前10个候选跟踪框与目标初始特征的余弦相似度,根据相似度选出最佳的目标跟踪框;阈值联动模块,用于执行:根据输出候选边框的置信度,来调整所述预处理模块中的候选模板的搜索区域的大小。域的大小。

【技术实现步骤摘要】
复杂场景下单目标跟踪系统、方法、电子设备及存储介质


[0001]本专利技术涉及一种复杂场景下单目标跟踪系统、方法、电子设备及存储介质,属于视频监控安防


技术介绍

[0002]目标跟踪是计算机视觉研究中的重要组成部分,在监控安防,无人驾驶,精确制导等领域存在巨大的应用需求。这些应用场景可分为民用领域与军用领域,两类领域分别具有自身的特点。在民用领域,由于目标出现时刻、时长存在不确定性,视频监控系统需要长时间、高稳定性地执行工作;在军事领域,高速机动目标的飞行速度可以超过5马赫,要求跟踪系统在复杂的战场环境中保证实时性与准确性。正是由于存在上述情况,且人工识别并标记待跟踪目标难以满足实际应用的对跟踪系统的要求,研究替代人工方法的目标跟踪算法具有重要意义。
[0003]近年来,基于深度学习的孪生网络系列的单目标跟踪算法获得了很大的进步,但是在实际场景中的,目标遇到的干扰更加极端复杂,因此极大的降低了跟踪的性能。
[0004]专利1:《一种鲁棒的基于深度学习的单目标跟踪方法》 CN201910882990.9。其设计要点是通过设置阈值决定是否启动模板更新,并利用置信度更新模板,通过利用目标的变化及时更新特征,以此来避免了由于更新模板带来的错误跟踪。专利2:《一种基于多特征的单目标跟踪方法》,CN110807794A。其设计采用相关滤波器跟踪方法分别对卷积特征和差分图像特征进行相关操作,对相关操作得到的响应图进行融合后,以融合结果为动态目标坐标修正依据对目标进行跟踪。

技术实现思路

[0005]现有技术的缺点如下:专利1:《一种鲁棒的基于深度学习的单目标跟踪方法》,其设计的主要缺点是采用跟踪的得分设定阈值来更新目标的模板,但是一旦附近有多个同属性的目标,极有可能跟踪到其他目标同时依旧具有较高的置信度,导致在接下来的模板更新错误,则彻底跟丢目标;专利2:《一种基于多特征的单目标跟踪方法》,其设计的主要缺点是依旧使用的是传统的目标跟踪算法,当目标出现较大的形变以及光照变化、遮挡的时候,目标依旧会跟丢,带来后续的误报等情况。
[0006]本专利技术的目的在于,克服现有技术存在的技术缺陷,解决上述技术问题,提出一种复杂场景下单目标跟踪系统、方法、电子设备及存储介质,该系统及方法通过利用当前最新的基于深度学习的单目标跟踪算法和再识别网络,创新性的将二者结合在一起,极大的提升了目标在干扰、光照、剧烈形变等极端情况下稳定跟踪的性能,同时采用阈值反馈调整搜索区域,当目标短暂性消失后再次,该系统及方法依旧可以实现识别并且稳定跟踪的能力。
[0007]本专利技术具体采用如下技术方案:复杂场景下单目标跟踪系统,包括:
[0008]预处理模块,用于执行:根据传入的违规模板边框对初始的目标帧以及后续的视频帧进行处理,得到模板区域和搜索区域;将目标模板区域传入再识别网络,得到目标的初
始特征;
[0009]跟踪初筛模块,用于执行:获取所述预处理模块的模板区域和搜索区域,将二者传入深度学习的单目标跟踪算法,然后通过NMS算法筛选出置信度高的前10个候选跟踪框,然后将前10个候选跟踪框传入特征对比模块;
[0010]特征对比模块,用于执行:分别比较前10个候选跟踪框与目标初始特征的余弦相似度,根据相似度选出最佳的目标跟踪框;
[0011]阈值联动模块,用于执行:根据输出候选边框的置信度,来调整所述预处理模块中的候选模板区域和搜索区域的大小。
[0012]本专利技术还提出复杂场景下单目标跟踪方法,包括如下步骤:
[0013]预处理步骤,具体包括:根据传入的违规模板边框对初始的目标帧以及后续的视频帧进行处理,得到模板区域和搜索区域;将目标模板区域传入再识别网络,得到目标的初始特征;
[0014]跟踪初筛步骤,具体包括:获取所述预处理步骤的模板区域和搜索区域,将二者传入深度学习的单目标跟踪算法,然后通过NMS算法筛选出置信度高的前10个候选跟踪框,然后将前10个候选跟踪框传入特征对比步骤;
[0015]特征对比步骤,具体包括:分别比较前10个候选跟踪框与目标初始特征的余弦相似度,根据相似度选出最佳的目标跟踪框;
[0016]阈值联动步骤,具体包括:根据输出候选边框的置信度,来调整所述预处理步骤中的候选模板区域和搜索区域的大小。
[0017]作为一种较佳的实施例,所述预处理步骤具体包括:
[0018]步骤SS11:使用目标检测算法对视频流进行检测,或者手动选定视频流当前帧Frame
init
中的跟踪目标,得到跟踪目标的边框 B
init
=(x,y,w,h),并且将模板区域进行裁剪,得到目标O_crop;
[0019]步骤SS12:得到视频流中的图像的RGB三通道 (R
mean
,G
mean
,B
mean
),RGB三通道均值为:RGB
mean
=(R
mean
+G
mean
+B
mean
)/3;
[0020]步骤SS13:根据公式(1)、公式(2)分别计算模板区域、搜索区域的大小;以边框B
init
的中心为中心点,从原图中裁剪出长宽均为 z_sz的正方形,然后通过插值算法将该正方形尺寸调整为(127,127),得到模板图片Z_crop,同理,根据上一帧跟踪框传出的边框的中心的为中心,从当前帧裁剪出长宽均为x_sz的正方形,然后通过插值算法将该正方形调整为(271,271),得到搜索区域X_crop;一旦裁剪超过图像边界,则使用步骤SS12中的均值RGB
mean
进行像素的填充,保证裁剪得到的区域位于图像内部;
[0021][0022]x_sz=z_sz*271/127
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0023]其中,x为初始框中心点横坐标,y为初始框中心的纵坐标,w 为初始框宽度,h为初始框高度。
[0024]作为一种较佳的实施例,所述跟踪初筛步骤具体包括:
[0025]步骤SS21:收集单目标跟踪所需的数据集,包括COCO、GOT10K、 VOT2020、LASOT、TrackingNet、VID、DET、YOUTUBEBB、UAV123共九个数据集进行神经网络的训练;
[0026]步骤SS22:训练得到基于深度学习的单目标跟踪模型;
[0027]步骤SS23:将模板区域和搜索区域分别传入步骤SS22中的单目标跟踪模型,得到一系列的候选边框和对应的置信度,然后通过NMS 算法,根据置信度从大到小进行排序,选取前10个边框,得到跟踪边框的候选集{(B1,Score
tracking1
),(B2,Score
tracking2
)...(B
10
,Score
tracking10
)};其中B 代表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.复杂场景下单目标跟踪系统,其特征在于,包括:预处理模块,用于执行:根据传入的违规模板边框对初始的目标帧以及后续的视频帧进行处理,得到模板区域和搜索区域;将目标模板区域传入再识别网络,得到目标的初始特征;跟踪初筛模块,用于执行:获取所述预处理模块的模板区域和搜索区域,将二者传入深度学习的单目标跟踪算法,通过NMS算法筛选出置信度高的前10个候选跟踪框,然后将前10个候选跟踪框传入特征对比模块;特征对比模块,用于执行:分别比较前10个候选跟踪框与目标初始特征的余弦相似度,根据相似度选出最佳的目标跟踪框;阈值联动模块,用于执行:根据输出候选边框的置信度,来调整所述预处理模块中的候选模板的搜索区域的大小。2.复杂场景下单目标跟踪方法,其特征在于,包括如下步骤:预处理步骤,具体包括:根据传入的违规模板边框对初始的目标帧以及后续的视频帧进行处理,得到模板区域和搜索区域;将目标模板区域传入再识别网络,得到目标的初始特征;跟踪初筛步骤,具体包括:获取所述预处理步骤的模板区域和搜索区域,将二者传入深度学习的单目标跟踪算法,然后通过NMS算法筛选出置信度高的前10个候选跟踪框,然后将前10个候选跟踪框传入特征对比步骤;特征对比步骤,具体包括:分别比较前10个候选跟踪框与目标初始特征的余弦相似度,根据相似度选出最佳的目标跟踪框;阈值联动步骤,具体包括:根据输出候选边框的置信度,来调整所述预处理步骤中的候选模板的搜索区域的大小。3.根据权利要求2所述的复杂场景下单目标跟踪方法,其特征在于,所述预处理步骤具体包括:步骤SS11:使用目标检测算法对视频流进行检测,或者手动选定视频流当前帧Frame
init
中的跟踪目标,得到跟踪目标的边框B
init
=(x,y,w,h),并且将模板区域进行裁剪,得到目标O_crop;步骤SS12:得到视频流中的图像的RGB三通道(R
mean
,G
mean
,B
mean
),RGB三通道均值为:RGB
mean
=(R
mean
+G
mean
+B
mean
)/3;步骤SS13:根据公式(1)、公式(2)分别计算模板区域、搜索区域的大小;以边框B
init
的中心为中心点,从原图中裁剪出长宽均为z_sz的正方形,然后通过插值算法将该正方形尺寸调整为(127,127),得到模板图片Z_crop,同理,根据上一帧跟踪框传出的边框的中心的为中心,从当前帧裁剪出长宽均为x_sz的正方形,然后通过插值算法将该正方形调整为(271,271),得到搜索区域X_crop;一旦裁剪超过图像边界,则使用步骤SS12中的均值RGB
mean
进行像素的填充,保证裁剪得到的区域位于图像内部;x_sz=z_sz*271/127
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,x为初始框中心点横坐标,y为初始框中心的纵坐标,w为初始框宽度,h为初始框
高度。4.根据权利要求2所述的复杂场景下单目标跟踪方法,其特征在于,所述跟踪初筛步骤具体包括:步骤SS21:收集单目标跟踪所需的数据集,包括COCO、GOT10K、VOT2020、LASOT、TrackingNet、VID、DET、YOUTUBEBB、UAV123共九个数据集进行神经网络的训练;步骤SS22:根据单目标跟踪算法siamcar,训练得到基于深度学习的单目标跟踪模型;步骤SS23:将模板区...

【专利技术属性】
技术研发人员:苏晋鹏曹颂钟星
申请(专利权)人:杭州图灵视频科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1