【技术实现步骤摘要】
基于解耦分类与回归特征的目标跟踪方法及跟踪器
[0001]本专利技术属于视觉目标跟踪方法的
,特别涉及基于孪生神经网络的视觉目标跟踪方法。
技术介绍
[0002]视觉目标跟踪(VOT)即是在给定某视频序列初始帧的目标大小与位置的情况下,预测后续帧中该目标轨迹和/或状态的过程,其手段通常为:针对包含丰富视觉信息的视频序列,输入初始化目标框,并在下一帧中产生众多候选框,提取候选框的特征,并对候选框评分,以得分最高的候选框作为预测的目标,或进一步的,对多个候选框的预测结果进行融合得到更优的预测目标。
[0003]近来,在视觉目标跟踪方法领域研究较多的为基于孪生(Siamese)网络的目标跟踪器,该类目标跟踪器可将视觉跟踪任务表示为相似性匹配问题,通过目标分支和搜索分支之间的卷积特征互相关实现相似性学习,获得目标跟踪结果。但是,以上过程需要预先确定目标特征区域的大小,在互相关操作中会保留大量不利的背景信息或丢失大量的前景信息,匹配过程中还会损失目标结构等细微信息,导致跟踪结果的准确性会受到目标尺度变化和/或复杂背景区域干扰的局限,在复杂场景如跟踪目标存在旋转变化、尺度缩放、复杂形变等情况下实用性差,难以获得准确性高、稳健性好的跟踪结果。
技术实现思路
[0004]针对现有技术的缺陷,本专利技术的目的在于提出一种可适用于不同类型监控视频,特别是视频序列中背景区域复杂,跟踪目标存在的旋转变化、尺度放缩以及形变等复杂情形下的目标跟踪方法,实现在复杂场景中的高准确性和稳健性的目标跟踪。
[000 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.基于解耦分类与回归特征的目标跟踪方法,其特征在于,其包括:S1自视频序列的初始帧图像中划分得到目标模板区域图像T,自视频序列的当前帧图像中划分得到目标搜索区域图像X;S2通过根据两个Resnet50网络即第一Resnet50网络和第二Resnet50网络构建的孪生神经网络对所述目标模板区域图像T和目标搜索区域图像X分别进行深度特征提取,根据两个Resnet50网络中不同残差模块对应获得多个不同级别的目标模板区域图像特征T
i
和目标搜索区域图像特征X
i
,其中i表示级别值;S3对所得多个不同级别的目标模板区域图像特征T
i
和目标搜索区域图像特征X
i
按级别分别进行基于transformer多头交叉注意力机制的全局非线性融合,得到各级别第一融合特征,即各级别解耦分类特征c
i
;S4将所得多个不同级别的目标模板区域图像特征T
i
和目标搜索区域图像特征X
i
按级别分别进行基于逐通道卷积的局部线性融合,得到各级别的第二融合特征,即各级别解耦回归特征r
i
;S5对所述各级别解耦分类特征c
i
分别使用基于transformer多头自注意力机制的编码处理,得到各级别编码解耦分类特征c
′
i
;S6对所述各级别解耦回归特征r
i
分别进行基于残差卷积的编码处理,得到各级别编码解耦回归特征r
′
i
;S7通过sigmoid函数对所述各级别编码解耦分类特征c
′
i
进行分类评分,得到各级编码解耦分类特征的分类得分图C
i
,对各级编码解耦分类特征的分类得分图C
i
进行自适应权重加和,得到预测分类得分图C;S8将所述各级别编码解耦回归特征r
′
i
分别进行卷积处理,得到各级别回归图R
i
,将所得各级别回归图R
i
进行自适应权重加和,得到目标边境框R,根据所述预测分类得分图C中得分最大位置处的级别值i及权重向量的序数j值,在目标边境框R内确定目标在当前帧的预测状态。2.根据权利要求1所述的目标跟踪方法,其特征在于,所述S1进一步包括:S11以视频序列中初始帧和当前帧图像的左上角为原点,以向下延伸方向为Y轴正方向,向右延伸方向为X轴正方向,分别建立初始帧和当前帧图像的二维坐标系;S12在具有二维坐标系的初始帧图像中,以给定的初始跟踪目标中心为中心,裁剪出空间分辨率为128
×
128像素的图像,作为目标模板区域图像T;S13在具有二维坐标系的当前帧图像中,以根据其上一帧图像预测得到的跟踪目标中心为中心,裁剪出空间分辨率为256
×
256像素的图像,作为目标搜索区域图像X。3.根据权利要求1所述的目标跟踪方法,其特征在于,所述不同级别的目标模板区域图像特征T
i
包括自第一ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标模板区域图像特征f
i
(T),即T
i
=f
i
(T),i=3,4,5;所述不同级别的目标搜索区域图像特征X
i
包括自第二ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标搜索区域图像特征f
i
(X),即X
i
=f
i
(X),i=3,4,5。4.根据权利要求4所述的目标跟踪方法,其特征在于,所述基于transformer多头交叉注意力机制的全局非线性融合包括:S31使用多个第一单层全连接网络l
1i
()将不同级别的目标模板区域图像特征T
i
分别线
性映射为查询向量q
i
,即q
i
=l
1i
(T
i
),i=3,4,5;S32使用多个第二单层全连接网络l
2i
()将不同级别的目标搜索区域图像特征X
i
分别线性映射为关键向量k
i
,即k
i
=l
2i
(X
i
),i=3,4,5;S33使用多个第三单层全连接网络l
3i
()将不同级别的目标搜索区域图像特征X
i
分别线性映射为值向量v
i
,即v
i
=l
3i
(X
i
),i=3,4,5;S34对所得查询向量q
i
和关键向量k
i
分别进行正弦空间位置嵌入,得到位置向量q
′
i
和k
′
i
;S35将所得值向量v
i
、位置向量q
′
i
和k
′
i
,使用基于transformer多头交叉注意力机制模型MultiHC
i
()进行全局非线性融合,得到的第一融合特征即所述各级别解耦分类特征c
i
,即c
i
=MultiHC
i
(q
′
i
,k
′
i
,v
i
),i=3,4,5。5.根据权利要求4所述的目标跟踪方法,其特征在于,所述基于逐通道卷积的局部线性融合包括:S41将所述多个不同级别的目标模板区域图像特征T
i
分别使用多个第一卷积网络φ
1i
()进行线性映射,得到特征向量T
i
',即T
i
'=φ
1i
(T
i
),i=3,4,5,其中,第一卷积网络φ
1i
()包括单一卷积层,其包含一个大小为1
×
技术研发人员:陈程立诏,李潞铭,宋梦柯,宋佳,胡诗语,卢博,赵一汎,王子铭,张明月,杨龙燕,崔爽锌,薛子玥,刘新宇,梁少峰,朱晓东,尹涵冰,张钰,袁千禧,刘伊凡,崔奇,
申请(专利权)人:中国石油大学华东,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。