基于双模板特征融合的孪生网络目标跟踪方法技术

技术编号:33783748 阅读:19 留言:0更新日期:2022-06-12 14:38
本发明专利技术公开一种基于双模板特征融合的孪生网络目标跟踪方法,包括:步骤1,获取特征提取网络特征提取网络步骤2,获取跟踪视频,对第一帧、第二帧手动选取目标区域分别输入到特征提取网络得到深度特征和深度特征从第三帧起,将当前帧的搜索区域分别输入至特征提取网络和特征提取网络中,分别得到浅层特征和深层特征步骤3,利用利用分别对当前帧搜索区域的浅层特征和深层特征做相似性度量,获得的响应图h1(Z1,S

【技术实现步骤摘要】
基于双模板特征融合的孪生网络目标跟踪方法


[0001]本专利技术属于目标跟踪
,涉及一种基于双模板特征融合的孪生网络目标跟踪方法。

技术介绍

[0002]在计算机视觉领域中,目标跟踪一直是当前的重要课题和研究方向。目标跟踪的主要内容就是在给定某视频序列初始帧中目标信息的情况下,在后续帧中预测出该目标的位置及大小等关键信息。目标跟踪广泛应用于视频监控、智能交通、人机交互、自主导航等多个领域,具有重要的理论研究价值和工程应用价值。
[0003]基于孪生网络的目标跟踪方法是现在目标跟踪方法的主流,该方法能很好地平衡精准性和实时性。孪生网络结构的主要思想是找到一个可以将输入的图片映射到高维空间的函数,使得目标空间中的简单距离近似于输入空间的“语义”距离。该网络过去主要用于度量学习,用来计算图像、声音、文本等信息的相似性。孪生网络目标跟踪实际上是相似性学习的过程,将目标初始帧和后续帧图像输入到权值共享的深度学习网络,得到二者的相似度响应图,确定目标的位置。现有的基于孪生网络的目标跟踪方法一般只采用一个模板图像,没有考虑到模板图像不可靠的问题,不能很好地跟踪目标;另外现有方法中只采用同一种深度学习网络提取特征,输出太过单一,并且使用层数较少的深度网络时不能很好地挖掘到跟踪目标的深层语义信息。

技术实现思路

[0004]本专利技术的目的是提供一种基于双模板特征融合的孪生网络目标跟踪方法,解决了孪生网络目标跟踪方法易受到模板图像不可靠或对目标外观变化不鲁棒而导致跟踪失败的问题。
[0005]本专利技术所采用的技术方案是:
[0006]基于双模板特征融合的孪生网络目标跟踪方法,具体步骤如下:
[0007]步骤1,将训练好的AlexNet网络和改进的AlexNet网络分别作为孪生网络的特征提取网络特征提取网络
[0008]步骤2,获取跟踪视频,对第一帧手动选取目标区域输入到特征提取网络得到深度特征对第二帧手动选取目标区域输入到特征提取网络得到深度特征从第三帧起,根据上一帧的目标大小确定当前帧的搜索区域并分别输入至特征提取网络和特征提取网络中,分别得到当前帧搜索区域的浅层特征和深层特征
[0009]步骤3,利用模板深度特征分别对当前帧搜索区域的浅层特征和深层特征做相似性度量,获得响应图h1(Z1,S
t
)、h2(Z1,S
t
)、h1(Z2,S
t
)和h2(Z2,
S
t
);
[0010]步骤4,通过对响应图加权融合、判断可靠性得到最终的响应图,最终响应图的最大值点就是目标所在位置。
[0011]本专利技术的特点还在于:
[0012]步骤1中AlexNet网络由依次连接的5个卷积层组成,前两个卷积层后面分别连接一个最大池化层,其中前4个卷积层后面都有随机失活层和RELU非线性激活函数。
[0013]步骤1中改进的AlexNet网络包括依次连接的8个卷积层和2个池化层组成,在第两个卷积层和第四个卷积层后面分别连接一个最大池化层,在前7个卷积层后面都有随机失活层和RELU非线性激活函数。
[0014]步骤2具体的为:
[0015]步骤2.1,获取跟踪视频,在视频的第一帧手动选取目标所在区域;令(x1,y1)为第一帧中目标的中心点坐标,w1和h1分别为第一帧目标区域的宽和高;以第一帧中目标的中心点为中心,截取边长为sz1的正方形区域,sz1计算公式为:
[0016][0017]其中p1=(w1+h1)/4,表示填充量,如果该正方形区域大小超出图像尺寸大小,则超出部分用图像均值填充;
[0018]在第二帧上手动选取目标所在区域,令(x2,y2)为第二帧中目标的中心点坐标,w2和h2分别为第二帧目标区域的宽和高,以第二帧中目标的中心点为中心,截取边长为sz2的正方形区域,sz2的计算公式如下:
[0019][0020]其中p2=(w2+h2)/4,表示填充量,如果该正方形区域大小超出图像尺寸大小,则超出部分用图像均值填充;
[0021]步骤2.2,将边长sz1和sz2的正方形区域缩放到127
×
127大小,得到第一帧和第二帧的目标区域Z1、Z2;
[0022]步骤2.3,将第一帧和第二帧的模板目标区域Z1和Z2输入到特征提取网络中得到尺寸为w
×
h
×
C的深度特征和
[0023]步骤2.4,从第三帧开始作为后续帧(t>2),利用上一帧的跟踪目标坐标位置(x
t
‑1,y
t
‑1)和宽高(w
t
‑1,h
t
‑1)截取边长为sx的正方形区域,sx的计算公式如下:
[0024][0025]其中p
t
‑1=(w
t
‑1+n
t
‑1)/4,表示填充量;如果该正方形区域大小超出图像尺寸大小,则超出部分用图像均值填充;
[0026]步骤2.5,将sx的正方形区域缩放到255
×
255大小,得到当前帧的搜索区域S
t
,并输入到特征提取网络中得到当前帧搜索区域的浅层特征和深层特征
[0027]步骤3具体的为:
[0028]步骤3.1,模板帧的深度特征在当前帧搜索区域的浅层特征
和深层特征滑动操作,每一次滑动操作,当前帧搜索区域浅层特征和深层特征总会存在一个和模板帧深度特征尺寸相同的区域和将模板特征在搜索特征上区域和模板特征展平为(w
×
h
×
C)
×
1的一维向量和
[0029]步骤3.2,求解余弦相似度,公式如下:
[0030][0031][0032][0033][0034]步骤3.3,通过余弦相似度度量方式获得的响应图h1(Z1,S
t
)、h2(Z1,S
t
)、h1(Z2,S
t
)和h2(Z2,S
t
)分别为:
[0035]h1(Z1,S
t
)
i,j
、h2(Z1,S
t
)
i,j
、h1(Z2,S
t
)
i,j
、h2(Z2,S
t
)
i,j
(i∈[1,2,...,17],j∈[1,2,...,17])的集合,h1(Z1,S
t
)、h2(Z1,S
t
)、h1(Z2,S
t
)和h2(Z2,S
t
)的表达方式可以写成如下形式:
[0036][0037][0038][0039][0040]其中*表示互相关度量操作。
[0041]滑动操作具体为模板帧的深度特征在搜索区域的特征上进行不重叠的滑动匹配,方向为由左到右,由上到下,不重叠表示每次移动的步长为模板帧深本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于双模板特征融合的孪生网络目标跟踪方法,其特征在于,具体步骤如下:步骤1,将训练好的AlexNet网络和改进的AlexNet网络分别作为孪生网络的特征提取网络特征提取网络步骤2,获取跟踪视频,对第一帧手动选取目标区域输入到特征提取网络得到深度特征对第二帧手动选取目标区域输入到特征提取网络得到深度特征从第三帧起,根据上一帧的目标大小确定当前帧的搜索区域并分别输入至特征提取网络和特征提取网络中,分别得到当前帧搜索区域的浅层特征和深层特征做相似性度量;步骤3,采用模板深度特征分别对当前帧搜索区域的浅层特征和深层特征做相似性度量,获得的响应图h1(Z1,S
t
)、h2(Z1,S
t
)、h1(Z2,S
t
)和h2(Z2,S
t
);步骤4,通过对响应图加权融合、判断可靠性得到最终的响应图,最终响应图的最大值点就是目标所在位置。2.如权利要求1所述的基于双模板特征融合的孪生网络目标跟踪方法,其特征在于,所述步骤1中AlexNet网络由依次连接的5个卷积层组成,前两个卷积层后面分别连接一个最大池化层,其中前4个卷积层后面都有随机失活层和RELU非线性激活函数。3.如权利要求1所述的基于双模板特征融合的孪生网络目标跟踪方法,其特征在于,所述步骤1中改进的AlexNet网络包括依次连接的8个卷积层和2个池化层组成,在第两个卷积层和第四个卷积层后面分别连接一个最大池化层,在前7个卷积层后面都有随机失活层和RELU非线性激活函数。4.如权利要求1所述的基于双模板特征融合的孪生网络目标跟踪方法,其特征在于,所述步骤2具体的为:步骤2.1,获取跟踪视频,在视频的第一帧手动选取目标所在区域;令(x1,y1)为第一帧中目标的中心点坐标,w1和h1分别为第一帧目标区域的宽和高;以第一帧中目标的中心点为中心,截取边长为sz1的正方形区域,sz1计算公式为:其中p1=(w1+h1)/4,表示填充量,如果该正方形区域大小超出图像尺寸大小,则超出部分用图像均值填充;在第二帧上手动选取目标所在区域,令(x2,y2)为第二帧中目标的中心点坐标,w2和h2分别为第二帧目标区域的宽和高,以第二帧中目标的中心点为中心,截取边长为sz2的正方形区域,sz2的计算公式如下:其中p2=(w2+h2)/4,表示填充量,如果该正方形区域大小超出图像尺寸大小,则超出部分用图像均值填充;步骤2.2,将边长sz1和sz2的正方形区域缩放到127
×
127大小,得到第一帧和第二帧的目标区域Z1、Z2;步骤2.3,将第一帧和第二帧的模板目标区域Z1和Z2输入到特征提取网络中得到
尺寸为w
×
h
×
C的深度特征和步骤2.4,从第三帧开始作为后续帧(t>2),利用上一帧的跟踪目标坐标位置(x
t
‑1,y
t
‑1)和宽高(w
t
‑1,h
t
‑1)截取边长为sx的正方形区域,sx的计算公式如下:其中p
t
‑1=(w
t
‑1+n
t
‑1)/4,表示填充量;如果该正方形区域大小超出图像尺寸大小,则超出部分用图像均值填充;步骤2.5,将sx的正方形区域缩放到255
×
255大小,得到当前帧的搜索区域S
t
,并输入到特征提取网络中得到当前帧搜索区域的浅层特征和深层特征5.如权利要求1所述的基于双模板特征融合的孪生网络目标跟踪方法,其特征在于,所述步骤3具体的为:步骤3.1,模板帧的深度特征在当前帧搜索区域的浅层特征和深层特征滑动操作,每一次滑动操作,当前帧搜索区域浅层特征和深层特征总会存在一个和模板帧深度特征尺寸相同的区域和将模板特征在搜索特征上区域和模板特征展平为(w
×
h
×
C)
×
1的一维向量和步骤3.2,求解余弦相似度,公式如下:步骤3.2,求解余弦相似度,公式如下:步骤3.2,求解余弦相似度,公式如下:步骤3.2,求解余弦相似度,公式如下:步骤3.3,通过余弦相似度度量方式获得的响应图h1(Z1,S

【专利技术属性】
技术研发人员:刘龙魏珍
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1