当前位置: 首页 > 专利查询>武汉大学专利>正文

基于孪生网络在线更新的单目标跟踪方法及装置制造方法及图纸

技术编号:30756508 阅读:52 留言:0更新日期:2021-11-10 12:10
本发明专利技术提供一种基于孪生网络在线更新的单目标跟踪方法及装置。考虑到孪生网络存在一个明显的弊端,它始终采用的是序列的第一帧目标作为跟踪对象,在跟踪过程中没有考虑到目标的变化,当目标发生比较大的形变时,容易产生漂移导致跟踪失败。为了解决这种目标形变问题,本发明专利技术动态的将跟踪过程中的其他帧加入进来在线更新卷积滤波器,以此缓解目标形变导致的跟踪漂移问题,从而使得跟踪精度得到了巨大提升。提升。提升。

【技术实现步骤摘要】
基于孪生网络在线更新的单目标跟踪方法及装置


[0001]本专利技术涉及计算机视觉应用
,尤其涉及一种基于孪生网络在线更新的单目标跟踪方法及装置。

技术介绍

[0002]视觉目标跟踪是计算机视觉中一个重要研究方向,在军事无人飞行器、精确制导、空中预警、民用视频监控、人机交互和无人驾驶等众多领域有着极其广泛的应用。随着图像处理器(GPU)技术愈发成熟,深度学习在图像处理众多任务中均取得突破性进展,而基于深度学习的目标跟踪算法发展十分迅速,对于解决目标跟踪算法因尺度变化、遮挡、背景复杂、目标消失等原因导致跟踪失败的情况提供了相对于传统方法更好的方案。其中,孪生网络在基于深度学习的单目标跟踪领域得到了广泛的应用。但是孪生网络也存在一个明显的弊端,它始终采用的是序列的第一帧目标作为跟踪对象,在跟踪过程中没有考虑到目标的变化,当目标发生比较大的形变时,容易产生漂移导致跟踪失败。

技术实现思路

[0003]为解决现有技术中存在的技术问题,本专利技术提供一种基于孪生网络在线更新的单目标跟踪方法及装置。
[0004]第一方面,本专利技术提供一种基于孪生网络在线更新的单目标跟踪方法,所述基于孪生网络在线更新的单目标跟踪方法包括:
[0005]训练过程:
[0006]步骤S10,构建孪生网络模型,孪生网络模型包含模板分支、搜索分支以及共享网络;
[0007]步骤S20,通过共享网络得到模板分支对应每个模板图像的深度语义特征以及搜索分支对应的搜索图像对应的深度语义特征;
[0008]步骤S30,将所有模板图像的深度语义特征进行通道维度的拼接,得到拼接深度语义特征,通过若干1*1大小的卷积核对拼接深度语义特征的通道数进行调整,得到新的拼接深度语义特征,使用注意力机制对新的拼接深度语义特征进行强化处理,将强化处理的结果与第一帧模板图像的深度语义特征相加求和,得到模版分支融合后的深度语义特征;
[0009]步骤S40,将第一帧模板图像的深度语义特征、最后一帧模板图像的深度语义特征以及模版分支融合后的深度语义特征分别与搜索图像对应的深度语义特征进行互相关操作,得到三个相关特征图,通过两个1*1大小的卷积核分别对三个相关特征图的通道数进行调整,分别得到三个相关特征图对应的分类分数预测值以及位置预测值;
[0010]步骤S50,将三个相关特征图对应的分类分数预测值以及位置预测值分别取平均,得到最终的分类分数值以及位置预测值,结合目标实际位置计算位置损失以及分类损失,通过优化算法最小化损失训练得到网络权重;
[0011]重复执行步骤S10至步骤S50,直至满足停止条件时,停止训练,得到训练完成的孪
生网络模型;
[0012]测试过程:
[0013]基于训练完成的孪生网络模型,执行步骤S20至S40,对三个相关特征图对应的分类分数预测值以及位置预测值取均值,得到跟踪结果。
[0014]可选的,在训练过程中,模板分支对应的模板图像包括从样本视频中随机选择的4张图像,搜索分支对应的搜索图像为样本视频中选定的一张随机图像;在测试过程中,当测试第一帧模板图像时,模板分支对应的4张模板图像均为第一帧图像,之后跟踪目标的过程中会逐步将当前图像替换进去,替换规则为:假设模板分支对应的图片样本集为w
i
,上一帧所跟踪目标w
C
得到的最大响应分数为score,分数替换阈值为t,当score≥t,将w1替换为w
C
,如果score<t,样本集不变,保持w0不被替换,其他的图像则是最久没有被替换的优先替换,搜索分支对应的搜索图像则为当前图像。
[0015]可选的,所述将所有模板图像的深度语义特征进行通道维度的拼接,得到拼接深度语义特征,通过若干1*1大小的卷积核对拼接深度语义特征的通道数进行调整的步骤包括:
[0016]采用3个1*1的卷积核对拼接深度语义特征的通道数进行调整,卷积核通道数分别是1024,128,256,过程如下:
[0017][0018]其中,concat为拼接操作,w0,w1,w2,w3分别为每个模板图像对应的深度语义特征,通过concat对每个模板图像对应的深度语义特征进行拼接,得到拼接深度语义特征,conv1对应第一个通道数为1024的1*1卷积核,conv2对应第二个通道数为128的1*1卷积核,conv3对应第三个通道数为256的1*1卷积核,利用conv1、conv2、conv3将拼接深度语义特征的通道数调整成256。
[0019]可选的,所述注意力机制包含三个分支,对于第一个分支,输入特征经过Z

Pool,再接着7x7卷积,最后Sigmoid激活函数生成通道注意力权重;对于第二个分支,输入特征先经过permute操作将维度调整为H*C*W维度特征,接着在H维度上进行Z

Pool,再接着7x7卷积,然后Sigmoid激活函数生成通道注意力权重,最后经过permute操作变为C*H*W维度特征,方便进行element

wise相加;对于第三个分支,输入特征先经过permute操作变为W*H*C维度特征,接着在W维度上进行Z

Pool,再接着7x7卷积,然后Sigmoid激活函数生成通道注意力权重,最后经过permute操作变为C*H*W维度特征,方便进行element

wise相加;其中Z

Pool对应如下:
[0020]Z

Pool(χ)=[MaxPool
0d
(χ),AvgPool
0d
(χ)][0021]其中,MaxPool
0d
为针对第一维进行最大池化操作,AvgPool
0d
为针对第一维进行平均池化操作,χ对应的是输入特征。
[0022]可选的,所述将第一帧模板图像的深度语义特征、最后一帧模板图像的深度语义特征以及模版分支融合后的深度语义特征分别与搜索图像对应的深度语义特征进行互相关操作,得到三个相关特征图的步骤包括:
[0023]将第一帧模板图像对应的深度语义特征w0和搜索图像对应的深度语义特征进行互相关操作,用函数ψ表示互相关操作,则得到的相关特征图为其中ξ对应共享网络;
[0024]将最后一帧模板图像对应的深度语义特征w3和搜索图像对应的深度语义特征进行互相关操作,用函数ψ表示互相关操作,则得到的相关特征图为其中ξ对应共享网络;
[0025]将模版分支融合后的深度语义特征m和搜索图像对应的深度语义特征进行互相关操作,用函数ψ表示互相关操作,则得到的相关特征图为其中ξ对应共享网络。
[0026]第二方面,本专利技术还提供一种基于孪生网络在线更新的单目标跟踪装置,所述基于孪生网络在线更新的单目标跟踪装置包括:
[0027]训练模块,用于进行训练过程,训练过程包括:
[0028]步骤S10,构建孪生网络模型,孪生网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于孪生网络在线更新的单目标跟踪方法,其特征在于,所述基于孪生网络在线更新的单目标跟踪方法包括:训练过程:步骤S10,构建孪生网络模型,孪生网络模型包含模板分支、搜索分支以及共享网络;步骤S20,通过共享网络得到模板分支对应每个模板图像的深度语义特征以及搜索分支对应的搜索图像对应的深度语义特征;步骤S30,将所有模板图像的深度语义特征进行通道维度的拼接,得到拼接深度语义特征,通过若干1*1大小的卷积核对拼接深度语义特征的通道数进行调整,得到新的拼接深度语义特征,使用注意力机制对新的拼接深度语义特征进行强化处理,将强化处理的结果与第一帧模板图像的深度语义特征相加求和,得到模版分支融合后的深度语义特征;步骤S40,将第一帧模板图像的深度语义特征、最后一帧模板图像的深度语义特征以及模版分支融合后的深度语义特征分别与搜索图像对应的深度语义特征进行互相关操作,得到三个相关特征图,通过两个1*1大小的卷积核分别对三个相关特征图的通道数进行调整,分别得到三个相关特征图对应的分类分数预测值以及位置预测值;步骤S50,将三个相关特征图对应的分类分数预测值以及位置预测值分别取平均,得到最终的分类分数值以及位置预测值,结合目标实际位置计算位置损失以及分类损失,通过优化算法最小化损失训练得到网络权重;重复执行步骤S10至步骤S50,直至满足停止条件时,停止训练,得到训练完成的孪生网络模型;测试过程:基于训练完成的孪生网络模型,执行步骤S20至S40,对三个相关特征图对应的分类分数预测值以及位置预测值取均值,得到跟踪结果。2.如权利要求1所述的基于孪生网络在线更新的单目标跟踪方法,其特征在于,在训练过程中,模板分支对应的模板图像包括从样本视频中随机选择的4张图像,搜索分支对应的搜索图像为样本视频中选定的一张随机图像;在测试过程中,当测试第一帧模板图像时,模板分支对应的4张模板图像均为第一帧图像,之后跟踪目标的过程中会逐步将当前图像替换进去,替换规则为:假设模板分支对应的图片样本集为w
i
,上一帧所跟踪目标w
c
得到的最大响应分数为score,分数替换阈值为t,当score≥t,将w1替换为w
c
,如果score<t,样本集不变,保持w0不被替换,其他的图像则是最久没有被替换的优先替换,搜索分支对应的搜索图像则为当前图像。3.如权利要求1所述的基于孪生网络在线更新的单目标跟踪方法,其特征在于,所述将所有模板图像的深度语义特征进行通道维度的拼接,得到拼接深度语义特征,通过若干1*1大小的卷积核对拼接深度语义特征的通道数进行调整的步骤包括:采用3个1*1的卷积核对拼接深度语义特征的通道数进行调整,卷积核通道数分别是1024,128,256,过程如下:
其中,concat为拼接操作,w0,w1,w2,w3分别为每个模板图像对应的深度语义特征,通过concat对每个模板图像对应的深度语义特征进行拼接,得到拼接深度语义特征,conv1对应第一个通道数为1024的1*1卷积核,conv2对应第二个通道数为128的1*1卷积核,conv3对应第三个通道数为256的1*1卷积核,利用conv1、conv2、conv3将拼接深度语义特征的通道数调整成256。4.如权利要求3所述的基于孪生网络在线更新的单目标跟踪方法,其特征在于,所述注意力机制包含三个分支,对于第一个分支,输入特征经过Z

Pool,再接着7x7卷积,最后Sigmoid激活函数生成通道注意力权重;对于第二个分支,输入特征先经过permute操作将维度调整为H*C*W维度特征,接着在H维度上进行Z

Pool,再接着7x7卷积,然后Sigmoid激活函数生成通道注意力权重,最后经过permute操作变为C*H*W维度特征,方便进行element

wise相加;对于第三个分支,输入特征先经过permute操作变为W*H*C维度特征,接着在W维度上进行Z

Pool,再接着7x7卷积,然后Sigmoid激活函数生成通道注意力权重,最后经过permute操作变为C*H*W维度特征,方便进行element

wise相加;其中Z

Pool对应如下:Z

Pool(χ)=[MaxPool
0d
(χ),AvgPool
0d
(χ)]其中,MaxPool
0d
为针对第一维进行最大池化操作,AvgPool
0d
为针对第一维进行平均池化操作,χ对应的是输入特征。5.如权利要求1所述的基于孪生网络在线更新的单目标跟踪方法,其特征在于,所述将第一帧模板图像的深度语义特征、最后一帧模板图像的深度语义特征以及模版分支融合后的深度语义特征分别与搜索图像对应的深度语义特征进行互相关操作,得到三个相关特征图的步骤包括:将第一帧模板图像对应的深度语义特征w0和搜索图像对应的深度语义特征进行互相关操作,用函数ψ表示互相关操作,则得到的相关特征图为其中ξ对应共享网络;将最后一帧模板图像对应的深度语义特征w3和搜索图像对应的深度语义特征进行互相关操作,用函数ψ表示互相关操作,则得到的相关特征图为其中ξ对应共享网络;将模版分支融合后的深度语义特征m和搜索图像对应的深度语义特征进行互相关操作,用函数ψ表示互相关操作,则得到的相关特征图为其中ξ对应共享网络。6.一种基于孪生网络在线更新的单目标跟踪装置,...

【专利技术属性】
技术研发人员:汪鼎文黄佳新陈曦瞿涛
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1