本发明专利技术请求保护一种基于CNN的三级信息融合视觉目标跟踪方法。包括以下步骤S1:提取模板图像和检测序列图像,进行图像预处理;S2:模板图像和检测图像作为两个分支同时输入网络,网络框架采用Siamese孪生网络;S3:网络选取改进后的VGG
【技术实现步骤摘要】
一种基于CNN的三级信息融合视觉目标跟踪方法
[0001]本专利技术属于图像处理与模式识别领域,特别是一种深度学习和孪生网络的视觉目标跟踪方法。
技术介绍
[0002]视觉目标跟踪作为图像处理与模式识别的重要分支,是人工智能中具有重要研究意义的课题。其任务是指定当前图像序列中的一个特定目标,在随后图像序列播放过程中,使用矩形边界框将该特定目标锁定,实现跟踪效果。当前该方向已经发展到基于深度学习解决非约束环境下的跟踪问题。随着5G技术的普及与计算机算力的加强,视觉目标技术受到了更多的重视,其应用场景也更为广阔。智能服务机器人通过摄像头采集视频信号,然后确定跟踪目标,最后自动地对目标进行跟踪并提供相应的服务。在汽车行驶过程中,判断车辆和周围事物的运动状态,对汽车的速度和行进轨迹进行调整。当前的医疗影响涵盖丰富的人体信息,诗句目标跟踪可以找到对应的目标信息,在整个医疗影像中进行跟踪,从而实现更精准的临床诊断。除此之外,视觉目标跟踪技术在人机交互、视觉导航、农业自动化生产等领域有着至关重要的地位。
技术实现思路
[0003]针对现有技术的不足,本专利技术提出了一种具有更高准确率、鲁棒性的视觉目标跟踪方法。
[0004]为了实现上述目的,本专利技术采用的技术方案是,一种基于CNN的三级信息融合视觉目标跟踪方法,包括以下步骤:
[0005]S1:对当前序列图像,提取模板图像和检测图像,进行图像预处理。
[0006]S2:采用Siamese孪生网络构建整体网络框架,将模板图像和检测图像分别输入两个相同的分支网络进行同步处理,分支网络采用改进后的VGG-11网络。 VGG-11相比Siamese框架自带的AlexNet能够带来更好的特征提取能力,提升系统的性能。
[0007]S3:改进后的VGG-11网络采用三级网络融合策略,将整个网络分为浅层、中层、深层三个部分,通过CNN分别提取三个部分的各层卷积特征,对每个部分的各层卷积特征进行融合,得到特征图。
[0008]S4:对两个分支网络中三个部分的特征图,按照浅层、中层、深层三个层次分别进行相关操作,构建三个层次的得分图。
[0009]S5:对步骤S4中三个层次的得分图进行融合,构建出最终得分图。
[0010]S6:使用最终得分图输出跟踪结果。
[0011]本专利技术通过三级融合策略,浅层的外观特征将和深层的语义特征相融合,共同构建当前目标的特征图,能够在准确分类的情况下实现更精准的定位。步骤S5通过三级融合策略获得的融合特征图,将在得分图这一维度进行进一步融合,以达到充分利用各级别特征信息的目的。
[0012]在测试数据集OTB2015中,本方法获得了0.886的准确率和0.655的成功率,相比同样的Siamese框架跟踪器分别提升9.52%和7.91%。;在测试数据集 VOT2016中,本方法获得了0.3896的准确率和15.7913的鲁棒性,相比同框架跟踪器分别提升14.22%和21.56%。所以本专利技术具有更高准确率、鲁棒性。
附图说明
[0013]图1为Siamese网络框图;
[0014]图2为VGG-11网络;
[0015]图3为浅层到深层特征尺寸变化图;
[0016]图4为三级信息融合流程图。
具体实施方式
[0017]参见图1,一种基于CNN的三级信息融合视觉目标跟踪方法,其包括以下步骤:
[0018]S1:对当前序列图像,选取第一帧为模板图像,后续帧为检测图像,进行图像预处理,以视觉目标为中心对图像进行裁剪,模板图像大小裁剪为127
×
127,检测图像大小裁剪为255
×
255,裁剪时超出的范围使用图像的RGB均值进行填充。
[0019]S2:采用Siamese孪生网络作为整体框架,即模板图像和检测图像将分别输入两个相同的分支进行同步处理,分支网络采用改进后的VGG-11网络;网络的两个分支共享权重,分别将两个输入送入两个分支,输出他们的相似度。从而将目标跟踪转换成相似性学习问题,这很好的匹配了目标跟踪的本质,即求取模板图像和检测图像的相似度。
[0020]S3:对每个分支,采用三级信息融合策略,将整个VGG网络分为浅层、中层、深层三个部分,对每个部分的各层卷积特征进行融合。具体的,第三层卷积层conv3将通过3
×
1卷积和conv4构建浅层融合特征图,然后孪生网络的一对浅层融合特征图通过4
×
256卷积构建浅层得分图;同理,conv5、conv6、conv7 通过3
×
1卷积构建中层融合特征图,再通过2
×
256卷积构建中层得分图;conv8、conv9、conv11通过3
×
1卷积构建深层融合特征图,最后得到深层得分图。如图 3和图4所示。
[0021]如图2和下表所示,VGG-11将网络层数从16层减少到11层,在2层和3 层,4层和5层,7层和8层之间设置最大池化层。将11层网络分为浅层、中层、深层三个级别,其中3、4层为浅层,5、6、7层为中层,8、9、11层为深层。浅层特征包含更多的外观信息,具有更好的定位属性;深层特征包含更多的语义信息,具有更好的分类属性;中层特征居中。
[0022][0023]S4:根据Siamese孪生框架,在三个层次,分别将对应的融合特征进行相关操作,构建出三个层次的得分图,公式为S(z,x)=f(φ(z),φ(x));其中z表示模板图像,x表示检测图像,φ(
·
)表示图像的特征表示,f(
·
)表示相关操作,S(z,x)表示模板图像和检测图像之间的相似性,网络的目标就是获取以上公式的最大值。
[0024]S5:对三个层次的得分图进行融合,构建出最终得分图,公式为 S(z,x)=S1(z,x)+S2(z,x)+S3(z,x),其中S1(z,x),S2(z,x),S3(z,x)分别表示浅层、中层、深层的得分图。
[0025]S6:使用最终得分图输出跟踪结果。
[0026]S7:使用训练集对上述网络进行大数据训练,采用随机梯度下降法进行优化,公式为
[0027][0028]其中L(y[u],v[u])表示损失函数,u是得分图上任一点,v[u]是该点模板-检测图像对的相似性得分,y[u]是该点的实际标签,D表示整张得分图范围,本专利技术通过随机梯度下降(SGD)优化损失函数来获得网络的权重参数θ。其中,根据得分图上u据目标中心点的距离定义y[u](k表示网络步长,c为目标中心点, R表示事先设定的阈值半径)
[0029][0030]S8:使用验证集对训练后的模型进行验证,调整模型的超参数,包括迭代批次、批次大小和学习率。验证指标包括准确性和鲁棒性;准确性公式为
[0031][0032]其中a表示实际边界框,b表示检测边界框。
[0033]鲁棒性为
[0034][0035]其中failu本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于,包括以下步骤:S1:对当前序列图像,提取模板图像和检测图像,进行图像预处理;S2:采用Siamese孪生网络构建整体网络框架,将模板图像和检测图像分别输入两个相同的分支网络进行同步处理,分支网络采用改进后的VGG-11网络;S3:改进后的VGG-11网络采用三级网络融合策略,将整个网络分为浅层、中层、深层三个部分,分别提取三个部分的各层卷积特征,对每个部分的各层卷积特征进行融合,得到特征图;S4:对两个分支网络中三个部分的特征图,按照浅层、中层、深层三个层次分别进行相关操作,构建三个层次的得分图;S5:对步骤S4中三个层次的得分图进行融合,构建出最终得分图;S6:使用最终得分图输出跟踪结果。2.根据权利要求1所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:所述提取模板图像和检测图像具体为,选取第一帧为模板图像,后续帧为检测图像。3.根据权利要求1所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:还包括使用训练集对整体网络进行训练,使用验证集对训练后的网络模型进行验证,调整模型的超参数。4.根据权利要求3所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:所述使用训练集对整体网络进行训练时,使用逻辑损失进行训练:其中,L(y[u],v[u])表示损失函数,u是得分图上任一点,v[u]是该点模板-检测图像对的相似性得分,y[u]是该点的实际标签,D表示整张得分图范围。5.根据权利要求1或2或3或4所述一种基于CNN...
【专利技术属性】
技术研发人员:罗元,蔡元霄,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。