当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于动态RoI特征提取的行人搜索方法技术

技术编号:37435368 阅读:29 留言:0更新日期:2023-05-06 09:07
本发明专利技术涉及一种基于动态RoI特征提取的行人搜索方法,所采用的行人搜索网络采用基于候选框生成的一步法网络框架,包括干网络,颈网络和头网络,头网络由物体检测头网络和行人重识别头网络串接组成;头网络采用多级级联架构,即将上一级网络的输出结果作为下一级网络的输入;每一级头网络的输入包括颈网络对应的特征图,候选框位置信息、候选框特征向量,包含下列步骤:准备包含不同行人的图像集,标注图像集每张图像中行人的标注信息,包括行人的身份信息和标注框信息;将图像集划分为训练集,验证集和测试集;设置训练阶段的相关超参数;训练行人搜索网络。训练行人搜索网络。训练行人搜索网络。

【技术实现步骤摘要】
一种基于动态RoI特征提取的行人搜索方法


[0001]本专利技术涉及行人跟踪、智能视频监控、智能交通等计算机视觉领域中鲁棒有效的行人搜索方法,具体是一种基于深度卷积神经网络的行人搜索的方法。

技术介绍

[0002]行人搜索的任务是判断图像库或者视频序列中是否存在行人并定位和识别目标人物,行人搜索在计算机应用领域有着非常广泛的应用,比如智能视频监控、航拍图像、人机交互系统、运动分析等。图1给出了智能监控系统中行人搜索应用的示例。如图1所示为监控相机不同时间和视角下拍摄的画面。第一列图中的框表示需要搜索的目标行人,第二列和第三列为待搜索的图像。智能监控系统需要从待搜索的图像集中准确找到和定位目标行人(第二列中的框表示找到的目标行人)。由于行人易受穿着、尺度、遮挡、姿态和视角等影响,使得行人搜索成为计算机视觉领域中一个既具有研究价值又极具挑战性的课题。
[0003]作为目标检测和重识别(re

id)的联合任务,行人搜索不仅需要处理这两个单独子任务中存在的挑战,还需要共同优化两个子任务的不同目标。现有的人物搜索方法主要可以分为两步法和一步法。两步法[1,2,3]分别采用两个独立的深度卷积神经网络进行检测和重识别。在第一步中,使用检测的深度卷积神经网络从图像中检测出人。然后,使用另一个深度卷积神经网络进行基于裁剪出的人物的重识别。一步法[4,5]旨在在单个统一的深度卷积神经网络中进行目标检测和重识别。基于候选框生成的一步法[6,7]是具有先进性能的代表性方法,通常基于现代目标检测框架,如Faster R

CNN[8]。他们首先从密集的检测框中预测若干候选框,然后基于候选框提取的特征进行检测和重识别。
[0004]RoI(感兴趣区域)特征提取是基于候选框生成的行人搜索方法的一项重要步骤,它将任意大小的RoI区域转换为统一固定大小的特征。这里的感兴趣区域对应候选框在特征图上对应的区域。RoI池化是Faster R

CNN[8]使用的RoI特征提取方式,也是常规的RoI特征提取方式。如图2所示,整个背景为特征图,包围框为RoI区域,先将特征图中的RoI区域划分为k
×
k个子区域(图中所示为3
×
3个子区域),每个子区域内不进行池化,输出尺寸为k
×
k的RoI特征。为了能够提取更精确的特征,RoI对齐池化对RoI池化进行改进,采用均匀采样的方式对每个子区域内进行均匀采样,并采用均值池化将不同采样点的特征值融合生成该子区域的特征。这里采样点的特征值通过双线性插值操作计算得到。
[0005]RoI池化将RoI分为固定的空间区域,缺少了处理几何变换的内部机制。由于不同的位置可能对应于具有不同尺度或变形的对象,因此需要对尺度或感受野大小进行自适应确定,以实现具有精细定位的视觉识别。Deformable Convolutional Networks[9]中提出了可变形RoI池化方法,增强了深度卷积神经网络建模几何变换的能力。如图3所示,它通过附加的全连接层从经过了一次RoI对齐池化的特征图区域中学习偏移向量,为RoI池化的各个子区域添加了一个偏移量,从而实现对具有不同形状的对象的自适应定位。但是,可变形RoI对齐池化的方法需要引入一次额外的RoI对齐池化计算,明显增加了的计算量。
[0006]参考文献
[0007][1]Chen D,Zhang S,Ouyang W,et al.Person search via a mask

guided two

streamcnn model.Proceedings of the European Conference on Computer Vision.2018:734

750.
[0008][2]Lan X,Zhu X,Gong S.Person search by multi

scale matching.Proceedings of the European Conference on Computer Vision.2018:536

552.
[0009][3]Zheng L,Zhang H,Sun S,et al.Person re

identification in the wild.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017:1367

1376.
[0010][4]Xiao T,Li S,Wang B,et al.Joint detection and identification feature learning for person search.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017:3415

3424.
[0011][5]Yan Y,Li J,Qin J,et al.Anchor

free person search.Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2021:7690

7699.
[0012][6]Chen D,Zhang S,Yang J,et al.Norm

aware embedding for efficient person search.Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:12615

12624.
[0013][7]Li Z,Miao D.Sequential end

to

end network for efficient person search.Proceedings of the AAAI Conference on Artificial Intelligence.2021,35(3):2011

2019.
[0014][8]Ren S,He K,Girshick R,et al.Faster r

cnn:Towards real

time object detection with region proposal networks[J].Advances in Neural Information Processing Systems,201本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态RoI特征提取的行人搜索方法,所采用的行人搜索网络采用基于候选框生成的一步法网络框架,包括干网络,颈网络和头网络,头网络由物体检测头网络和行人重识别头网络串接组成;头网络采用多级级联架构,即将上一级网络的输出结果作为下一级网络的输入;每一级头网络的输入包括颈网络对应的特征图,候选框位置信息、候选框特征向量,包含下列步骤:步骤1:准备包含不同行人的图像集,标注图像集每张图像中行人的标注信息,包括行人的身份信息和标注框信息;步骤2:将图像集划分为训练集,验证集和测试集;步骤3:设置训练阶段的相关超参数;步骤4:训练行人搜索网络,分为以下子步骤:子步骤1:采用ImageNet预训练模型初始化相关的卷积权重;子步骤2:输入图像经过干网络和颈网络生成特征图,将特征图输入头网络;子步骤3:在头网络中,首先将上一级的候选框特征向量输入到全连接层中计算得到感兴趣区域不同子区域的偏移向量,其中第一级的候选框特征向量随机初始化生成;设RoI对齐池化中将RoI...

【专利技术属性】
技术研发人员:曹家乐董芝强庞彦伟
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1