一种高性能行人检索与重识别方法及装置制造方法及图纸

技术编号:34941621 阅读:28 留言:0更新日期:2022-09-17 12:15
本发明专利技术公开了一种高性能行人检索与重识别方法及装置,该方法包括:分别获取单视角和多视角现实监控场景下的行人数据,对行人数据进行数据标注,其中单视角行人数据与COCO数据集中的行人部分,共同构建行人检测数据集,多视角行人数据构建行人重识别数据集;利用行人检测数据集基于Ghost轻量化模型改进的YOLOv5行人检测算法训练网络模型;利用行人重识别数据集训练得到行人重识别模型;搭建行人搜索系统。本发明专利技术通过深度模型压缩和算法算力的协同优化,从算法到硬件的自上而下的方法来优化深度学习的效率,实现低代价高性能的行人重识别系统。系统。系统。

【技术实现步骤摘要】
一种高性能行人检索与重识别方法及装置


[0001]本专利技术属于行人检测和行人重识别
,具体涉及一种高性能行人检索与重识别方法及装置。

技术介绍

[0002]目标检测技术主要用于在给定图像中找到图像或视频中特定类别的对象,同时检测出目标的类标签及坐标。基于深度卷积神经网络算法成为目标检测领域的主流算法,根据不同的分类标准,目前可分为Two

stage算法和One

stage 算法。R

CNN系这类Two

stage算法,先生成候选框,然后对候选框分类并微调其位置。One

stage算法例如Yolo,SSD,则不需要预先生成候选框,直接对图像各个位置进行回归和分类。Two

stage算法精度较高,但速度较慢,算法改进伴随速度提升,One

stage算法速度快,算法改进伴随精度提升。
[0003]行人重识别技术是长时、跨域多目标跟踪的核心技术,主要目标是对同一个行人进行跨摄像头的再识别。现有的视频分析系统是多种任务算法的集合,对计算芯片的要求极高。行人搜索包含了查找(目标检测)和匹配(行人重识别)的过程。行人重识别模型,都是基于对监控视频进行预处理得到的行人图像,这需要大量的准备工作,针对现实场景,并且单独的行人重识别模型并不能满足应用要求。
[0004]不同于学术数据集单一场景,由于行人搜索算法将行人检测算法的结果图片输入到行人重识别模块,所以行人检测模型的检测效果,是识别正确行人的关键步骤。对于大型的视频监控系统,往往需要高性能、低功耗硬件的智能设备平台。行人重识别任务中,基于深度学习的方法是目前最好的算法。然而,复杂的深度学习模型通常具有较好的检测效果和重识别能力,难以在确保准确性和实时性的同时,部署在硬件资源有限且功率预算紧张的设备上。

技术实现思路

[0005]针对上述现有技术的不足,本专利技术提供一种高性能行人检索与重识别方法;模型在部署过程中主要面对模型大小,运行占用内存,计算效率等难点,因此本专利技术的核心就是对检测模型插入Ghost轻量化模块,并采取通道级稀疏化剪枝方法,从而使原有搜索网络模型大小缩小,准确度基准相当。并将训练后的模型于算丰SC5和计算卡上实施量化操作,轻量且快速地部署到硬件上,满足大型的视频监控系统需要高性能、低功耗硬件的智能设备平台的需求,确保准确性和实时性的同时,部署在硬件资源有限且功率预算紧张的设备上。
[0006]本专利技术的目的是通过以下技术方案实现的:
[0007]根据本说明书的第一方面,提供一种高性能行人检索与重识别方法,包括以下步骤:
[0008]S1,分别获取现实监控场景下的单视角行人数据和多视角行人数据,其中,采用单视角行人数据和COCO数据集中的行人部分数据共同构建行人检测数据集,多视角行人数据构建行人重识别数据集;
[0009]S2,利用S1中的行人检测数据集,基于Ghost轻量化模型改进的YOLOv5 行人检测算法训练行人检测模型;
[0010]S3,利用S1中的行人重识别数据集训练通道级稀疏化剪枝后的行人重识别网络,得到行人重识别模型;
[0011]S4,利用S2中训练好的行人检测模型和S3中的行人重识别模型基于算丰 SC5和云端AI计算加速卡进行量化部署,搭建行人搜索系统。
[0012]进一步地,步骤S2中的行人检测模型包括四种模块,分别为输入端模块、主干网络模块、颈部网络模块和输出端模块,输入为行人检测数据集中一张图片;
[0013]图片首先通过输入端模块输入主干网络模块,提取行人特征图像,将行人特征图像送入颈部网络模块,颈部网络模块会增强行人检测模型对于不同缩放尺度行人特征图像的检测,将增强后的行人特征图像送入输出端,输出端对行人特征图像进行预测,生成边界框和预测行人特征图像中的类别。
[0014]进一步地,所述主干网络模块包括三种模块,分别为Focus子模块,CBL 子模块,GhostCSP子模块;
[0015]所述Focus子模块对输入图片进行切片操作,隔像素进行下采样操作,所述 CBL子模块对输入图像进行卷积操作,所述GhostCSP子模块是使用Ghost网络进行替换而生成的,其中步长为1的Ghost网络替换CSP结构中的残差组件,步长为2的Ghost网络替换CSP结构中的卷积层,起到下采样的作用。
[0016]进一步地,所述颈部网络模块对所述主干网络模块提取的行人特征图像进行多次特征提取,生成8,16,32尺度的行人特征图像,基于8,16,32尺度的行人特征图像进行损失计算,得到损失值,行人检测模型根据损失值训练更新,得到训练好的增强行人检测模型。
[0017]进一步地,所述步骤S3中的行人重识别网络包括ResNet50网络和BNNeck 模块,输入为行人重识别数据集中一张图片;
[0018]对输入图片,采用随机裁剪为不同的大小和宽高比,缩放为同一大小,并采用随机擦除,使用一个布满随机值的矩形框对图片进行遮挡,以此来得到增强图像;
[0019]将增强图像输入到ResNet50网络中,ResNet50网络以ImageNet数据集进行模型预训练,提取行人图像特征,对提取特征进行全局池化,得到行人全局特征F
global

[0020]所述BNNeck模块将行人重识别损失分离到两个不同的特征空间中优化,完成一次学习。
[0021]进一步地,所述步骤S3中的行人重识别网络的损失函数Loss为:
[0022][0023]其中:n为样本数量,x
i
是输入图像,y
i
是其类别标签,o(y
i
|x
i
)表示经过 softmax分类,x
i
被识别为y
i
的预测概率;d
p
是同类图像和输入图像的距离,d
n
是不同类图像和输入图像的距离,α和β是平衡损失的超参数,max(*)为取最大距离;表示全连接层之前的特
征,表示第yi个类别的特征中心,为L2范数。
[0024]进一步地,所述ResNet50网络采用通道级稀疏化剪枝方法进行处理,对每个通道引入缩放因子α,先通过正常的网络训练学习连通性,训练过程中稀疏化正则化这些比例因子,自动识别通道的重要性,最终对训练得到的缩放因子较低的通道进行修剪。
[0025]进一步地,所述行人重识别模型剪枝的目标函数如下:
[0026][0027]其中(x,y)是训练输入和目标,第一项整体表示为未修剪网络的原始损失函数,第二项是缩放因子上的惩罚项,A代表网络中可训练的参数,α是缩放因子,β是两项的平衡因子,|
·
|为L1范数。
[0028]进一步地,所述步骤S4具体为:
[0029]S41,选取步骤S1中构建的行人检测训练集3000张图片,以及步骤S1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高性能行人检索与重识别方法,其特征在于,包括以下步骤:S1,分别获取现实监控场景下的单视角行人数据和多视角行人数据,其中,采用单视角行人数据和COCO数据集中的行人部分数据共同构建行人检测数据集,多视角行人数据构建行人重识别数据集;S2,利用S1中的行人检测数据集,基于Ghost轻量化模型改进的YOLOv5行人检测算法训练行人检测模型;S3,利用S1中的行人重识别数据集训练通道级稀疏化剪枝后的行人重识别网络,得到行人重识别模型;S4,利用S2中训练好的行人检测模型和S3中的行人重识别模型基于算丰SC5和云端AI计算加速卡进行量化部署,搭建行人搜索系统。2.根据权利要求1所述的高性能行人检索与重识别方法,其特征在于,步骤S2中的行人检测模型包括四种模块,分别为输入端模块、主干网络模块、颈部网络模块和输出端模块,输入为行人检测数据集中一张图片;图片首先通过输入端模块输入主干网络模块,提取行人特征图像,将行人特征图像送入颈部网络模块,颈部网络模块会增强行人检测模型对于不同缩放尺度行人特征图像的检测,将增强后的行人特征图像送入输出端,输出端对行人特征图像进行预测,生成边界框和预测行人特征图像中的类别。3.根据权利要求2所述的高性能行人检索与重识别方法,其特征在于,所述主干网络模块包括三种模块,分别为Focus子模块,CBL子模块,GhostCSP子模块;所述Focus子模块对输入图片进行切片操作,隔像素进行下采样操作,所述CBL子模块对输入图像进行卷积操作,所述GhostCSP子模块是使用Ghost网络进行替换而生成的,其中步长为1的Ghost网络替换CSP结构中的残差组件,步长为2的Ghost网络替换CSP结构中的卷积层,起到下采样的作用。4.根据权利要求3所述的高性能行人检索与重识别方法,其特征在于,所述颈部网络模块对所述主干网络模块提取的行人特征图像进行多次特征提取,生成8,16,32尺度的行人特征图像,基于8,16,32尺度的行人特征图像进行损失计算,得到损失值,行人检测模型根据损失值训练更新,得到训练好的增强行人检测模型。5.根据权利要求1所述的高性能行人检索与重识别方法,其特征在于,所述步骤S3中的行人重识别网络包括ResNet50网络和BNNeck模块,输入为行人重识别数据集中一张图片;对输入图片,采用随机裁剪为不同的大小和宽高比,缩放为同一大小,并采用随机擦除,使用一个布满随机值的矩形框对图片进行遮挡,以此来得到增强图像;将增强图像输入到ResNet50网络中,ResNet50网络以ImageNet数据集进行模型预训练,提取行人图像特征,对提取特征进行全局池化,得到行人全局特征F
global
;所述BNNeck模块将行人重识别损失分离到两个不同的特征空间中优化,完成一次学习。6.根据权利要求5所述的高性能行人检索与重识别方法,其特征在于,所述步骤S3中的行人重识别网络的损失函数Loss为:
其中:n为样本数量,x
i
是输入图像,y
i
是其类别标签,p(y
i
|x
i
)表示经过softmax分类,x
i
被识别为y
i
的预测概率;d
p
是同类图像和输入图像的距离,d
n
是不同类图像和输入图像的距离,α和β是平衡损失的超参数,max(
·
)为取最大距离;表示全连接层之前的特征,表示第yi个类别的特征中心,为L2范数。7.根据权利要求5所述的高性能行人检索与重识别方法,其特征在于,所述ResNet50网络采...

【专利技术属性】
技术研发人员:华璟吴绍鑫孙杰
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1