一种基于深度学习的行人检测方法及系统技术方案

技术编号:30650753 阅读:19 留言:0更新日期:2021-11-04 01:09
本申请公开了一种基于深度学习的行人检测方法及系统,该方法包括:获取指定大小的待检测的行人环境图像;将行人环境图像输入训练好的行人识别神经网络模型;对行人环境图进行特征提取,生成预设大小的特征图;基于特征图进行分类检测,将当前滑窗作为候选框,获取M个候选框;对每个候选框进行回归处理,调整每个候选框的尺寸,生成检测框;获取每个检测框的分类得分和回归得分和检测总分;将所有检测框按照检测总分的高低进行排序,选取检测总分排名靠前的K个检测框作为目标框;输出K个目标框的坐标以及对应目标框中的行人概率。本申请针对行人检测的场景,将分类损失引入到正样本的匹配过程中,消除了冗余的预测框,省去了NMS的处理。处理。处理。

【技术实现步骤摘要】
一种基于深度学习的行人检测方法及系统


[0001]本专利技术涉及机器人
,尤其涉及一种基于深度学习的行人检测方法及系统。

技术介绍

[0002]在公共场所,例如:机场、商场、公园广场等行人相对密集的场景,为了识别不同视角的非重叠监控场景下的行人身份,行人重识别技术得到广泛发展,尤其是在监控视频领域。由于不同监控场景下同一行人存在背景、光照、朝向等差异大的问题,在行人相对密集的场所如何对行人实例级检测和行人再识别,在检索库中检索难度较大。
[0003]在当前的目标检测方法中,标签的匹配是一个非常重要的环节,目前的匹配方式主要基于交并比(Intersection Over Union,IOU),当候选框和基准真值(ground truth,gt)的IOU高于设定的阈值时,则匹配为正样本,我们把这种方式称为“框分配”。在进行框匹配时,需要预设大量的anchor框,而anchor框的大小、比例,对于性能的影响很大,而且需要手工的去设计这些anchor框。另一种方法为anchor free,这种方法将网格点作为样本,看网格点与目标点的距离以及网格点是否在目标内部来判断是否为正样本。我们将这种方式称为“点分配”。这两种方法都有一个共同的问题,就是“多对一”,对于一个gt,有大量正样本与之匹配。这样使得模型的性能对于超参数很敏感,而且容易产生冗余的检测结果,影响实时性。
[0004]如何在行人检测时,避免生成冗余的检测结果,避免使用NMS,从而提交实时性,是目前要解决的问题。

技术实现思路

[0005]本申请提出了一种基于深度学习的行人检测方法及系统,针对行人检测的场景,将分类与回归巧妙的结合处理,无需遍历获取所有包含行人的框,从而产生大量的冗余框。而只需要在进行分类检测,获取到若干个包含行人的框,甚至是1个包含行人的框后,便立即停止分类检测,转而对获取到的框进行回归处理,从而大大减少了冗余的预测框,无需NMS,且能及时获取检测结果,且检测精度也很高。
[0006]本专利技术第一方面公开了一种基于深度学习的行人检测方法,包括:
[0007]获取指定大小的待检测的行人环境图像;
[0008]将行人环境图像输入训练好的行人识别神经网络模型;
[0009]通过行人识别神经网络模型对行人环境图进行特征提取,生成预设大小的特征图;
[0010]基于特征图进行分类检测,当检测到当前滑窗中包含有行人时,将当前滑窗作为候选框,当获取到M个候选框时,停止当前的分类检测;其中,M≥1;
[0011]基于特征图,对每个候选框进行回归处理,调整每个候选框的尺寸,生成对应的检测框;
[0012]获取每个检测框的分类得分和回归得分,并基于设置的分类权重和回归权重,获取每个检测框的检测总分;
[0013]将所有检测框按照检测总分的高低进行排序,选取检测总分排名靠前的K个检测框作为目标框;其中,K≤M;
[0014]输出K个目标框的坐标以及对应目标框中的行人概率。
[0015]可选地,对每个候选框进行回归处理,调整每个候选框的尺寸,生成对应的检测框具体包括:
[0016]对每个候选框的尺寸进行放大或缩小处理,优化候选框的定位;每次放大或缩小按照预设步长像素进行操作;
[0017]当调整后的当前候选框的IOU值高于将当前候选框放大一步后的IOU值,以及高于将当前候选框缩小一步后的IOU值时,将调整后的当前候选框作为检测框。
[0018]可选地,行人识别神经网络模型的损失函数的计算公式如下:
[0019]Loss=αLoss
cls
+βLoss
reg
ꢀꢀꢀ
(1)
[0020]其中,Loss
cls
为分类损失函数,Loss
reg
为回归损失函数,α为分类损失函数的损失系数,β为回归损失函数的损失系数。
[0021]可选地,通过行人识别神经网络模型对行人环境图进行特征提取,生成预设大小的特征图具体包括:
[0022]对指定大小的行人环境图进行特征提取,生成初始特征图;
[0023]在初始特征图基础上,通过若干次卷积和池化,生成不同尺度的特征图;
[0024]再对各不同尺度的特征图进行不断上采样,直到得到预设大小的特征图。
[0025]可选地,行人环境图像的指定大小为H
×
W
×
3;所述行人识别神经网络模型的输入层接收到H
×
W
×
3的行人环境图像后,对其进行特征提取,生成预设大小的特征图具体包括:
[0026]通过行人识别神经网络模型的主干网络的残差层,生成H/4
×
W/4的初始特征图;
[0027]将初始特征图经过2*2卷积、池化,生成H/8
×
W/8的特征图;
[0028]将H/8
×
W/8的特征图经过2
×
2卷积、池化,生成H/16
×
W/16的特征图;
[0029]将H/16
×
W/16的特征图经过2
×
2卷积、池化,生成H/32
×
W/32的特征图;
[0030]将H/32
×
W/32的特征图相加生成新的特征图;
[0031]将各特征图不断的上采样,直到得到H/4
×
W/4的特征图。
[0032]可选地,M=K=1;则基于特征图进行分类检测,当检测到当前滑窗中包含有行人时,将当前滑窗作为候选框,当获取到M个候选框时,停止当前的分类检测具体包括:
[0033]基于预设大小的特征图,通过指定步长的滑窗进行分类检测;
[0034]若通过特征比对,判断当前滑窗中包含有人脸特征时,将当前滑窗作为候选框,并停止当前的分类检测,进入后续的回归处理步骤。
[0035]本专利技术第二方面公开了一种基于深度学习的行人检测系统,包括:图像获取模块,用于获取指定大小的待检测的行人环境图像;
[0036]输入模块,用于将行人环境图像输入训练好的行人识别神经网络模型;
[0037]特征提取模块,用于通过行人识别神经网络模型对行人环境图进行特征提取,生成预设大小的特征图;
[0038]分类检测模块,用于基于特征图进行分类检测,当检测到当前滑窗中包含有行人时,将当前滑窗作为候选框,当获取到M个候选框时,停止当前的分类检测;其中,M≥1;
[0039]回归处理模块,用于基于特征图,对每个候选框进行回归处理,调整每个候选框的尺寸,生成对应的检测框;
[0040]评分排序模块,用于获取每个检测框的分类得分和回归得分,并基于设置的分类权重和回归权重,获取每个检测框的检测总分;并将所有检测框按照检测总分的高低进行排序,选取检测总分排名靠前的K个检测框作为目标框;其中,K≤M;
[0041]输出模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的行人检测方法,其特征在于,包括:获取指定大小的待检测的行人环境图像;将所述行人环境图像输入训练好的行人识别神经网络模型;通过所述行人识别神经网络模型对所述行人环境图进行特征提取,生成预设大小的特征图;基于所述特征图进行分类检测,当检测到当前滑窗中包含有行人时,将所述当前滑窗作为候选框,当获取到M个候选框时,停止当前的分类检测;其中,M≥1;基于所述特征图,对每个候选框进行回归处理,调整每个候选框的尺寸,生成对应的检测框;获取每个检测框的分类得分和回归得分,并基于设置的分类权重和回归权重,获取每个检测框的检测总分;将所有检测框按照检测总分的高低进行排序,选取检测总分排名靠前的K个检测框作为目标框;其中,K≤M;输出K个目标框的坐标以及对应目标框中的行人概率。2.根据权利要求1所述的一种基于深度学习的行人检测方法,其特征在于,所述对每个候选框进行回归处理,调整每个候选框的尺寸,生成对应的检测框具体包括:对每个候选框的尺寸进行放大或缩小处理,优化所述候选框的定位;每次放大或缩小按照预设步长像素进行操作;当调整后的当前候选框的IOU值高于将当前候选框放大一步后的IOU值,以及高于将当前候选框缩小一步后的IOU值时,将所述调整后的当前候选框作为检测框。3.根据权利要求1所述的一种基于深度学习的行人检测方法,其特征在于,所述行人识别神经网络模型的损失函数的计算公式如下:Loss=αLoss
cls
+βLoss
reg
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,所述Loss
cls
为分类损失函数,所述Loss
reg
为回归损失函数,α为所述分类损失函数的损失系数,β为所述回归损失函数的损失系数。4.根据权利要求1所述的一种基于深度学习的行人检测方法,其特征在于,所述通过所述行人识别神经网络模型对所述行人环境图进行特征提取,生成预设大小的特征图具体包括:对所述指定大小的行人环境图进行特征提取,生成初始特征图;在所述初始特征图基础上,通过若干次卷积和池化,生成不同尺度的特征图;再对各不同尺度的特征图进行不断上采样,直到得到预设大小的特征图。5.根据权利要求1或4所述的一种基于深度学习的行人检测方法,其特征在于,所述行人环境图像的指定大小为H
×
W
×
3;所述行人识别神经网络模型的输入层接收到H
×
W
×
3的行人环境图像后,对其进行特征提取,生成预设大小的特征图具体包括:通过所述行人识别神经网络模型的主干网络的残差层,生成H/4
×
W/4的初始特征图;将所述初始特征图经过2*2卷积、池化,生成H/8
×
W/8的特征图;将所述H/8
×
W/8的特征图经过2
×
2卷积、池化,生成H/16
×
W/16的特征图;将所述H/16
×
W/16的特征图经过2
×
2卷积、池化,生成H/32
×
W/32的特征图;将H/32
×
W/32的...

【专利技术属性】
技术研发人员:钱瀚欣胡景晨
申请(专利权)人:上海新纪元机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1