本发明专利技术公开一种行人检测方法,具体包括如下步骤:采集图像数据集并构建检测网络;针对检测网络构建损失函数,用于衡量网络输出、对真实标签进行训练;利用图像数据集对检测网络进行训练获得行人检测模型;利用行人检测模型对待检测图像进行检测;采用本模型不依赖与先验框,对于特殊形态的行人也能够达到很好的检测效果,泛化性能更好,可以不断进行优化,性能能达到SOTA水平。能达到SOTA水平。能达到SOTA水平。
【技术实现步骤摘要】
一种行人检测方法
[0001]本专利技术应用于行人检测领域,具体是一种行人检测方法。
技术介绍
[0002]行人检测(Pedestrian Detection)是计算机视觉研究中的热点和难点。行人检测要解决的问题是:找出图像或视频帧中所有的行人,包括位置和大小,一般用矩形框表示,和人脸检测类似,这也是典型的目标检测问题。
[0003]行人检测有两种主要技术路径,第一种方法是使用人工特征+分类器的方案,第二个是基于深度学习神经网络的方案,由于基于深度学习学到的特征具有很强层次表达能力和很好的鲁棒性,因此目前主流的技术方案是后者。
[0004]行人检测技术有很强的使用价值,它可以与行人跟踪,行人重识别,行为识别等技术结合,应用于人工智能系统、智能视频监控、人体行为分析、智慧校园、智能交通、数字乡镇和园区管理等领域。
[0005]在过去的是十几年中,通过国内外学者的共同努力,行人检测技术在算法上取得了很大的突破,在室内等背景比较固定、行人姿态比较常规的普通场景下已取得了比较不错的效果,但对于非正常姿态的行人检测效果仍然有较大优化空间。
技术实现思路
[0006]本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于注意力机制的泛化性良好的姿态行人检测方法。
[0007]为解决上述技术问题,本专利技术的一种行人检测方法,具体包括如下步骤:
[0008]采集图像数据集并构建检测网络;
[0009]针对检测网络构建损失函数,用于衡量网络输出、对真实标签进行训练;
[0010]利用图像数据集对检测网络进行训练获得行人检测模型;
[0011]利用行人检测模型对待检测图像进行检测;
[0012]对待检测图像进行检测具体包括:
[0013]S1、将resent作为backbone,利用卷积网络对待检测图像进行特征提取并输出特征图;
[0014]S2、将卷积网络输出的特征图切分为多个patch,并拉成序列;
[0015]S3、将特征图序列输入到多个Encoder中进行编码操作;
[0016]S4、预先设置N个Object queries;
[0017]S5、将Encoder输出的编码信息、特征的位置信息以及N个Object queries输入decoder网络中进行解码;
[0018]S6、解码后的Encoder信息输入到N个Feed
‑
Forward Network中,对N个box中是否存在行人以及行人位置进行预测,输出最终行人检测结果。
[0019]作为一种可能的实施方式,进一步的,所述步骤S2中拉成的序列均包含位置信息,
所述位置信息用于记住该序列的patch在原始图像中的位置。
[0020]作为一种可能的实施方式,进一步的,所述步骤S3的Encoder包括Self
‑
Attention和Feed
‑
Forward Network两个组件。
[0021]作为一种可能的实施方式,进一步的,所述输入到Encoder中的特征图依序先后经过Self
‑
Attention和Feed
‑
Forward Network处理输出;
[0022]所述Self
‑
Attention为:
[0023]其中,Q(Query),K(Key),V(Value)三个向量均来自同一输入,首先计算Q与K之间的点乘,然后除以一个尺度标度以防止其结果过大,再利用Softmax操作将其结果归一化为概率分布,最后乘以矩阵V就得到权重求和的表示;
[0024]所述Feed
‑
Forward Network为:FFN=max(0,xW1+b1)W2+b2,
[0025]其中,W1、W2表示两个全连接层的权重,b1、b2表示的是全连接层的偏置。
[0026]作为一种可能的实施方式,进一步的,所述步骤S4中的object queries由N个二维的learnable embedding组成,其中,N大于图片中可能出现行人数量。
[0027]作为一种可能的实施方式,进一步的,所述步骤S5中的decoder网络包括Self
‑
Attention和Feed
‑
Forward Network两个组件。
[0028]作为一种可能的实施方式,进一步的,所述Self
‑
Attention为:
[0029][0030]其中,Q(Query),K(Key),V(Value)三个向量均来自同一输入,首先计算Q与K之间的点乘,然后除以一个尺度标度以防止其结果过大,再利用Softmax操作将其结果归一化为概率分布,最后乘以矩阵V就得到权重求和的表示;
[0031]所述Feed
‑
Forward Network为:FFN=max(0,xW1+b1)W2+b2,
[0032]其中,W1、W2表示两个全连接层的权重,b1、b2表示的是全连接层的偏置。
[0033]作为一种可能的实施方式,进一步的,所述损失函数包括:
[0034]分类分支使用的focalloss:
[0035]其中y代表标签,y
′
表示预测结果,平衡因子α用于平衡正负样本比例不均,γ系数用于减少易分样本的损失,关注困难样本;
[0036]和回归分支使用的ciouloss:
[0037]其中,括号内三项分别表示重叠面积,中心点距离,长宽比,定义该loss的目的是使得预测的检测框与GT重叠面积最大化,而其中心点距离和长宽比最小化。
[0038]本专利技术采用以上技术方案,具有以下有益效果:
[0039]1、采用本模型不依赖与先验框,对于特殊形态的行人也能够达到很好的检测效果,泛化性能更好,可以不断进行优化,性能能达到SOTA水平。
[0040]2、基于先验框的深度学习行人检测方案有较多人工设计的部分,比如anchor的设置,训练时ground truth的配置等,本方案跳过手工设计的部分,以端到端的方式直接输出
预测的行人的集合,并且由于anchor一旦设定好是无法进行自动学习的,而Object queries是可学习的,由于维度比较高,可以表征的东西更加丰富,因此对于不同姿态的行人都可以有很好的检测效果。
附图说明
[0041]下面结合附图与具体实施方式对本专利技术做进一步详细的说明:
[0042]图1为本专利技术流程原理简图。
具体实施方式
[0043]为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合本专利技术实施方式中的附图,对本专利技术实施方式中的技术方案进行清楚、完整地描述。
[0044]如图1所示,本专利技术提供了一种行人检测方法,具体包括如下步骤:
[0045]S100、采集图像数据集并构建检测网络;<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种行人检测方法,具体包括如下步骤:采集图像数据集并构建检测网络;针对检测网络构建损失函数,用于衡量网络输出、对真实标签进行训练;利用图像数据集对检测网络进行训练获得行人检测模型;利用行人检测模型对待检测图像进行检测;其特征在于,对待检测图像进行检测具体包括:S1、将resent作为backbone,利用卷积网络对待检测图像进行特征提取并输出特征图;S2、将卷积网络输出的特征图切分为多个patch,并拉成序列;S3、将特征图序列输入到多个Encoder中进行编码操作;S4、预先设置N个Object queries;S5、将Encoder输出的编码信息、特征的位置信息以及N个Object queries输入decoder网络中进行解码;S6、解码后的Encoder信息输入到N个Feed
‑
Forward Network中,对N个box中是否存在行人以及行人位置进行预测,输出最终行人检测结果。2.根据权利要求1所述的一种行人检测方法,其特征在于:所述步骤S2中拉成的序列均包含位置信息,所述位置信息用于记住该序列的patch在原始图像中的位置。3.根据权利要求1所述的一种行人检测方法,其特征在于:所述步骤S3的Encoder包括Self
‑
Attention和Feed
‑
Forward Network两个组件。4.根据权利要求3所述的一种行人检测方法,其特征在于:所述输入到Encoder中的特征图依序先后经过Self
‑
Attention和Feed
‑
Forward Network处理输出;所述Self
‑
Attention为:其中,Q(Query),K(Key),V(Value)三个向量均来自同一输入,首先计算Q与K之间的点乘,然后除以一个尺度标度以防止其结果过大,再利用Softmax操...
【专利技术属性】
技术研发人员:梁琦晖,王欢,
申请(专利权)人:新大陆数字技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。