一种无人机用人群计数网络模型及计数方法技术

技术编号:38902126 阅读:17 留言:0更新日期:2023-09-22 14:20
本发明专利技术提供了一种无人机用人群计数网络模型及计数方法,模型结构基于P2PNet目标检测算法结构的框架进行改进,包括三个部分。其中Backbone部分使用VGG

【技术实现步骤摘要】
一种无人机用人群计数网络模型及计数方法


[0001]本专利技术属于无人机图像识别
,尤其涉及一种无人机用人群计数网络模型及计数方法。

技术介绍

[0002]针对旅游景点和交通枢纽出现的大量人员聚集的情况,极有可能发生踩踏事故。无人机能从多个高度和角度对人群进行拍摄,和人群计数算法相结合,能够使管理人员掌握公共场所的人群密度。但是现有的人群计数算法在面对一定高度和角度所拍摄的人群图像时,会出现漏检和误检等问题,这是因为在此范围的高度和角度下进行拍摄时,无人机场景下的人群图像中会出现人群尺度变化问题,其次无人机拍摄的图像视野大,包含的信息繁杂,存在背景干扰问题,以上问题都会对无人机场景下的计数准确率造成影响。因此,本专利技术针对无人机场景下的人群尺度变化导致计数不准确的问题进行了深入研究。
[0003]目前的人群计数任务借助卷积神经网络进行研究。2016年,Zhang等人提出了一种多分支的网络技术方法MCNN,该网络模型能够输入任意分辨率的输入图像,并将其送入具有不同分支的卷积层,并最终对不同尺度的特征图进行融合,以处理同一张人群图像中出现的人群尺度变化问题。但是,此种设计模式不同列之间使用的卷积层参数不共享,导致存在很多冗余参数,这会消耗额外的计算资源。针对以上问题,Li等人提出了一个只使用单列结构,但网络层数更深的CSRNet。CSRNet使用VGG

16的前10层作为前端,主要用于初步提取人群图像中的特征,后6层使用空洞卷积作为后端来扩大感受野,并取得了很好的效果。Cao等人提出了一种规模聚合网络SANet,该网络中包含了编码器和解码器,其中编码器类似于GoogLeNet中提出的Inception结构,作用是从人群图像中提取多尺度特征,解码器的作用则是对编码器中提取到的多尺度特征进行融合,并生成高分辨率密度图,这种网络结构可以有效地提取和利用多尺度信息来提高密度图的质量。尽管基于CNN的人群计数算法已经取得了显著的进步,但是在面对遮挡严重,背景复杂干扰,高拥挤的场景时仍有较大阻碍,于是许多人群计数研究人员开始从多尺度特征融合、注意力机制、多尺度结构等方面进行深入研究。Liu等人提出了一种新型的可变形卷积网络,该网络由注意力图生成器和密度图生成器所组成。其中注意力图生成器用于寻找输入图像中存在人群的区域,并生成相应的注意力图。密度图生成器则是由可变形卷积构成的多尺度网络,可以用来输出估计人群数量的高质量密度图。
[0004]虽然上述方法已经在人群计数领域取得了不错的进步,但是真实标注图像是在行人头部使用点进行标注的,而上述人群计数算法在进行训练时需要将真实标注图像中点的标注转化成真实密度图,生成的真实密度图的质量也将直接影响训练结果的好坏,并且最后网络输出的估计密度图得到的当前人群图像中人的数量是不精准的。这些计数或定位方法往往会将复杂的背景区域错误地计数或定位,这会导致人群计数方法的准确性降低,影响在实际应用中的可靠性。

技术实现思路

[0005]针对上述问题,本专利技术基于P2PNet目标检测算法结构的框架,提出了一种基于注意力引导,并使用多尺度空洞卷积进行特征融合的人群基数网络模型AMDCNet,通过引入ECBAM注意力机制模块和MDCFFB多尺度特征融合模块,最终将多尺度特征进行融合,提高模型的计数性能。
[0006]本专利技术第一方面提供了一种无人机用人群计数网络模型,基于P2PNet目标检测算法结构的框架进行改进,搭建一种多尺度空洞卷积进行特征融合的人群基数网络模型AMDCNet,包括Backbone部分、Neck部分和Head部分;
[0007]所述Backbone部分使用VGG

16模型及注意力模块进行特征提取并强化对关键特征的关注;
[0008]所述Neck部分利用多尺度融合模块将Backbone提取到的特征进行多尺度特征融合,其中每一个分支都拥有不同空洞率的空洞卷卷积,分别负责提取不同尺度的行人信息;
[0009]所述Head部分包括两个并行的分支,分别是分类头和回归头,回归头负责预测人群图像中行人的位置。
[0010]优选的,所述VGG

16模型去掉了原始网络最后的两个池化层以及所有全连接层,并利用最后的C3、C4和C5这三个不同深度的层级来提取来自人群图像中不同尺度的行人信息。
[0011]优选的,所述注意力模块采用ECBAM模块,其具体结构为:
[0012]包括通道注意力模块和空间注意力模块两部分,所述通道注意力模块首先将输入的特征图分别经过全局平均池化和全局最大池化处理后得到聚合特征,然后使用共享的1D卷积在不降低通道维度的前提下,进行跨通道的交互,并且使用一种自适应的方法来确定1D卷积核k的大小,经过卷积核大小为k的1D卷积处理后,将两块注意力权重相加并使用Sigmoid激活函数进行处理;所述空间注意力模块先进行全局最大池化和全局平均池化操作,接着将获得到的特征图进行拼接,然后使用1个3
×
3大小的卷积核和Relu激活函数,将特征图的通道数减为1,随后,再经过一次卷积,将特征图缩放至原来的维度,最后,经过Sigmoid激活函数处理后的空间注意力权重与原始输入特征图相乘;所述ECBAM模块会将这两种注意力权重分别与原输入特征图相乘,从而生成特征提炼后的特征图。
[0013]优选的,所述多尺度融合模块采用MDCFFB模块,其具体结构及处理过程为:
[0014]输入特征图为F
in
∈R
C
×
H
×
W
,其中特征图的通道数、高和长分别为C、H和W,所述MDCFFB模块包括四个分支,第一个分支首先经过一个5
×
5大小的卷积核处理,其中特征图的填充padding设置为2,后面紧跟着三个大小均为3
×
3,空洞率分别设置为1、2、3的空洞卷积;在经过空洞卷积的计算之后,使用一个1
×
1大小的卷积核将通道数降为C
*
,最终经过ReLU激活函数输出特征图F
out1
∈R
C*
×
H
×
W
;第二个分支首先经过一个3
×
3大小的卷积核,padding设置为1,之后再使用两个卷积核大小均为3
×
3,空洞率设置为1和2的空洞卷积进行处理,空洞卷积进行卷积运算时,会将特征图的padding依次设置为1和2,再经过一个1
×
1大小的卷积核,将通道数降为C
*
,最终经过ReLU激活函数输出特征图F
out2
∈R
C*
×
H
×
W
;第三个分支首先经过一个1
×
1大小的卷积核处理,然后再经过一个卷积核大小为3
×
3的常规卷积,再经过一个1
×
1大小的卷积核,同样需要将通道数降为C<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无人机用人群计数网络模型,其特征在于:基于P2PNet目标检测算法结构的框架进行改进,搭建一种多尺度空洞卷积进行特征融合的人群基数网络模型AMDCNet,包括Backbone部分、Neck部分和Head部分;所述Backbone部分使用VGG

16模型及注意力模块进行特征提取并强化对关键特征的关注;所述Neck部分利用多尺度融合模块将Backbone提取到的特征进行多尺度特征融合,其中每一个分支都拥有不同空洞率的空洞卷卷积,分别负责提取不同尺度的行人信息;所述Head部分包括两个并行的分支,分别是分类头和回归头,回归头负责预测人群图像中行人的位置。2.如权利要求1所述的一种无人机用人群计数网络模型,其特征在于:所述VGG

16模型去掉了原始网络最后的两个池化层以及所有全连接层,并利用最后的C3、C4和C5这三个不同深度的层级来提取来自人群图像中不同尺度的行人信息。3.如权利要求1所述的一种无人机用人群计数网络模型,其特征在于,所述注意力模块采用ECBAM模块,其具体结构为:包括通道注意力模块和空间注意力模块两部分,所述通道注意力模块首先将输入的特征图分别经过全局平均池化和全局最大池化处理后得到聚合特征,然后使用共享的1D卷积在不降低通道维度的前提下,进行跨通道的交互,并且使用一种自适应的方法来确定1D卷积核k的大小,经过卷积核大小为k的1D卷积处理后,将两块注意力权重相加并使用Sigmoid激活函数进行处理;所述空间注意力模块先进行全局最大池化和全局平均池化操作,接着将获得到的特征图进行拼接,然后使用1个3
×
3大小的卷积核和Relu激活函数,将特征图的通道数减为1,随后,再经过一次卷积,将特征图缩放至原来的维度,最后,经过Sigmoid激活函数处理后的空间注意力权重与原始输入特征图相乘;所述ECBAM模块会将这两种注意力权重分别与原输入特征图相乘,从而生成特征提炼后的特征图。4.如权利要求1所述的一种无人机用人群计数网络模型,其特征在于,所述多尺度融合模块采用MDCFFB模块,其具体结构及处理过程为:输入特征图为F
in
∈R
C
×
H
×
W
,其中特征图的通道数、高和长分别为C、H和W,所述MDCFFB模块包括四个分支,第一个分支首先经过一个5
×
5大小的卷积核处理,其中特征图的填充padding设置为2,后面紧跟着三个大小均为3
×
3,空洞率分别设置为1、2、3的空洞卷积;在经过空洞卷积的计算之后,使用一个1
×
1大小的卷积核将通道数降为C
*
,最终经过ReLU激活函数输出特征图F
out1
∈R
C*
×
H
×
W
;第二个分支首先经过一个3
×
3大小的卷积核,padding设置为1,之后再使用两个卷积核大小均为3
×
3,空洞率设置为1和2的空洞卷积进行处理,空洞卷积进行卷积运算时,会将特征图的padding依次设置为1和2,再经过一个1
×
1大小的卷积核,将通道数降为C
*
,最终...

【专利技术属性】
技术研发人员:魏玲胥志伟丁来辉杨晓刚赵天旭刘振
申请(专利权)人:山东巍然智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1