【技术实现步骤摘要】
一种基于特征金字塔局部差异注意力机制的人群计数方法
[0001]本专利技术属于计算机视觉
,具体涉及一种人群计数方法。
技术介绍
[0002]人群计数是计算机视觉领域的一个重要挑战,其任务是对人群场景图像进行自动计数。由于人群计数任务存在巨大的应用价值,如视频监控、公共安全、城市规划以及其他领域的计数任务等,近年来在工业界和学术界引起广泛的关注。然而,人群计数任务本身面临着遮挡、背景复杂、尺度变化、分布不均、旋转、光强变化等诸多挑战。其中,由于相机固有的透视变化,尺度变化的挑战不可避免。尺度变化既存在于同一场景图像的不同区域之间,也存在于不同的场景图像之间。因此,提升人群计数精度遇到了较大的挑战。
[0003]为了解决尺度变化的问题,现有人群计数方法(比如Single
‑
image crowd counting via multi
‑
column convolutional neural network和Casa
‑
crowd:A context
‑
aware scale aggregation cnn
‑
based crowd counting technique)通常通过具有不同感受野的多分支卷积神经网络获取多尺度特征。然而,一方面,多分支体系结构将会按比例增加算法所需的计算资源。另一方面,这些方法无法处理连续的尺度变化,从而降低了人群计数的精度。
技术实现思路
[0004]为了克服现有技术的不 ...
【技术保护点】
【技术特征摘要】
1.一种基于特征金字塔局部差异注意力机制的人群计数方法,其特征在于,包括如下步骤:步骤1:输入图片预处理;将原始图片的长和宽限制在2048像素以内,并使用随机裁剪和水平翻转进行数据增强,限定输入图片尺寸固定为512
×
512,得到人群场景图片;步骤2:将人群场景图片输入特征金字塔网络提取多尺度特征;所述特征金字塔网络以VGG19作为骨干网络;步骤2
‑
1:自底向上阶段:将VGG19中输出特征尺寸相同的层视为同一阶段,将骨干网络划分为5个阶段;从第一个阶段开始,后续每个阶段的特征图尺寸将会减少到前一个阶段的一半,选择最后三个阶段输出的特征图构建三层特征金字塔网络,特征金字塔网络自底层到顶层三层的空间分辨率分别为128
×
128、64
×
64、32
×
32;步骤2
‑
2:自顶向下阶段:将顶层特征图连续上采样两次,得到空间分辨率为64
×
64和128
×
128的上采样特征图;步骤2
‑
3:横向连接阶段:通过逐元素相加的方式,将相同分辨率的上采样特征图与特征金字塔网络的特征图合并;将合并后的两个特征图及顶层特征图分别进行3
×
3卷积操作后,再经过采样使分辨率都变为64
×
64,再使用1
×
1卷积层改变通道数为128,最后将三者按通道拼接在一起得到64
×
64
×
384大小的特征图f
fpn
∈R
384
×
64
×
64
;步骤3:计算局部差异注意力权重并对特征图进行加权;步骤3
‑
1:分别采用核大小分别为1
×
1、2
×
2和4
×
4的平均池化层对特征图f
fpn
进行平均池化操作,获取多感受野下的多尺度特征图,公式如下:F
j
=P
avg
(f
fpn
,j),j∈{1,2,3}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,P
avg
(
·
,j)表示进行平均池化操作;得到三个分支的金字塔特征图F
j
的尺寸分别为64
×
64、32...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。