一种基于特征金字塔局部差异注意力机制的人群计数方法技术

技术编号:34513814 阅读:15 留言:0更新日期:2022-08-13 21:00
本发明专利技术公开了一种基于特征金字塔局部差异注意力机制的人群计数方法,提出了一个新颖的尺度感知的人群计数方法FPN

【技术实现步骤摘要】
一种基于特征金字塔局部差异注意力机制的人群计数方法


[0001]本专利技术属于计算机视觉
,具体涉及一种人群计数方法。

技术介绍

[0002]人群计数是计算机视觉领域的一个重要挑战,其任务是对人群场景图像进行自动计数。由于人群计数任务存在巨大的应用价值,如视频监控、公共安全、城市规划以及其他领域的计数任务等,近年来在工业界和学术界引起广泛的关注。然而,人群计数任务本身面临着遮挡、背景复杂、尺度变化、分布不均、旋转、光强变化等诸多挑战。其中,由于相机固有的透视变化,尺度变化的挑战不可避免。尺度变化既存在于同一场景图像的不同区域之间,也存在于不同的场景图像之间。因此,提升人群计数精度遇到了较大的挑战。
[0003]为了解决尺度变化的问题,现有人群计数方法(比如Single

image crowd counting via multi

column convolutional neural network和Casa

crowd:A context

aware scale aggregation cnn

based crowd counting technique)通常通过具有不同感受野的多分支卷积神经网络获取多尺度特征。然而,一方面,多分支体系结构将会按比例增加算法所需的计算资源。另一方面,这些方法无法处理连续的尺度变化,从而降低了人群计数的精度。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术提供了一种基于特征金字塔局部差异注意力机制的人群计数方法,提出了一个新颖的尺度感知的人群计数方法FPN

LDA网络,其通过特征金字塔网络(Feature Pyramid Network,FPN)丰富特征尺度,并利用局部差异注意力(Local Difference Attention,LDA)模块对每个尺度的特征图进行重新加权,使特征集中在局部差异较大的位置,从而在基本不增加额外计算量的条件下提升人群计数的精度。本专利技术主要用于解决尺度变化场景下的人群计数,从网络的深度和广度两个层面处理人群场景尺度变化的问题,从而达到更高的计数精度。
[0005]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0006]步骤1:输入图片预处理;
[0007]将原始图片的长和宽限制在2048像素以内,并使用随机裁剪和水平翻转进行数据增强,限定输入图片尺寸固定为512
×
512,得到人群场景图片;
[0008]步骤2:将人群场景图片输入特征金字塔网络提取多尺度特征;所述特征金字塔网络以VGG19作为骨干网络;
[0009]步骤2

1:自底向上阶段:将VGG19中输出特征尺寸相同的层视为同一阶段,将骨干网络划分为5个阶段;从第一个阶段开始,后续每个阶段的特征图尺寸将会减少到前一个阶段的一半,选择最后三个阶段输出的特征图构建三层特征金字塔网络,特征金字塔网络自底层到顶层三层的空间分辨率分别为128
×
128、64
×
64、32
×
32;
[0010]步骤2

2:自顶向下阶段:将顶层特征图连续上采样两次,得到空间分辨率为64
×
64和128
×
128的上采样特征图;
[0011]步骤2

3:横向连接阶段:通过逐元素相加的方式,将相同分辨率的上采样特征图与特征金字塔网络的特征图合并;将合并后的两个特征图及顶层特征图分别进行3
×
3卷积操作后,再经过采样使分辨率都变为64
×
64,再使用1
×
1卷积层改变通道数为128,最后将三者按通道拼接在一起得到64
×
64
×
384大小的特征图f
fpn
∈R
384
×
64
×
64

[0012]步骤3:计算局部差异注意力权重并对特征图进行加权;
[0013]步骤3

1:分别采用核大小分别为1
×
1、2
×
2和4
×
4的平均池化层对特征图f
fpn
进行平均池化操作,获取多感受野下的多尺度特征图,公式如下:
[0014]F
j
=P
avg
(f
fpn
,j),j∈{1,2,3}
ꢀꢀ
(1)
[0015]其中,P
avg
(
·
,j)表示进行平均池化操作;得到三个分支的金字塔特征图F
j
的尺寸分别为64
×
64、32
×
32和16
×
16;
[0016]步骤3

2:在步骤3

1得到的每个分支上执行1
×
1卷积操作,公式如下:
[0017][0018]其中,conv(
·
,
·
)表示卷积操作,然后对输出特征图进行上采样操作,使分辨率都变为64
×
64,公式如下:
[0019][0020]其中,Up(
·
)表示上采样操作;
[0021]步骤3

3:将特征图f
j
与特征图f
fpn
做差,再进行1
×
1卷积得到局部差异注意力权重:
[0022][0023]其中,表示卷积参数;
[0024]使用局部差异注意力权重对特征图f
fpn
进行加权,并按通道进行合并,得到大小为64
×
64
×
768的多尺度特征图f,计算公式如下:
[0025][0026][0027]其中,表示两个矩阵的逐元素乘积操作,C(
·
)表示按通道合并操作;
[0028]步骤4:将多尺度特征图解码为单通道密度图;
[0029]将多尺度特征图f输入解码器,得到最终的密度图,对密度图进行求和得到对应人群场景的计数值;
[0030]所述解码器为多个卷积层堆叠而成;
[0031]步骤5:对步骤2和步骤3构建的FPN

LDA网络进行训练,将训练集中数据分批次输入FPN

LDA网络中,生成每幅图片的预测密度图,利用预测的密度图和真实人群场景的点标签计算损失,具体使用Bayesian损失构建点标注的密度贡献概率模型,公式如下:
[0032][0033]其中,c
n
表示每个人头注释点的真实人数值,E[c
n
]表示每个注释点处的人数期望值,N表示整个场景本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征金字塔局部差异注意力机制的人群计数方法,其特征在于,包括如下步骤:步骤1:输入图片预处理;将原始图片的长和宽限制在2048像素以内,并使用随机裁剪和水平翻转进行数据增强,限定输入图片尺寸固定为512
×
512,得到人群场景图片;步骤2:将人群场景图片输入特征金字塔网络提取多尺度特征;所述特征金字塔网络以VGG19作为骨干网络;步骤2

1:自底向上阶段:将VGG19中输出特征尺寸相同的层视为同一阶段,将骨干网络划分为5个阶段;从第一个阶段开始,后续每个阶段的特征图尺寸将会减少到前一个阶段的一半,选择最后三个阶段输出的特征图构建三层特征金字塔网络,特征金字塔网络自底层到顶层三层的空间分辨率分别为128
×
128、64
×
64、32
×
32;步骤2

2:自顶向下阶段:将顶层特征图连续上采样两次,得到空间分辨率为64
×
64和128
×
128的上采样特征图;步骤2

3:横向连接阶段:通过逐元素相加的方式,将相同分辨率的上采样特征图与特征金字塔网络的特征图合并;将合并后的两个特征图及顶层特征图分别进行3
×
3卷积操作后,再经过采样使分辨率都变为64
×
64,再使用1
×
1卷积层改变通道数为128,最后将三者按通道拼接在一起得到64
×
64
×
384大小的特征图f
fpn
∈R
384
×
64
×
64
;步骤3:计算局部差异注意力权重并对特征图进行加权;步骤3

1:分别采用核大小分别为1
×
1、2
×
2和4
×
4的平均池化层对特征图f
fpn
进行平均池化操作,获取多感受野下的多尺度特征图,公式如下:F
j
=P
avg
(f
fpn
,j),j∈{1,2,3}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,P
avg
(
·
,j)表示进行平均池化操作;得到三个分支的金字塔特征图F
j
的尺寸分别为64
×
64、32...

【专利技术属性】
技术研发人员:张世周张倩
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1