当前位置: 首页 > 专利查询>吕刚专利>正文

基于尺度和背景感知的非对称双边网络人群计数方法技术

技术编号:32831506 阅读:35 留言:0更新日期:2022-03-26 20:44
本发明专利技术公开了一种基于尺度和背景感知的非对称双边网络人群计数方法,包括:基于待分析人群图像的深层特征数据输入第一网络获取人群图像的尺度感知特征;基于待分析人群图像的浅层特征数据输入第二网络获取人群图像的背景感知特征;对所述尺度感知特征和背景感知特征融合,采用注意力机制对尺度感知特征中的背景感知特征抑制,获取抑制后尺度感知特征;基于抑制后尺度感知特征通过第一回归算法生成密度图。本发明专利技术第一、第二网络分别使用来自不同语义层的特征,可以在统一的框架内处理尺度变化和背景噪声。第一网络基于一个深层特征层提取多尺度信息,第二网络可以融合多个接收域的特征,以减少背景噪声的影响,而无需任何额外的可学习参数。额外的可学习参数。额外的可学习参数。

【技术实现步骤摘要】
基于尺度和背景感知的非对称双边网络人群计数方法


[0001]本专利技术涉及图像处理
,具体涉及基于尺度和背景感知的非对称双边网络人群计数方法。

技术介绍

[0002]人群计数是许多公共安全监控系统的一项基本任务,其目的是估计静止图像中的人数。有许多研究致力于解决这一问题,并取得了一些进展。传统方法通过使用手工制作的特征来检测每个人来解决人群计数问题,通过回归或密度估计来预测人数。由于手工特征的语义表示不足,这些方法的性能通常较低。最近,得益于CNN强大的特征表示,基于CNN的方法在人群计数中占据主导地位。根据网络结构的不同类型,基于CNN的人群计数模型可分为两类:基于单列的方法和基于多列的方法。
[0003]然而,仍有一些挑战阻碍计算机视觉界设计能够执行精确和稳健人群计数的模型,例如遮挡、复杂背景、尺度变化、非均匀分布、透视失真、旋转、照明变化和天气变化。规模变化是人群计数模型中最主要的问题。在深度学习时代,研究者们致力于整合不同尺度的语义特征来解决这个问题。主要算法框架可分为三类:1)多列。采用“多列”结构,其中每个分支都有不同的过滤器内核大小,以处理特定的规模。2)非标准卷积。利用一些非标准卷积运算,如扩张卷积或变形卷积,对多尺度信息进行建模。3)特征金字塔网络(FPN)。假设不同层次的特征可以捕获不同的尺度信息,并利用FPN融合多层次特征。为了消除背景混乱造成的噪声,语义分割或视觉注意操作是抑制背景区域响应的两种常用方法。这些方法通过掩码图像引导网络关注个人实例。然而,上述所有方法通常需要数百万个额外的tobe学习参数(例如,可学习的多列、可学习的分段/注意分支),这导致了更高的计算负担。

技术实现思路

[0004]针对上述现有技术存在的问题,本专利技术提供了一种用于人群计数的基于尺度和背景感知的非对称双边网络以及该非对称双边网络用于人群计数的方法,能够在统一的框架内处理尺度变化和背景噪声。该技术方案如下:
[0005]第一方面,本申请提供了一种基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述双边网络具有形成非对称双边网络的第一网络和第二网络,所述人群计数方法包括:
[0006]基于待分析人群图像的深层特征数据输入第一网络获取人群图像的尺度感知特征;
[0007]基于待分析人群图像的浅层特征数据输入第二网络获取人群图像的背景感知特征;
[0008]对所述尺度感知特征和背景感知特征融合,采用注意力机制对尺度感知特征中的背景感知特征抑制,获取抑制后尺度感知特征;
[0009]基于抑制后尺度感知特征通过第一回归算法生成密度图。
[0010]本申请实施例中,通过待分析人群图像的浅层特征数据获取可以表征图像中背景噪声的数据,用于在后续对于图像背景噪声的抑制去除,第一网络和第二网络分别使用来自不同语义层的特征,第一网络和第二网络这两个非对称分支具有不同的结构,第一网络是密集连接的堆叠扩张卷积(DCSDC)子网络,每个扩张卷积层具有不同的扩张率,依赖于一个深层特征数据,可以处理尺度变化。另一个分支即第二网络是无参数密集连接的堆叠池(DCSP)子网络,每个池化层具有不同池核和步长,它依赖于浅层特征,可以将特征与多个感受野融合,以减少背景噪声的影响。通过注意力机制融合两个网络的输出,生成最终的密度图。
[0011]在一个实施例中,所述第一网络包括多个具有相同内核尺寸且不同扩张率的扩张卷积层,多个所述扩张卷积层通过密集连接方式级联。
[0012]在一个实施例中,所述第一网络中的扩张卷积层的层数为3。
[0013]在一个实施例中,所述密集连接方式,包括:
[0014]假设待分析人群图像的深层特征数据为D
I
,3个扩张卷积层的非线性函数为h1(
·
)、h2(
·
)、h3(
·
),则第一扩张卷积层的输出为:
[0015]H1=[D1,h1(D1)];
[0016]第二扩张卷积层的输出为:
[0017]H2=[D1,h2(H1),H1];
[0018]第三扩张卷积层的输出即人群图像的尺度感知特征f
s
为:
[0019]f
s
=[D1,h3(H2),H1,H2]。
[0020]在一个实施例中,所述第一网络中的扩张卷积层的内核尺寸为3
×
3,扩张率分别为1,2和3。
[0021]本申请实施例中,第一网络中各个扩张卷积层的输出特征图大小依次为
[0022]其中c
i
为通道数,i=1,2,...,8,d
j
是步长数,j=1,2,...,5。
[0023]在一个实施例中,所述第二网络包括多个具有不同池核和不同步长的最大池化层,多个所述最大池化层通过密集连接方式级联。
[0024]在一个实施例中,所述第二网络中的最大池化层有3层。
[0025]在一个实施例中,所述密集连接方式,包括:
[0026]假设待分析人群图像的浅层特征数据为S
I
,3个最大池化层的非线性函数为g1(
·
)、g2(
·
)、g3(
·
),则第一最大池化层的输出为:
[0027]G1=g1(S1);
[0028]第二最大池化层的输出为:
[0029]G2=[g2(G1),G1];
[0030]第三最大池化层的输出即人群图像的背景感知特征f
b
为:
[0031]f
b
=[g3(G2),G1,G2]。
[0032]在一个实施例中,所述第二网络中:
[0033]第一最大池化层和第二最大池化层的池化内核为2
×
2,步长为2;
[0034]第三最大池化层的池化内核为3
×
3,步长为1。
[0035]本申请实施例中,第二网络中各个最大池化层的输出特征图大小依次为
[0036]其中c
k
为通道数,k=1,2,...,8,d
j
是步长数,j=1,2,...,5。
[0037]在一个实施例中,所述待分析人群图像的深层特征数据和浅层特征数据通过CNN模块获取,所述获取方法包括:
[0038]将待分析人群图像输入CNN模块,基于顺序在先的CNN层输出浅层特征数据基于顺序在后的CNN层输出深层特征数据其中,d1和d2分别是输出步幅,c1和c2是特征图的通道。
[0039]在一个实施例中,所述基于抑制后尺度感知特征通过第一回归算法生成密度图,所述第一回归算法通过密度图回归头模块实现,所述密度图回归头模块包括:
[0040]3个级联的卷积层,且每个卷积层之后连接一个激活层,所述卷积层的卷积核大小依次为3
×
3、3
×
3、1
×
1,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述双边网络具有形成非对称双边网络的第一网络和第二网络,所述人群计数方法包括:基于待分析人群图像的深层特征数据输入第一网络获取人群图像的尺度感知特征;基于待分析人群图像的浅层特征数据输入第二网络获取人群图像的背景感知特征;对所述尺度感知特征和背景感知特征融合,采用注意力机制对尺度感知特征中的背景感知特征抑制,获取抑制后尺度感知特征;基于抑制后尺度感知特征通过第一回归算法生成密度图。2.根据权利要求1所述的基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述第一网络包括多个具有相同内核尺寸且不同扩张率的扩张卷积层,多个所述扩张卷积层通过密集连接方式级联。3.根据权利要求2所述的基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述第一网络中的扩张卷积层的层数为3。4.根据权利要求3所述的基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述密集连接方式,包括:假设待分析人群图像的深层特征数据为D
I
,3个扩张卷积层的非线性函数为h1(
·
)、h2(
·
)、h3(
·
),则第一扩张卷积层的输出为:H1=[D1,h1(D1)];第二扩张卷积层的输出为:H2=[D1,h2(H1),H1];第三扩张卷积层的输出即人群图像的尺度感知特征f
s
为:f
s
=[D1,h3(H2),H1,H2]。5.根据权利要求3所述的基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述第一网络中的扩张卷积层的内核尺寸为3
×
3,扩张率分别为1,2和3。6.根据权利要求1所述的基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述第二网络包括多个具有不同池核和不同步长的最大池化层,多个所述最大池化层通过密集连接方式级联。7.根据权利要求6所述的基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述第二网络中的最大池化层有3层。8.根据权利要求6所述的基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述密集连接方式,包括:假设待分析人群图像的浅层特征数据为S
I
,3个最大池化层的非线性函数为g1(
·
)、g2(
·
)、g3(
·
),则第一最大池化层的输出为:G1=g1(S1);第二最大池化层的输出为:G2=[g2(G1),G1];第三最大池化层的输出即人群图像的背景感知特征f
b
为:f
b
=[g3(G2),G1,G2]。9.根据权利要求6所述的基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述第二网络中
第一最大池化层和第二最大池化层的池化内核为2
×
2,步长为2;第三最大池化层的池化内核为3
×
3,步长为1。10.根据权利要求1所述的基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述待分析人群图像的深层特征数据和浅层特征数据通过CNN模块获取,所述获取方法包括:将待分析人群图像输入CNN模块,基于顺序在先的CNN层输出浅层特征数据基于顺序在后的CNN层输出深层特征数据其中,d1和d2分别是输出步幅,c1和c2是特征图的通道。11.根据权利要求1所述的基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述基于抑制后尺度感知特征通过第一回归算法生成密度图,所述第一回归算法通过密度图回归头模块实现,所述密度图回归头模块包括:3个级联的卷积层,且每个卷积层之后连接一个激活层,所述卷积层的卷积核大小依次为3
×
3、3
×
3、1
×
1,所述激活层的激活函数均为Relu函数。12.根据权利要求1所述的基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述非对称双边网络在训练时,还包括:对第二网络输出的人群图像的背景感知特征通过第二回归算法生成前景掩膜图,所述第二回归算法通过前景掩膜回归头模块实现,所述前景掩膜回归头模块包括:3个级联的卷积层,且每个卷积层之后连接一个激活层,所述卷积层的卷积核大小依次为3
×
3、3
×
3、1
×
1,所述激活层的激活函数依次为Relu函数、Relu函数、Sigmoid函数。13.根据权利要求12所述的基于尺度和背景感知的非对称双边网络的人群计数方法,其特征在于,所述非对称双边网络在训练时,采用的损失函数为:Loss=L
c
+λ1L
ot
+λ2L
tv
+λ3L
b
,其中:,其中:,其中:L
b
(F
iP
,F
iGT
)=

F
iGT
log F
iP
+(F
iGT

1)log(1

F
iP
);其中,为非对称双边网络训练时对密度图的标注数据,为非对称...

【专利技术属性】
技术研发人员:吕刚徐玉珊年福东梅益周铜赵浩
申请(专利权)人:吕刚
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1