一种基于深度神经网络的人群密度估计方法技术

技术编号：40009418 阅读：6 留言：0更新日期：2024-01-16 15:02

本申请涉及一种基于深度神经网络的人群密度估计方法，它包括如下步骤：构建人群计数数据集，并生成对应的真实密度图；构建人群密度估计模型，包括前端网络、差值纹理模块、多尺度特征提取模块、Inception‑v3组、多通道阈值置换注意力模块和终端网络；对人群密度估计模型进行训练，将模型输出的模型预测图与对应的真实密度图一起输入至损失函数中进行迭代训练，对模型参数进行更新，优化模型；使用训练好的人群密度评估模型进行人群密度估计。本发明专利技术能够提高模型对前景信息的关注度，丰富特征图的空间和通道信息，并增强人群特征的权重，使模型更加关注人群的头部位置，减少图像中遮挡、噪声、图像扭曲等问题对计数性能的影响。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉中图像识别，具体涉及一种基于深度神经网络的人群密度估计方法，

技术介绍

1、人群计数是计算机视觉领域中的一个重要研究方向。该技术旨在通过从图像或视频中准确计算某一区域某一时刻的人数。同时人群计数技术能够为道路开放、交通管控、场所管制、安全监控等领域提供重要的应用价值。随着现代化进程的不断加速，城市的人口规模不断扩大，人群的大规模聚集频次也越来越高。这在带来城市繁荣的同时也将带来极大的安全隐患。

2、随着踩踏、推搡等事件的频发，人群计数技术正变得越来越热门，对其计数精度要求也越来越高。随着计数技术的改进，各种优秀的计数方法也是层出不穷。基于检测的方法或者直接对图片进行计数的方法，主要是检测人体特征，例如头部位置或者躯干，在人群密度不高或没有太大的遮挡的情况下，这两种方法可以提供较高的计数精度和较佳的性能表现。但是在真实世界，遮挡以及高密度场景是经常出现的。因此衍生出了由支持向量机进行回归计数的方法，使用手动注释的图像特征直接映射至输入图片特征进行计数。尽管使用支持向量机去计数在一定程度上提高了计数的精度，但该方法还是难以解决尺度问题以及遮挡问题。

3、随着密度图这一概念的提出，通过对密度图进行积分就可以获得人群总数。回归生成密度图不仅相比于检测可以得到更好的精度，同时还可以了解一个场景下人群的空间分布。基于密度图形成了更多计数精度更高的模型，例如多列卷积神经网络多列卷积神经网络，将多个不同卷积核大小的卷积层结合起来去应对尺度变化，将这些特征图结合起来生成高质量密度图。基于多列卷积神经网络

4、随着科技的高速发展，拍摄人群的图像信息变得越来越丰富，但这也给人群计数技术带来了挑战。因为人群计数技术主要通过识别人的身体、头部信息来计数，而过多的杂乱信息会干扰这一过程，从而降低计数精度。这个问题可以通过注意力机制解决，注意力机制是一种模仿人类视觉的方法，可以为一张特征图的每个像素点赋予不同的权重，增加人群特征的权重，从而提高计数精度。

5、然而，现有的许多基于注意力机制的人群计数模型，一般都是利用不同卷积核大小的卷积层对输入图像进行特征提取，这并没有考虑到大核卷积核的计算量，也并未考虑到不同卷积核大小所提取的特征图之间的连通性，这也就导致模型难以提取到富含语义性的上下文特征。此外，尽管许多模型内部包含了各种注意力模块，但是大部分注意力模块只考虑了抑制背景信息而未考虑协同特征图的空间信息和通道信息，这就导致计数误差增大，降低了预测密度图的质量。

技术实现思路

1、本专利技术的目的在于，提供一种基于深度神经网络的人群密度估计方法，能够提高模型对前景信息的关注度，丰富特征图的空间和通道信息，并增强人群特征的权重，使模型更加关注人群的头部位置，减少图像中遮挡、噪声、图像扭曲等问题对计数性能的影响。

2、本专利技术采取的技术方案是：一种基于深度神经网络的人群密度估计方法，包括如下步骤：

3、s1：从公共区域的监控中采集高密度人群图像，构建人群计数数据集，并将人群计数数据集划分为训练集和测试集，并生成人群计数数据集中每张图像的真实密度图；

4、s2：构建人群密度估计模型，所述人群密度估计模型包括前端网络、差值纹理模块、多尺度特征提取模块、inception-v3组、多通道阈值置换注意力模块和终端网络；

5、所述前端网络为去除全连接层的vgg-16网络的前10个卷积层，用于取数据集图像的底层特征，生成底层特征图fvgg；

6、所述差值纹理模块以vgg-16网络的前10个卷积层输出的底层特征图fvgg作为输入，将所述底层特征图fvgg通过至少两个1*1卷积层进行处理；每个卷积层的输出与底层特征图fvgg进行差值处理，从而使底层特征图fvgg的前景和背景差异更加明显，最后获得前景信息更为清晰的特征图fdt；

7、所述多尺度特征提取模块包括空洞空间金字塔池化模块和上下文模块，将差值纹理模块的输出作为输入，用不同核大小的卷积层和池化层提取特征图fdt的人群头部多尺度信息，输出富含不同人头大小信息的特征图fmultiscale；

8、所述inception-v3组将多尺度特征提取模块的输出作为输入，利用inception模型的特性，输出富含上下文信息且对图像扭曲现象有一定的适应性的特征图finc；

9、所述多通道阈值置换注意力模块包括多通道注意分支和空间注意力分支，多通道阈值置换注意力模块以inception-v3组输出的特征图finc作为输入，所述多通道注意分支利用卷积操作和维度变化操作，针对不同的通道进行加权，并对通道全局信息进行提取；所述空间注意力分支则对特征图finc在空间维度进行置换操作，并抑制无关信息的权重；将两个分支的输出通过通道维度结合，输出特征图fmtra；

10、所述终端网络包括全卷积网络，所述全卷积网络中的卷积层为空洞卷积层，多通道阈值置换注意力模块输出的特征图fmtra和多尺度特征提取模块输出的特征图fmultiscale通过通道维度进行叠加作为所述全卷积网络的输入，用于生成输入图像的预测人群密度图dest；

11、s3：使用所述训练集对所述人群密度估计模型进行训练，将所述人群密度估计模型输出的模型预测图与对应的真实密度图一起输入至损失函数中进行迭代训练，对模型参数进行更新，优化模型；使用所述测试集测试所述人群密度估计模型的性能；

12、s4：使用训练好的人群密度评估模型进行人群密度估计。

13、进一步地，所述步骤s1的具体方法如下：

14、s101：对采集到的高密度人群图像中含有人头的像素进行标注，记为xi；图像中有n个被标注的人头的计算过程为：

15、

16、其中，d(x)表示在像素x位置上是否有人头信息，i为第i个被标注的人头，x为人群图像中像素点的位置，δ(·)为增量函数；

17、s102：对采集到的高密度人群图像进行数据增强操作，增加人群计数数据集中的图片数量，再将数据增强后的人群计数数据集划分为训练集和测试集；

18、s103：采用高斯模糊对图片中的每一个人头进行处理，生成真实密度图，具体计算公式为：

19、dgt(x)＝d(x)*gσ(x)；

20、其中，gσ(x)表示标准偏差为σ的高斯核卷积函数，σ为高斯核大小，dgt(x)表示在像素x位置放置一个高斯核以表示该位置有人头信息。

21、进一步地，所述步骤s102中数据增强操作的具体方法为；在图像的不同位置随机进行裁剪形成补丁，对补丁进行镜像或反转处理，使得人群计数数据集中的图片数量加倍。

本文档来自技高网...

【技术保护点】

1.一种基于深度神经网络的人群密度估计方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述步骤S1的具体方法如下：

3.根据权利要求2所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述步骤S102中数据增强操作的具体方法为；在图像的不同位置随机进行裁剪形成补丁，对补丁进行镜像或反转处理，使得人群计数数据集中的图片数量加倍。

4.根据权利要求1所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述前端网络对输入图像I进行底层特征提取，生成底层特征图Fvgg，具体计算公式为：

5.根据权利要求1所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述差值纹理模块将前端网络生成的底层特征图Fvgg经过n层卷积层卷积后与底层特征图Fvgg作差，并经过sigmoid激活函数处理得到差值图；将所述差之途与底层特征图Fvgg相乘，并将得到的多个特征图按像素相加，相加后的特征图与底层特征图Fvgg进行通道维度叠加操作，最后通过卷积层恢复通道数进行输出，具体计算公式为：

6.根据权利要求1所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述空洞空间金字塔池化模块和上下文模块分别对差值纹理模块输出的特征图FDT进行处理后，将空洞空间金字塔池化模块和上下文模块的输出进行通道叠加，作为多尺度特征提取模块的输出；所述Inception-v3组对多尺度特征提取模块的输出进行处理，生成Inception-v3组的输出；具体计算公式为：

7.根据权利要求1所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述多通道注意分支将Inception-v3组输出的特征图FInc经过m个不同核大小的卷积层处理后得到m个输出特征图，每个输出特征图经过Rule层、BatchNorm层和sigmoid层处理，得到m张特征图Fm∈RC',H,W，其中，RC',H,W表示为一个维度为(C'，H，W)的三维张量，C'为隐藏层通道数；随后将特征图Fm通过通道维度进行链接得到特征图Fall∈R3*C',H,W，其中，R3*C',H,W表示为一个维度为(3*C'，H，W)的三维张量，对特征图Fall进行融合宽高操作和加维操作，得到特征图FUP∈R3*C',H*W,1，其中，R3*C',H*W,1表示为一个维度为(3*C'，H*W，1)的三维张量；将特征图FUP分别输入多通道注意分支的全局最大池化层和全局平均池化层中，将输出的向量通过通道维度叠加操作得到特征图Fpooling∈R6*C',1,1，其中，R6*C',1,1表示为一个维度为(6*C'，1，1)的三维张量；将特征图Fpooling经过一个后端全卷积网络得到通道注意力向量Fchannel∈RC,1,1，其中，RC,1,1表示为一个维度为(C，1，1)的三维张量；将Inception-v3组输出的特征图FInc与通道注意力向量Fchannel相乘得到具有通道依赖性且通道信息更为丰富的多通道特征图FMuit-channel∈RC,H,W，具体计算公式如下：

8.根据权利要求1所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述终端网络将通过通道维度结合后的多通道特征图Fmultiscale和特征图FMTRA作为输入，生成输入图像的预测人群密度图，具体计算公式如下：

9.根据权利要求1所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述损失函数的具体计算公式为：

...

【技术特征摘要】

1.一种基于深度神经网络的人群密度估计方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述步骤s1的具体方法如下：

3.根据权利要求2所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述步骤s102中数据增强操作的具体方法为；在图像的不同位置随机进行裁剪形成补丁，对补丁进行镜像或反转处理，使得人群计数数据集中的图片数量加倍。

4.根据权利要求1所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述前端网络对输入图像i进行底层特征提取，生成底层特征图fvgg，具体计算公式为：

5.根据权利要求1所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述差值纹理模块将前端网络生成的底层特征图fvgg经过n层卷积层卷积后与底层特征图fvgg作差，并经过sigmoid激活函数处理得到差值图；将所述差之途与底层特征图fvgg相乘，并将得到的多个特征图按像素相加，相加后的特征图与底层特征图fvgg进行通道维度叠加操作，最后通过卷积层恢复通道数进行输出，具体计算公式为：

6.根据权利要求1所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述空洞空间金字塔池化模块和上下文模块分别对差值纹理模块输出的特征图fdt进行处理后，将空洞空间金字塔池化模块和上下文模块的输出进行通道叠加，作为多尺度特征提取模块的输出；所述inception-v3组对多尺度特征提取模块的输出进行处理，生成inception-v3组的输出；具体计算公式为：

7.根据权利要求1所述的一种基于深度神经网络的人群密度估计方法，其特征在于，所述多通道注意分支将inception-v...

【专利技术属性】
技术研发人员：熊李艳，李志炟，曾一涓，黄鹏，黄佳文，陈庆森，汪恒，段学伟，崔强，
申请(专利权)人：华东交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人