一种基于编码-解码结构多尺度卷积神经网络的人群计数方法技术

技术编号:24411430 阅读:104 留言:0更新日期:2020-06-06 09:23
本发明专利技术公开了一种基于编码‑解码结构多尺度卷积神经网络的人群计数方法,其特征在于,包括以下步骤:考虑图像的视角扭曲,采用自适应高斯滤波器,计算图像的真值密度图;采用编码‑解码结构,搭建多尺度卷积神经网络模型,所述多尺度卷积神经网络模型的损失函数包括像素空间损失和计数误差描述;对搭建的多尺度卷积神经网络模型进行训练和测试,获得训练好的多尺度卷积神经网络模型;将待估图像输入训练好的多尺度卷积神经网络模型,预测获得人群密度图;对人群密度图进行回归估计,获得待估图像的人员数量。本发明专利技术的方法,能够保留尺度特征和图像的上下文信息;可提升密度图的输出质量。

A population counting method based on multi-scale convolutional neural network with coding decoding structure

【技术实现步骤摘要】
一种基于编码-解码结构多尺度卷积神经网络的人群计数方法
本专利技术属于图像处理
,特别涉及一种基于编码-解码结构多尺度卷积神经网络的人群计数方法。
技术介绍
随着国民经济迅猛发展及城市化进度不断加快,城市人口数量急剧增加,由此带来的社会问题也不断增加;例如,人员拥挤导致踩踏等不安全事故的发生;候车大厅人员的增加对交通调度带来的压力等。解决上述问题需要准确预测出场景下的人群数量,而图像可以清晰直观的反映出实际场景中的人群变化情况,因此基于图像信息的人群密度估计与计数有重要的研究意义。卷积神经网络(ConvolutionalNeuralNetwork,CNN)模型因具有获取深层次特征的能力,在语义分割、目标检测与识别等领域发展迅速,研究人员也将其应用于人群计数领域并取得了较好的效果。Zhang(ZHANGY,ZHOUD,CHENS,etal.Single-ImageCrowdCountingviaMulti-ColumnConvolutionalNeuralNetwork[C]//2016IEEEConferenceonComputerVisionandPatternRecognition(CVPR).LasVegas,NV,USA:IEEE,2016:589-597.)等首次提出一种多列卷积神经网络(Multi-ColumnConvolutionalNeuralNetwork,MCNN)模型,其通过多列CNN结构并行提取多尺度信息,一定程度上解决了多尺度特征提取问题,大大提升了人群计数的精度。受到此多列结构的启发,Zeng(ZENGL,XUX,CAIB,etal.Multi-scaleconvolutionalneuralnetworksforcrowdcounting[C]//2017IEEEInternationalConferenceonImageProcessing(ICIP).Piscataway,NJ,USA:IEEE,2017:465-469.)等提出了一种基于多尺度块(Multi-Block)的人群密度估计模型MSCNN,侧重解决多模型组合(Mulit-Network)和多栏组合模型(Multi-Column)存在的模型优化困难问题,简化了模型训练步骤;但多卷积核提取到的特征经1x1卷积融合,损失了底层特征,进而影响了计数准确度。综上,亟需一种新的基于编码-解码结构多尺度卷积神经网络的人群计数方法。
技术实现思路
本专利技术的目的在于提供一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,以解决基于多列卷积神经网络的人群计数方法存在的多尺度特征信息丢失、融合不佳以及密度图质量不高等问题。本专利技术的方法,能够保留尺度特征和图像的上下文信息;可提升密度图的输出质量。为达到上述目的,本专利技术采用以下技术方案:本专利技术的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,包括以下步骤:步骤1,采集场景的图像,考虑图像的视角扭曲,采用自适应高斯滤波器,计算图像的真值密度图;步骤2,采用编码-解码结构,搭建多尺度卷积神经网络模型,用于计算人群的人员数量;其中,所述多尺度卷积神经网络模型的损失函数包括像素空间损失和计数误差描述;步骤3,根据步骤1采集的图像以及其对应的真值密度图,对步骤2搭建的多尺度卷积神经网络模型进行训练和测试,获得训练好的多尺度卷积神经网络模型;步骤4,将待估图像输入步骤3训练好的多尺度卷积神经网络模型,预测获得人群密度图;对人群密度图进行回归估计,获得待估图像的人员数量。本专利技术的进一步改进在于,步骤1中具体包括:步骤1.1,采集的图像x中第i个坐标为xi的人头标记点,表示为函数δ(x-xi);对于一张具有N个人头标记点的图像,表示为H(x)函数,表达式为:步骤1.2,考虑图像的视角扭曲,采用自适应高斯滤波器Gσ与H(x)函数进行卷积,获得密度图方程,表达式为:第i个坐标为xi的人头标记点的自适应高斯核表达式为:式中,是标记点xi与其最近的K个人头之间的平均距离。本专利技术的进一步改进在于,步骤1.2中,参数β=0.3。本专利技术的进一步改进在于,步骤2搭建的多尺度卷积神经网络模型中:编码器通过多尺度卷积模块捕获多尺度特征,用于从原始图像中学习与尺度相关的特征,实现多尺度信息的有效获取;采用空洞空间金字塔池化模块聚合尺度特征,用于避免细节信息的丢失;解码器对编码器的输出进行上采样,并与前半层的输出特征图经1x1卷积匹配通道数后融合,再经一个3x3的卷积核微调,进行输出,获得预测密度图。本专利技术的进一步改进在于,所述多尺度卷积模块采用四个并列的1x1、3x3、5x5、7x7卷积核聚合上下文语义信息,获取尺度信息。本专利技术的进一步改进在于,所述空洞空间金字塔池化模块,采用4个并行的不同扩张比率的空洞卷积核对不同尺度特征进行重采样,揭示图像的上下文信息;在空洞卷积尾部串行空间金字塔结构,用于将不同大小特征图映射为相同维度空间信息融入图像表示中。本专利技术的进一步改进在于,所述空洞卷积是在标准卷积核中添加空洞,空洞卷积表达式为:式中,w代表卷积核;k代表卷积核尺寸;w[k]表示大小为k的卷积核;a[i]表示第i个输入;*l表示空洞卷积运算;l表示扩张率。本专利技术的进一步改进在于,步骤2的所述多尺度卷积神经网络模型的损失函数中,采用像素空间损失LD反映估计的密度图像素级别的准确程度,表达式为:式中,Di表示第Ki(i=1......M)幅训练样本图像的真值密度图,FD(Ki;θ)表示第Ki(i=1......M)幅训练样本图像的网络输出,θ表示网络的可学习参数;M表示训练图像数量;采用计数误差描述LY增强网络对计数的敏感性,表达式为:式中,FY(Ki;θ)表示第Ki(i=1......M)幅训练样本图像经由预测密度图FD(Ki;θ)积分求和后得到的预测人数,Yi表示第Ki(i=1......M)幅训练样本图像的真值人数;总损失函数L表达式为:L(θ)=LD(1-λ)(θ)+λLY(θ),式中,λ表示计数损失的权值。本专利技术的进一步改进在于,λ的取值为0.5与现有技术相比,本专利技术具有以下有益效果:本专利技术针对目前人群计数存在的尺度变换以及生成密度图质量不佳问题,提出了基于编码-解码结构的多尺度人群密度估计网络模型;模型通过编码-解码结构融合高低级特征,实现密度图质量的提高。具体的,本专利技术提出一种编码-解码结构的多尺度卷积神经网络用于人群计数任务,以解决基于多列卷积神经网络的人群计数方法存在的多尺度特征信息丢失、融合不佳以及密度图质量不高等问题。本专利技术提出一种新的损失函数,在以往像素空间损失函数的基础上考虑了计数损失,可增强网络对计数的敏感性。本专利技术的方法适用于商场、会场等人群分布复杂的场景,可广泛应用于安防以及交通调度等领域。<本文档来自技高网
...

【技术保护点】
1.一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,包括以下步骤:/n步骤1,采集场景的图像,考虑图像的视角扭曲,采用自适应高斯滤波器,计算图像的真值密度图;/n步骤2,采用编码-解码结构,搭建多尺度卷积神经网络模型,用于计算人群的人员数量;其中,所述多尺度卷积神经网络模型的损失函数包括像素空间损失和计数误差描述;/n步骤3,根据步骤1采集的图像以及其对应的真值密度图,对步骤2搭建的多尺度卷积神经网络模型进行训练和测试,获得训练好的多尺度卷积神经网络模型;/n步骤4,将待估图像输入步骤3训练好的多尺度卷积神经网络模型,预测获得人群密度图;对人群密度图进行回归估计,获得待估图像的人员数量。/n

【技术特征摘要】
1.一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,包括以下步骤:
步骤1,采集场景的图像,考虑图像的视角扭曲,采用自适应高斯滤波器,计算图像的真值密度图;
步骤2,采用编码-解码结构,搭建多尺度卷积神经网络模型,用于计算人群的人员数量;其中,所述多尺度卷积神经网络模型的损失函数包括像素空间损失和计数误差描述;
步骤3,根据步骤1采集的图像以及其对应的真值密度图,对步骤2搭建的多尺度卷积神经网络模型进行训练和测试,获得训练好的多尺度卷积神经网络模型;
步骤4,将待估图像输入步骤3训练好的多尺度卷积神经网络模型,预测获得人群密度图;对人群密度图进行回归估计,获得待估图像的人员数量。


2.根据权利要求1所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,步骤1中具体包括:
步骤1.1,采集的图像x中第i个坐标为xi的人头标记点,表示为函数δ(x-xi);对于一张具有N个人头标记点的图像,表示为H(x)函数,表达式为:



步骤1.2,考虑图像的视角扭曲,采用自适应高斯滤波器Gσ与H(x)函数进行卷积,获得密度图方程,表达式为:



第i个坐标为xi的人头标记点的自适应高斯核表达式为:



式中,是标记点xi与其最近的K个人头之间的平均距离。


3.根据权利要求2所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,步骤1.2中,参数β=0.3。


4.根据权利要求1所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,步骤2搭建的多尺度卷积神经网络模型中:
编码器通过多尺度卷积模块捕获多尺度特征,用于从原始图像中学习与尺度相关的特征,实现多尺度信息的有效获取;
采用空洞空间金字塔池化模块聚合尺度特征,用于避免细节信息的丢失;
解码器对编码器的输出进行上采样,并与前半层的输出特征图经1x1卷积匹配通道数后融合,再经一个3x3的卷积核微调,进行输出,获得预测密度图。

【专利技术属性】
技术研发人员:孟月波刘光辉徐胜军纪拓
申请(专利权)人:西安建筑科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1