一种偏移量解耦的可变形卷积方法技术

技术编号:35775778 阅读:16 留言:0更新日期:2022-12-01 14:19
本发明专利技术公开了一种偏移量解耦的可变形卷积方法,目的是解决可变形卷积偏移量随网络参数初始化的随机值剧烈波动容易导致可变形卷积采样点的堆积错乱问题,增强可变形卷积的特征采样能力。技术方案是将传统可变形卷积模块中的偏移量图解耦成初始偏移量图和尺度图的乘积,并通过定义额外的损失在深度学习训练过程中对初始偏移量和尺度进行约束。经验证,在数据集SHA上,使用本方法的平均误差人数达到62.3,相比传统方法降低了1.8;在数据集SHB上,使用本方法的平均误差人数达到8.3,相比传统方法降低了0.4,实验表明本发明专利技术可以有效提升可变形卷积的性能。偏移量解耦的可变形卷积是通用模块,不限于人群密度估计领域,可在多个领域替换可变形卷积进行应用。领域替换可变形卷积进行应用。领域替换可变形卷积进行应用。

【技术实现步骤摘要】
一种偏移量解耦的可变形卷积方法


[0001]本专利技术涉及计算机视觉、深度学习等信息技术类应用领域,具体涉及一种偏移量解耦的可变形卷积方法。

技术介绍

[0002]随着经济社会的发展,城市人口密集度越来越高,车站、广场、商场等公共场所人流量大,给公共安全管理造成了巨大压力。因此对环境中的人群进行计数或密度估计,可以指导制定合理有效的管理方案,发现潜在的安全风险,具有重要的应用价值和研究意义。随着人工智能技术席卷全球,利用视觉传感器拍摄的图像数据进行人群密度估计成为计算机视觉的一个重要研究领域。
[0003]传统的人群密度估计算法依赖人工通过HOG[Dalal等人,用于人体检测的方向梯度直方图,2005年发表在CVPR会议第886页至第893页]等特征算子来抽取图像特征,融合多种特征后基于回归方法估计人群密度,手工提取的特征难以适应复杂多变的场景,泛化性能低,存在很大局限性。近些年来,深度学习算法通过自动学习语义,提取图像的深层特征,尤其是卷积神经网络(Convolution Neural Network,CNN),在计算机视觉的各个领域都取得了优异成绩。
[0004]最早将CNN应用到人群统计研究的是Wang和Fu等人,Wang等人[Wang等人,高密度人群的深度人群计数,2015年发表在ACMMM会议第1299页至第1302页]基于AlexNet网络设计了端到端的深度回归模型,建立人群图像与计数之间的映射。Fu等人[Fu等人,基于卷积神经网络的快速人群密度估计,2015年发表在期刊EAAI第43期第11卷81页至第88页]按预设标准将图像分为五个密度等级,采用二级ConvNet网络对图像进行分析。
[0005]人群密度估计应用场景中的一个关键问题是如何解决尺度差异带来的负面影响。基于成像原理,同一场景,不同距离,人头尺度差异巨大。数据集中每个人头的标注方式是人头中间的近似位置“打点”,形成点图,无法表征人头的大小。在实际处理过程中,一般采用高斯函数对点图进行模糊,进而得到密度图,通过深度神经网络学习输入图像到密度图的映射。但是由于密度图缺少人头的尺度信息,普通的神经网络模块难以具备较好的尺度适应能力,导致人群密度估计模型性能受尺度影响较大。
[0006]为了解决人群密度估计的尺度问题,主要方法是采用多尺度特征融合以适应不同尺度人头的检测。Zhang等人[Zhang等人,基于多列卷积神经网络的单图像人群计数,2016年发表在CVPR会议第589页至第597页]最早提出多列结构的CNN网络来建立图像到密度图的映射,以应对多尺度特征提取,不同的列对应不同的尺度。Onoro等人[Onoro等人,基于深度学习的无透视人群计数,2016年发表在ECCV会议第615页至第629页]提出了尺度感知计数模型Hydra

CNN,使用对应于不同尺度图像块的特征金字塔进行密度图估计。Boominathan等人[Boominathan等人,CrowdNet:用于密集人群计数的深度卷积网络,2016年发表在ACMMM会议第640页至第644页]考虑由拍摄视角不同带来的尺度变化问题,提出了CrowdNet模型,使用深层、浅层双列网络来处理图像中的尺度变化问题。此类方法会造成网
络参数剧增,计算量也随之上涨,也存在过拟合问题,而且只适用于针对有限数量的离散尺度特征进行建模,对真实场景下的连续尺度特征变化往往无能为力。因此Li等人[Li等人,CSRNet:用于理解高度拥塞场景的膨胀卷积神经网络,2018年发表在CVPR会议第1091页至第1100页]提出了基于膨胀卷积的CSRNet模型,可在分辨率不降低的前提下获得更大的感受野,聚集场景中的多尺度信息,实现更高精度的密度估计。
[0007]可变形卷积由Dai等人[Dai等人,可变形卷积,2017年发表在ICCV会议第764页至第773页]提出。对于每个特征位置,可变形卷积都生成一组卷积采样点偏移量,进而使得在该位置的卷积核采样点发生偏移,从而实现自适应的感受野分配,具备自适应不同尺度大小的能力,结构如图1所示。Guo等人[Guo等人DADNet:基于扩张注意可变形卷积网络的人群计数,2019年发表在ACMMM会议第1823页至第1832页]提出了DADNet网络模型,采用不同扩张率的尺度感知注意力融合方法,以捕获感兴趣的人群区域的不同人头尺度,并利用可变形卷积生成高质量的密度图。Liu等人[Liu等人,ADCrowdNet:用于人群密度估计的注意力注入可变形卷积网络,2019年发表在CVPR会议第3225页至第3234页]融合视觉注意力机制和可变形卷积设计了ADCrowdNet模型,包含注意力图生成器和密度图估计器两个部分,前者完成人群区域检测与拥塞程度计算,后者利用这些先验知识基于可变形卷积网络生成高质量密度图。
[0008]可变形卷积通过学习卷积参数采样点的坐标偏移量,可以实现卷积可调节感受野分配的能力。然而,可变形卷积的偏移量图(Offset Map)不容易学习。可变形卷积的模块结构如图1所示,当神经网络参数随机初始化时,得到的偏移量卷积层(Offset Conv)参数也是随机的,而生成的偏移量完全由输入特征图(Input Feature)和Offset Conv决定,因此通过其生成的偏移量波动极大,部分位置的采样点的偏移量方差过大,使得可变形卷积的采样点堆积错乱,削弱其特征采样能力,导致无法充分挖掘可变形卷积的潜能。
[0009]因此,针对可变形卷积偏移量学习困难的问题,本专利技术提出了一种新型的可变形卷积方法——偏移量解耦的可变形卷积。ODConv将传统可变形卷积的偏移量图Offset map解耦成初始偏移量图Pre_offset map和尺度图Scale map的乘积,并通过额外的损失在学习过程中对初始偏移量和尺度进行约束,以更精细化地控制来更好地挖掘可变形卷积的潜在性能。为了验证本专利技术的科学性、有效性,将针对人群密度估计问题,以CSRNet作为Baseline,通过替换最后一层膨胀卷积为可变形卷积,采用SHA和SHB两类数据集进行实验。应当指出,本专利技术提出的偏移量解耦的可变形卷积能够应用到所有可用可变形卷积的领域,不限于人群密度估计。

技术实现思路

[0010]本专利技术所要解决的技术问题是:提供一种偏移量解耦的可变形卷积方法,解决可变形卷积偏移量随网络参数初始化的随机值剧烈波动容易导致可变形卷积采样点的堆积错乱问题,增强可变形卷积的特征采样能力。
[0011]本专利技术为解决上述技术问题采用以下技术方案:
[0012]一种偏移量解耦的可变形卷积方法,包括以下步骤:
[0013]步骤1:搭建卷积神经网络模型,嵌入偏移量解耦的可变形卷积模块(Offset

decoupled Deformable Convolution,ODConv);
[0014]步骤2:定义额外的损失函数对初始偏移量与尺度进行约束,并设计权重系数加入总体损失函数;
[0015]步骤3:将数据集作为输入进行训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种偏移量解耦的可变形卷积方法,其特征在于,包括以下步骤:步骤1:搭建卷积神经网络模型,嵌入偏移量解耦的可变形卷积模块(Offset

decoupled Deformable Convolution,ODConv);步骤2:定义额外的损失函数对初始偏移量与尺度进行约束,并设计权重系数加入总体损失函数;步骤3:将数据集作为输入进行训练,不断调整网络参数,根据准确率和损失函数获得最优训练模型;步骤4:将使用本发明的模型结果与没有使用可变形卷积的Baseline和嵌入传统可变形卷积的模型做对比,验证模型可行性。2.根据权利要求1所述的偏移量解耦的可变形卷积,其特征在于,步骤1所述的ODConv将输入特征图分别经过卷积层Pre_Offset Conv和Scale Conv得到初始偏移量图Pre_Offset map和尺度图Scale map,然后将Pre_Offset map和Scale map逐位置相乘,进而得到偏移量图Offset map,最后利用Offset map对输入特征图做可变形卷积得到输出特征图,如图2所示。3.根据权利要求1所述的偏移量解耦的可变形卷积,其特征在于,步骤1所述的ODConv可以应用到所有可用可变形卷积的领域,替换可变形卷积模块(Deformable Convolution,DConv),结构如图1所示,不限于人群密度估计。4.根据权利要求1所述的偏移量解耦的可变形卷积,其特征在于,步骤2所述的额外损失函数包括对于Scale map的约束损失Scale loss和对于Pre_Offset map的约束损失Pre_Offset loss,具体定义如下:Scale loss:其中S为Scale map,S
t
为Target scale map,S
t
的每个值设置为1,N为每个批次的图像数目。Pre_Offset loss:其中Off为Pre_Offset map,Off
t
为Target pre_offset map,Off
t
的每个值为0。5.根据权利要求1所述的偏移量解耦的可变形卷积,其特征在于,步骤2所述的额外损失函数以权重λ加入总体损失函数,公式如下:l
all
=λ(l
s
+l

【专利技术属性】
技术研发人员:吴瑶胡亚清王聪睿顾善植王刚
申请(专利权)人:苏州荟诗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1