一种用于羊脸检测的全局上下文增强方法技术

技术编号:37296362 阅读:23 留言:0更新日期:2023-04-21 22:42
本发明专利技术公开了一种用于羊脸检测的全局上下文增强方法,目的是使得模型网络中特征提取模块具有学习全局上下文信息的能力,从而使模型在检测羊脸的时候能够感知羊的身体以及背景信息,提高羊脸检测精度。本发明专利技术方法主要是先通过池化操作聚合全局信息,然后采用一维卷积操作进行信息交互得到全局上下文向量,最后将全局上下文向量与输入特征图相加实现全局上下文增强。本发明专利技术全局上下文增强方法可以学习到全局上下文特征,增强了模型网络的全局信息感知能力,而且具有轻量化和即插即用的特点,它可以被添加到任意目标检测模型的主干网络中,可以有效提高模型羊脸检测精度。可以有效提高模型羊脸检测精度。可以有效提高模型羊脸检测精度。

【技术实现步骤摘要】
一种用于羊脸检测的全局上下文增强方法


[0001]本专利技术属于计算机视觉领域,具体涉及一种用于羊脸检测的全局上下文增强方法。

技术介绍

[0002]卷积神经网络是计算机视觉领域重要的方法,广泛的用于图像分类、目标检测和目标分割任务上。卷积神经网络中最重要的就是卷积运算,它的特点是权值共享、局部连接和稀疏交互,其具有强大的局部特征提取能力。
[0003]羊脸检测属于目标检测领域,目标检测的代表性检测模型有两阶段的Faster R

CNN和一阶段的RetinaNet、YOLO等。
[0004]但是,目前卷积神经网络仅对局部特征有很强的建模能力,缺乏对全局信息的感知能力,而在羊脸检测中,使模型能够建模全局上下文信息有助于提高模型的检测精度。

技术实现思路

[0005]本专利技术的目的在于使得模型网络中特征提取模块具有学习全局上下文信息的能力,从而使模型在检测羊脸的时候能够感知羊的身体以及背景信息,提高羊脸检测精度。
[0006]本专利技术为解决其问题,提出一种用于羊脸检测的全局上下文增强方法,其技术方案包括以下步骤:
[0007]1.一种用于羊脸检测的全局上下文增强方法,其特征在于包括以下步骤:
[0008]步骤一、对输入特征图进行通道池化,用公式表示为:
[0009]y(x)=GAP(x)+GMP(x)
[0010]其中,x是输入特征图,形状是CxHxW,C代表特征图的通道数,H代表特征图的高,W代表特征的宽;y是对输入特征图池化后的结果,形状为Cx1x1;GAP是全局平均池化操作,GMP是全局最大池化操作;
[0011]步骤二、在对特征图进行通道池化后,使用一维卷积进行信息交互,用公式表示为:
[0012]w(y)=Conv1D(y)
[0013]其中,y是步骤一的计算结果,w是计算出的全局上下文向量,Conv1D表示一维卷积操作,这里的一维卷积核大小为5;
[0014]步骤三、将计算得到的全局上下文向量w与输入特征图进行相加操作,公式如下:
[0015][0016]其中,x是输入特征图,w是计算得到的全局上下文向量,是输出特征图结果;
[0017]步骤四、将基于步骤一、二、三的计算过程添加到ResNet50网络中的残差块中,具体的,添加到残差块中的1x1卷积后;
[0018]步骤四、将羊脸训练数据集输入基于步骤四构建的目标检测网络模型进行训练;所述的羊脸目标检测网络模型包括Faster RCNN网络模型;
[0019]步骤五、将羊脸验证数据集数据输入到训练好的目标检测网络模型,得到目标检测的结果。
[0020]本专利技术的有益效果为:本专利技术所设计的方法,使卷积神经网络具有全局上下文信息提取的能力,可以有效的提升羊脸检测的精度。
附图说明
[0021]图1是本专利技术的全局上下文增强方法结构图。
具体实施方式
[0022]下面结合附图和具体实施方式对本专利技术作详细说明。具体步骤如下:
[0023]步骤一:准备羊脸检测数据集,训练集和验证集分别包含4297张图片和1075张图片,共标注出9246和1919个羊脸。数据集有1个羊脸类别,输入图片大小为300x300。
[0024]步骤二:采用Faster R

CNN搭建基本羊脸检测模型,neck采用FPN,backbone使用ResNet

50模型。
[0025]步骤三:将本专利技术全局上下文增强模块添加到Faster R

CNN算法模型的主干网络ResNet

50的残差块中,如图1所示。
[0026]步骤四:将羊脸训练集数据送入网络,进行模型网络的训练。模型的优化器采用SGD,学习率设置为0.012,momentum设置为0.9,weight_decay设置为0.0001,单个GPU batchize设置为4,共训练24个epoch。在前6个epoch采用warm up训练策略,warm_up ration设置为0.001,在第16和20个epoch将学习率乘0.1。训练环境为python3.7.3,PyTorch 1.7.1,GPU采用4个GeForce RTX 2080Ti,cuda版本为10.1。
[0027]步骤五:训练完成后,使用羊脸验证集对模型进行评测,评价指标采用mAP和在各类别上的精度。
[0028]表1,本专利技术与Faster RCNN在羊脸验证集上检测结果对比
[0029]方法RecallmAPFaster R

CNN84.279.1本专利技术86.280.5
[0030]表1给出了本专利技术方法,即加入全局上下文增强方法的Faster R

CNN与Faster R

CNN方法在羊脸验证集上检测精度比较结果。第一行进行方法比较的指标,包括召回率Recall和平均精度mAP。是第二行是Faster R

CNN方法的检测结果,第三行是本专利技术的检测结果,加粗字体标识了所比较项目最高精度。从表1可以看出,本专利技术的平均检测精度mAP高出Faster R

CNN方法1.4%,召回率Recall高出2.0%,可见全局上下文增强方法对羊脸检测的召回率和平均精度的提升效果十分显著。
[0031]本专利技术未尽事宜为公知技术。
[0032]上述具体实施方式只为说明本专利技术的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本专利技术的内容并据以实施,并不能以此限制本专利技术的保护范围。凡根据本专利技术精神实质所作的等效变化或修饰,都应涵盖在本专利技术的保护范围之内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于羊脸检测的全局上下文增强方法,其特征在于包括以下步骤:步骤一、对输入特征图进行通道池化,用公式表示为:y(t)=GAP(x)+GMP(x)其中,x是输入特征图,形状是CxHxW,C代表特征图的通道数,H代表特征图的高,W代表特征的宽;y是对输入特征图池化后的结果,形状为Cx1x1;GAP是全局平均池化操作,GMP是全局最大池化操作;步骤二、在对特征图进行通道池化后,使用一维卷积进行信息交互,用公式表示为:w(t)=Conv1D(y)其中,y是步骤一的计算结果,w是计算出的全局上下文向量,Conv1D表示...

【专利技术属性】
技术研发人员:韩高格唐晶磊苏庆国
申请(专利权)人:西北农林科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1