本发明专利技术公开了一种利用特征图融合的目标检测方法,包括以下步骤:首先利用ZF网络提取图像特征并得到一系列处于不同层次的特征图;其次将ZF网络提取的图像特征图中的最深层特征图和浅层特征图相融合得到新特征图;再次将新特征图输入到RPN网络中得到区域建议;最后将新特征图和区域建议输入到ROIPooling层中得到区域建议的特征并同时对特征进行分类和对区域建议进行边框回归得到目标检测结果。本发明专利技术可以检测出图像中多种类别的目标,且所用的图像无需特定的图像采集设备采集。
【技术实现步骤摘要】
一种利用特征图融合的目标检测方法
本专利技术涉及计算机视觉领域,尤其涉及一种利用特征图融合的目标检测方法。
技术介绍
目标检测一直是事件识别、智能交通等领域重要且困难的课题之一,它要完成的任务是对待检测图像中数目不定的目标进行定位和分类,定位即确定图像中目标的具体位置并以边界框的形式标出目标位置,分类即确定图像中目标是什么类别。目前已有的目标检测方法可分为传统的目标检测方法和基于深度学习的目标检测方法两大类。由于传统方法在某些情况下的检测效果与实际需求有一定的差距,而基于深度学习的目标检测方法利用卷积神经网络(CNN)自动提取图像特征且提取的特征鲁棒性更强、检测效果更好,因此近几年的目标检测方法一般都基于深度学习实现。然而,多数已有的基于深度学习的目标检测方法在使用CNN提取图像特征时都仅利用了CNN所提取的特征图中最深层的特征图并未利用浅层的特征图,且目标的检测精度在某些方面不能满足实际需求。GirshickR和DonahueJ在文章“Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation.ComputerVisionandPatternRecognition.IEEE,2014:580-587”中所提方法用CNN提取区域建议特征的过程中存在计算冗余的问题,且所提方法的目标检测精度相对较低。GirshickR在文章“FastR-CNN.ComputerVision.IEEE,2015:1440-1448”中所提方法是非端到端的,且目标的检测精度相对较低。RedmonJ和DivvalaS在文章“Youonlylookonce:Unified,real-timeobjectdetection.ComputerVisionandPatternRecognition.IEEE,2016:779-788”中所提方法对小目标的检测精度相对较低。
技术实现思路
针对上述技术问题,本专利技术的目的在于提供一种利用特征图融合的目标检测方法,本专利技术通过将ZF网络提取的不同层次的特征图进行融合,得到了检测精度更高的目标检测结果。为了解决上述存在的技术问题,本专利技术所述方法的是通过以下技术方案实现的:一种利用特征图融合的目标检测方法,其特征在于,包括如下步骤:步骤S1:利用ZF网络提取图像特征并得到特征图;步骤S2:对所得特征图进行特征图融合并得到新特征图:步骤S3:通过RPN网络获取区域建议;步骤S4:把新特征图和区域建议输入到后续网络层中得到目标检测结果。上述技术方案中,所述步骤S1包括以下步骤:步骤S101:对输入图像进行归一化处理,使图像的大小均为224×224像素;步骤S102:利用ZF网络提取归一化后的图像特征并得到一系列处于不同层次的特征图,其中ZF网络(ZFNet)是一种卷积神经网络。上述技术方案中,所述步骤S2包括以下步骤:步骤S201:根据特征图融合思想选取ZF网络提取的第3层和第4层浅层特征图Conv3和Conv4;步骤S202:利用1×1的卷积核对浅层特征图Conv3和Conv4进行降维,且降维到特征图Conv5的大小;步骤S203:将降维后的特征图Conv3和Conv4与特征图Conv5中进行融合得到新特征图。上述技术方案中,所述步骤S201包括以下步骤:步骤S2011:根据卷积神经网络提取的不同层次的特征图具有的不同特点,总结出将浅层特征图降维后和最深层特征图进行融合得到新特征图;步骤S2012:根据特征图融合及ZF网络的结构、卷积层数及各层次特征图需要降维的具体情况,确定选取ZF网络中第3层和第4层卷积层产生的特征图Conv3和Conv4。上述技术方案中,所述步骤S202中对浅层特征图Conv3和Conv4进行降维的计算公式如下:GConvi(m,n,d)=f(gConvi(m,n,k)*δConvi(1,1,k)+b)其中,参数m、n分别表示特征图的长和宽,k和d和分别表示浅层特征图降维前的通道数和浅层特征图降维后的通道数,gConvi(m,n,k)表示浅层特征图Convi且i的取值为3或4,GConvi(m,n,d)表示gConvi(m,n,k)降维后的特征图,δConvi(1,1,k)表示得到的GConvi(m,n,d)时所需的1×1的卷积核,b表示得到GConvi(m,n,d)时所需的标量参数,*表示卷积,f()表示激活函数。上述技术方案中,所述步骤S203中将降维后的特征图Conv3和Conv4与特征图Conv5中进行融合的计算公式如下:Fnew(m,n,d)=∑λiGConvi(m,n,d)+γgConv5(m,n,d)其中,常量参数λi和γ分别表示特征图融合时浅层特征图和最深层特征图的权值,Fnew(m,n,d)表示新特征图,gConv5(m,n,d)表示特征图Conv5。上述技术方案中,所述步骤S3包括以下步骤:步骤S301:将新特征图输入到RPN(RegionProposalNetwork,区域建议网络)网络中得到候选窗口,其过程如下:利用3×3的卷积核在输入的新特征图上滑动,并在3×3的卷积核滑过的每个位置处都生成12种候选窗口,其中包括3种长宽比例{1:1,1:2,2:1}和4种面积种类{64×64,128×128,256×256,512×512},卷积核滑过新特征图的所有位置后得到所有的候选窗口;步骤S302:利用Softmax层从中选取包含目标的候选窗口,其过程如下:Softmax层是一种具有多分类功能的卷积神经网络层,将候选窗口分成包含目标的候选窗口和不包含目标的候选窗口,且Softmax层为每一个包含目标的候选窗口生成一个分数,根据该分数选取候选窗口;步骤S303:通过非极大值抑制对包含目标的候选窗口进行再次筛选,并将筛选出的候选窗口作为RPN网络的输出,得到区域建议。上述技术方案中,所述步骤S4包括以下步骤:步骤S401:将新特征图和区域建议输入到ROIPooling层中得到区域建议的特征,其中ROI(RegionofInterest)表示新特征图上的区域建议,ROIPooling层的作用是将新特征图上的区域建议下采样到固定尺寸;步骤S402:用Softmax层对区域建议的特征进行分类得到目标的类别,同时进行边框回归得到更加准确的目标边界框,得到图像的目标检测结果。上述技术方案中,步骤S401具体包括如下步骤:步骤S4011:把区域建议按照由归一化的图像到最深层特征图Conv5的尺度变化进行相同的变化映射;步骤S4012:将映射后的区域建议在水平和竖直都分为7份;步骤S4013:对每一份都进行maxpooling最大值下采样处理,得到区域建议的特征且特征的大小均为7×7像素。由于采用上述技术方案,本专利技术与现有技术相比,具有如下有益效果:1、与ZF网络提取的最深层特征图相比,由特征图融合得到的新特征图更有利于小目标的检测、更具鲁棒性。2、所用图像无需特定的图像采集设备采集,且适用于不同场景下的彩色图像。3、可以用于多类别目标检测和单类别目标检测,且在包含小目标较多的数据集上目标的检测精度较高。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描本文档来自技高网...
【技术保护点】
1.一种利用特征图融合的目标检测方法,其特征在于,包括如下步骤:步骤S1:利用ZF网络提取图像特征并得到特征图;步骤S2:对所得特征图进行特征图融合并得到新特征图:步骤S3:通过RPN网络获取区域建议;步骤S4:把新特征图和区域建议输入到后续网络层中得到目标检测结果。
【技术特征摘要】
1.一种利用特征图融合的目标检测方法,其特征在于,包括如下步骤:步骤S1:利用ZF网络提取图像特征并得到特征图;步骤S2:对所得特征图进行特征图融合并得到新特征图:步骤S3:通过RPN网络获取区域建议;步骤S4:把新特征图和区域建议输入到后续网络层中得到目标检测结果。2.根据权利要求1所述的目标检测方法,其特征在于,所述步骤S1包括以下步骤:步骤S101:对输入图像进行归一化处理,使图像的大小均为224×224像素;步骤S102:利用ZF网络提取归一化后的图像特征并得到一系列处于不同层次的特征图。3.根据权利要求2所述的目标检测方法,其特征在于,所述步骤S2包括以下步骤:步骤S201:根据特征图融合思想选取ZF网络提取的第3层和第4层浅层特征图Conv3和Conv4;步骤S202:利用1×1的卷积核对浅层特征图Conv3和Conv4进行降维,且降维到特征图Conv5的大小;步骤S203:将降维后的特征图Conv3和Conv4与特征图Conv5中进行融合得到新特征图。4.根据权利要求3所述的目标检测方法,其特征在于,所述步骤S201包括以下步骤:步骤S2011:根据卷积神经网络提取的不同层次的特征图具有的不同特点,总结出将浅层特征图降维后和最深层特征图进行融合得到新特征图;步骤S2012:根据特征图融合及ZF网络的结构、卷积层数及各层次特征图需要降维的具体情况,确定选取ZF网络中第3层和第4层卷积层产生的特征图Conv3和Conv4。5.根据权利要求3所述的目标检测方法,其特征在于,所述步骤S202中对浅层特征图Conv3和Conv4进行降维的计算公式如下:GConvi(m,n,d)=f(gConvi(m,n,k)*δConvi(1,1,k)+b)其中,参数m、n分别表示特征图的长和宽,k和d和分别表示浅层特征图降维前的通道数和浅层特征图降维后的通道数,gConvi(m,n,k)表示浅层特征图Convi且i的取值为3或4,GConvi(m,n,d)表示gConvi(m,n,k)降维后的特征图,δConvi(1,1,k)表示得到的GConvi(m,n,d)时所需的1×1的卷积核,b表示得到GConvi(m,n,d)时所需的标量参数,*表示卷...
【专利技术属性】
技术研发人员:张世辉,王红蕾,桑榆,何欢,
申请(专利权)人:燕山大学,
类型:发明
国别省市:河北,13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。