本发明专利技术提供一种基于多池化融合通道注意力的目标检测方法及其应用,包括步骤1,准备图像数据集用于测试和训练,使用训练集的数据来训练模型,用测试集上的误差作为最终模型在应对现实场景时的泛化误差;步骤2,构建基于目标检测的多池化融合通道注意力网络;步骤3,使用训练集图像对多池化融合通道注意力网络模型进行训练;步骤4,使用步骤3训练好的网络模型对测试集图像进行目标检测。本发明专利技术在不显着增加参数量和计算量的情况下,大大提高了特征提取的效果,增加了重要特征信息的聚焦度,从而使得目标检测网络取得了更佳的性能。使得目标检测网络取得了更佳的性能。使得目标检测网络取得了更佳的性能。
【技术实现步骤摘要】
一种基于多池化融合通道注意力的目标检测方法及其应用
[0001]本专利技术属于目标检测
,具体涉及一种基于多池化融合通道注意力的目标检测方法及其应用。
技术介绍
[0002]在深度学习的发展背景下,卷积神经网络已经得到越来越多的人认同,应用也越来越普遍。基于深度学习的目标检测算法利用卷积神经网络(CNN)自动选取特征,然后再将特征输入到检测器中对目标分类和定位。
[0003]在神经网络学习中,一般而言模型的参数越多,则模型的表达能力越强,模型所存储的信息量也越大,但这会带来信息过载的问题。通过引入注意力机制,在众多的输入信息中聚焦于对当前任务更为关键的信息,降低对其他信息的关注度,甚至过滤掉无关信息,就可以解决信息过载问题,并提高任务处理的效率和准确性。
[0004]近年来,注意力机制广泛用于不同的深度学习任务,例如目标检测、语义分割和姿态估计。注意力分为软注意力和硬注意力。软注意力机制分为三个注意域:空间域、通道域和混合域。空间域是指图像中相应的空间变换。通道域直接将信息集中在全局通道中。混合域包含通道注意力和空间注意力。为了让网络将更多的注意力集中在显著目标周围的区域,本专利技术提出了多池化融合通道注意力模块来处理提取的特征图。
技术实现思路
[0005]针对现有技术存在的问题,本专利技术提供一种基于多池化融合通道注意力的目标检测方法,在不过度增加模型参数数量的情况下提高网络的特征表达能力。本专利技术为解决现有技术中存在的问题采用的技术方案如下:一种基于多池化融合通道注意力的目标检测方法,包括以下步骤:步骤1,准备图像数据集用于测试和训练,所述图像数据集包括训练集和测试集,使用训练集的数据来训练模型,用测试集上的误差作为最终模型在应对现实场景时的泛化误差;步骤2,构建基于目标检测的多池化融合通道注意力网络;步骤3,使用训练集图像对多池化融合通道注意力网络模型进行训练;步骤4,使用步骤3训练好的网络模型对测试集图像进行目标检测。
[0006]所述图像数据集的80%作为训练集,20%作为测试集。
[0007]所述步骤1中将图像数据集中所有图像的尺寸调整到512
×
512mm像素大小进行多尺度训练,采用数据增强对图像数据集进行一系列操作,包括:随机翻转,padding填充,随机裁剪,归一化处理,图像失真处理。
[0008]所述步骤2中构建基于目标检测的多池化融合通道注意力网络包括两个阶段:第一阶段(Stage1):执行池化、卷积等操作,对输入特征图进行重塑,该过程属于对注意力机制功能角度的优化,第一阶段的输入为 ,其中M为原始输入特征
图,C、H和W是通道、高度和宽度。首先,将特征图M分为两个分支:普通全局池化和全局协方差池化,普通全局池化中,同时使用平均池化 (Avgpool)和 最大池化(Maxpool)来聚合空间信息,生成两个可选的空间上下文描述符,平均池化对特征图上的每个像素均有反馈,最大池化只在特征图中响应最大的地方有梯度反馈;之后,使用逐元素求和来组合特征向量,为减少参数数量,使用1*1卷积来减少特征图的通道数,得到,其中C'是C的一半,公式表示为: (1)其中M为原始输入特征图,Avg()表示平均池化,Max()表示最大池化,f()表示1*1卷积,M2为普通全局池化分支生成的阶段性特征图。
[0009]基于最大池化和平均池化仅使用一阶信息,不能很好地表示数据特征,引入全局协方差池化 (Covpool),以计算特征图的协方差矩阵(二阶信息),同时选择能代表数据分布的值,第一个分支得到[C',C']之后,特征被重新整形为[C',C',1],其中C',C',1分别表示通道、高度和宽度。为了得到与M2相同的维度,使用3*3卷积得到M1,卷积核的大小为[C',1],M1的公式如下:(2)其中M为原始输入特征图,f1,f2指卷积操作,是协方差池化,δ是重塑操作,M1是全局协方差池化分支生成的阶段性特征图,M1和M2的特征通过add操作进行融合,最后得到同时具备普通全局池化和全局协方差池化融合信息的特征图,其中C'、H和W是通道、高度和宽度。
[0010]第二阶段(Stage2),特征图形状的优化,用以恢复输入特征图的维度,第二阶段展示了最终的特征一体化操作,来自第一阶段的M
S
经过1*1卷积,以保持与输入M具有同样的通道数,在此之后,不考虑采用普遍的全连接层,而是直接使特征M
S
通过一个1D卷积进行学习,因为1D卷积具备良好的跨通道信息获取能力,因此用其替换两次全连接,并通过1D卷积与维度的压缩(squeeze)和解压缩(unsqueeze)操作获得特征,其通道、高度和宽度保持了原状,这样就通过1D卷积学习到了通道与通道间的关系,公式可以写作:(3)其中M
S
为第一阶段得到的特征图,f3表示1*1卷积,f
1D
是一维卷积,同时,Sigmoid激活函数是每个神经元的非线性处理加权计算结果,给予神经网络非线性映射能力。最后,权重系数M3乘以输入特征M,并进行自适应特征优化,获得输出特征图,其公式为:Y=λ(M3⊙
M)(4)其中M为原始输入特征,λ为Sigmoid激活函数,
⊙
为特征相乘操作,Y为第二阶段得到的最终特征图。
[0011]所述步骤3中将训练集图像大小统一为512
×
512,学习率设置为0.001,batch_size大小设置为4,训练次数为12个epoch,并在第8个和第11个epoch时,将学习率降为原来
的1/10。
[0012]一种基于多池化融合通道注意力的目标检测方法的应用,具体应用过程如下:将输入图片(Input),经过特征提取网络(ResNet50)进行特征提取,将提取到的特征信息输出,然后经过多池化融合通道注意力机制(DCA)处理,处理后得到的特征信息,传入特征融合结构(FPN)进行特征融合,再传入检测头(Head)进行检测,实现目标的回归损失(GIoU Loss)回归及分类损失(Focal Loss)分类,最后输出特征图片(Output)。
[0013]所述特征提取网络(ResNet50)输出三个不同尺寸的特征图:C1,C2,C3,步距分别为4,8, 16,通道大小分别为256,512,1024,该应用过程核心结构为多池化融合通道注意力机制(DCA),其作用在于增强重要特征信息的表达能力,同时抑制非必要特征,其位置位于三个特征图C1, C2, C3之后,接受来自ResNet50提取后的特征,之后特征信息传入FPN结构进行特征融合操作,再传入Head用于物体的检测,实现目标的GIoU Loss回归及Focal Loss分类,最后输出特征图片Output。
[0014]本专利技术具有如下优点:与一般通道注意力机制相比,本专利技术提出基于多池化融合通道注意力的目标检测方法从多池化、不同维度融合的角度捕获特征信息,同时考虑了不同特征信息之间的相互交叉以及通道与通道之间的联系,在不显着增加参数量和计算本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于多池化融合通道注意力的目标检测方法,其特征在于,包括以下步骤:步骤1,准备图像数据集用于测试和训练,所述图像数据集包括训练集和测试集,使用训练集的数据训练模型,将测试集上的误差作为最终模型在应对现实场景时的泛化误差;步骤2,构建基于目标检测的多池化融合通道注意力网络;步骤3,使用训练集图像对多池化融合通道注意力网络模型进行训练;步骤4,使用步骤3训练好的网络模型对测试集图像进行目标检测。2.如权利要求1所述的一种基于多池化融合通道注意力的目标检测方法,其特征在于:所述图像数据集的80%作为训练集,20%作为测试集。3.如权利要求1所述的一种基于多池化融合通道注意力的目标检测方法,其特征在于:所述步骤1中将图像数据集中所有图像的尺寸调整到512
×
512mm像素大小进行多尺度训练,采用数据增强对图像数据集进行一系列操作,包括:随机翻转,padding填充,随机裁剪,归一化处理,图像失真处理。4.如权利要求1所述的一种基于多池化融合通道注意力的目标检测方法,其特征在于:所述步骤2中构建基于目标检测的多池化融合通道注意力网络包括两个阶段:第一阶段:执行池化、卷积操作,对输入特征图进行重塑,第一阶段的输入为,其中M为原始输入特征图,C、H和W是通道、高度和宽度,首先,将特征图M分为两个分支:分别进行普通全局池化和全局协方差池化,普通全局池化中,同时使用平均池化和最大池化来聚合空间信息,生成两个可选的空间上下文描述符,平均池化对特征图上的每个像素均有反馈,最大池化只在特征图中响应最大的地方有梯度反馈;然后使用逐元素求和组合特征向量,以减少参数数量,使用1*1卷积来减少特征图的通道数,得到 ,其中C'是C的一半,公式表示为: (1)其中M为原始输入特征图,Avg()表示平均池化,Max()表示最大池化,f()表示1*1卷积,M2为普通全局池化分支生成的阶段性特征图;所述全局协方差池化包括计算特征图的协方差矩阵,选择能代...
【专利技术属性】
技术研发人员:王改华,曹清程,甘鑫,翟乾宇,
申请(专利权)人:湖北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。