一种基于混合注意力和特征中心化多尺度融合的小目标检测方法技术

技术编号：41225451 阅读：2 留言：0更新日期：2024-05-09 23:43

本发明专利技术属于目标检测领域，公开了一种基于混合注意力和特征中心化多尺度融合的小目标检测方法，提升小目标检测精度。包括如下步骤：加载准备好的小目标数据集；利用骨干网络提取图片特征；使用混合注意力模块处理低层特征，扩大低层特征感受野，更加关注小目标；使用特征中心化模块处理高层特征，捕捉全局特征依赖关系的同时，关注图像的局部角落区域；将不同层次的特征进行融合；使用检测头对不同层的特征进行目标检测。该基于混合注意力和特征中心化多尺度融合方法能够提高小目标图像检测精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于混合注意力和特征中心化多尺度融合的小目标检测方法，属于目标检测领域。

技术介绍

1、随着深度学习技术的发展，计算机视觉取得了巨大的进步。早期的计算机视觉依赖于低级别的图像处理技术，例如边缘检测、滤波等。借助于深度学习的兴起，计算机视觉在速度和精度上有了大幅度提升，已经在自动驾驶、城市交通和航拍检测中发挥重要作用。目标检测是计算机视觉中极具挑战性的任务之一，包括两个子任务，即对目标的分类和定位。小目标由于尺寸小，特征少且目标易聚集等原因，检测效果始终不理想。

2、基于深度学习的目标检测算法主要分为一阶段和二阶段两类。以rcnn、fasterrcnn为代表的二阶段检测算法在生成候选框的基础上进行回归，具有较高的检测精度，但速度较慢。以retinanet、yolo为代表的一阶段检测算法直接对目标的类别和位置进行预测，具有很快的速度，但是精度不如二阶段检测算法。无论是上述哪种类型的检测算法，对于小目标的检测都无法达到理想的效果。

3、小目标仅仅占据图像的极小部分，且更容易出现聚集，直接提取局部区域的信息十分有限，不利于小目标的检测。多尺度特征融合的方式是提高小目标检测效果的有效手段之一。在利用神经网络提取图片特征时，低层特征保留了图像边缘、轮廓、纹理等局部细节信息，有利于目标定位，高层特征图则包含更加抽象的语义信息，有利于目标分类，但对细节的感知能力较差。现有的目标检测网络对小目标的检测效果欠佳。

技术实现思路

1、专利技术目的：本专利技术的目

2、技术方案：本专利技术所述一种基于混合注意力和特征中心化多尺度融合的小目标检测方法，包括步骤：

3、(1)加载数据集，包括训练数据集、验证数据集和测试数据集；

4、(2)构建小目标检测网络，所述的小目标检测网络包括骨干网络，混合注意力模块、

5、特征中心化模块，多尺度特征融合网络，检测头；图片首先经由骨干网络处理输出四层不同分辨率的特征图，混合注意力模块处理第一阶段的特征图，特征中心化模块处理处理第四阶段特征图，第二第三阶段特征图不做处理，然后将四个不同分辨率的特征图融合，最后用检测头检测；

6、(3)利用训练数据集和验证数据集训练所述小目标检测网络；

7、(4)将测试数据集输入训练好的网络，检测图片中的目标。

8、进一步的，步骤(1)中的数据集为公开小目标数据集visdrone是一个用于无人机视觉的大规模基准数据，集一共有10209张图像，包括训练集的6417张图像，验证集的548张图像，测试开发集的1610张图像，包含大量的小目标。

9、进一步的，步骤(2)中所述的骨干网络输入为大小640*640的图片，包括四个阶段的处理层，第一阶段处理层包含相互之间级联的两个卷积模块和一个网络聚合模块，卷积模块由conv层、bn层和silu激活函数三个子模块级联组成，第二、三、四阶段处理层均由一个最大池化模块和网络聚合模块级联组成，四个阶段分别输出不同分辨率的特征图。

10、进一步的，步骤(2)中的混合注意力模块输入为第一阶段处理层输出的低层特征图，首先利用64个1*1卷积核对输入的低层特征进行降维，减少后续计算量，接着通过级联的通道注意力模块和空间注意力模块，其中通道注意力模块包含两个并联的最大池化层和平均池化层，后接两个级联的全连接层和激活函数层，空间注意力模块同样包含两个并联的最大池化层和平均池化层，后接一个级联的卷积层，计算得到加权后的特征图，最后输入到三个并行的，扩张率分别为1，2，4的扩张卷积模块，将输出的特征图在通道方向上连接，最后利用32个1*1的卷积核降维。

11、进一步的，步骤(2)中的特征中心化模块输入为第四阶段处理层输出的高层特征图，高层特征图经由并行的轻量级mlp模块和lvc模块后在通道方向上来连接，最后利用512个1*1的卷积核降维；其中，轻量级mlp模块由基于深度可分离卷积的模块和基于通道mlp的模块级联组成；这两个模块都经过了通道缩放和droppath操作以提高特征泛化和鲁棒性；lvc模块是一个具有内在字典的编码器，由一个固有的码本和一组可学习的视觉中心比例因子组成。

12、进一步的，步骤(2)中的多尺度特征融合网络将四层不同分辨率的特征图融合，输出为四个不同分辨率的特征图。

13、进一步的，步骤(2)中的检测头分别预测物体的位置、类别和置信度。

14、进一步的，步骤(3)中训练小目标检测网络时物体位置检测头采用ciou损失，类别和置信度损失都采用二元交叉熵损失。

15、进一步的，小目标检测网络总损失为

16、l(o,c,o,c,l,g)＝λ1lconf(o,c)+λ2lcls(o,c)+λ3lloc(l,g)

17、其中lconf、lcls、lloc分别表示置信度损失，类别损失，定位损失；

18、其中，置信度损失如下，o为预测的目标边界框与真实边界框的iou值，oi∈[0,1]，代表预测的第i个目标边界框与真实边界框的iou值，c为预测值，为预测值c通过sigmod函数得到的预测置信度；n为正负样本数；

19、

20、类别损失如下，oij∈{0,1}，oij＝0代表预测边界框i中不存在第j类目标，反之则存在；cij为预测值，为cij经过sigmod函数得到的目标概率，npos为正样本的个数；

21、

22、定位损失如下，l、g分别表示预测框和真实框，ρ(bl,bg)为预测框和真实框中心点的距离，c为两个框最小外接矩形的对角线距；υ是修正因子，考虑目标框的形状和方向，iou表示预测框和真实框交集面积和并集面积之比，α表示比例系数，w,h分别表述目标框的宽和高；

23、

24、

25、

26、

27、本专利技术提出了一种基于混合注意力和特征中心化多尺度融合网络的小目标检测方法，通过将混合注意力模块加强网络对小目标的关注，同时通过不同扩张率的扩张卷积获得更多尺度的信息。通过将特征中心化模块能够让网络关注层内特征的长距离依赖关系和角落信息，有助于小目标的检测。

本文档来自技高网...

【技术保护点】

1.一种基于混合注意力和特征中心化多尺度融合的小目标检测方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于混合注意力和特征中心化多尺度融合的小目标检测方法，其特征在于：所述的骨干网络输入为大小640*640的图片，包括四个阶段的处理层，第一阶段处理层包含相互之间级联的两个卷积模块和一个网络聚合模块，卷积模块由Conv层、BN层和SiLU激活函数三个子模块级联组成，第二、三、四阶段处理层均由一个最大池化模块和网络聚合模块级联组成，四个阶段分别输出不同分辨率的特征图。

3.根据权利要求2所述的基于混合注意力和特征中心化多尺度融合的小目标检测方法，其特征在于：所述的混合注意力模块输入为第一阶段处理层输出的低层特征图，首先利用64个1*1卷积核对输入的低层特征进行降维，接着通过级联的通道注意力模块和空间注意力模块，其中通道注意力模块包含两个并联的最大池化层和平均池化层，后接两个级联的全连接层和激活函数层，空间注意力模块同样包含两个并联的最大池化层和平均池化层，后接一个级联的卷积层，计算得到加权后的特征图，最后输入到三个并行的，扩张率分别为1，2，4的扩张卷

4.根据权利要求3所述的基于混合注意力和特征中心化多尺度融合的小目标检测方法，其特征在于：所述的特征中心化模块输入为第四阶段处理层输出的高层特征图，高层特征图经由并行的轻量级MLP模块和LVC模块后在通道方向上来连接，最后利用512个1*1的卷积核降维；其中，轻量级MLP模块由基于深度可分离卷积的模块和基于通道MLP的模块级联组成；这两个模块都经过了通道缩放和DropPath操作以提高特征泛化和鲁棒性；LVC模块是一个具有内在字典的编码器，由一个固有的码本和一组可学习的视觉中心比例因子组成。

5.根据权利要求4所述的基于混合注意力和特征中心化多尺度融合的小目标检测方法，其特征在于：所述的多尺度特征融合网络将四层不同分辨率的特征图融合，输出为四个不同分辨率的特征图。

6.根据权利要求1所述的基于混合注意力和特征中心化多尺度融合的小目标检测方法，其特征在于：所述检测头分别预测目标的位置、类别和置信度。

7.根据权利要求6所述的基于混合注意力和特征中心化多尺度融合的小目标检测方法，其特征在于：所述检测头的定位损失采用CIOU损失，类别和置信度损失都采用二元交叉熵损失。

8.根据权利要求7所述的基于混合注意力和特征中心化多尺度融合的小目标检测方法，其特征在于：小目标检测网络总损失为

...

【技术特征摘要】

1.一种基于混合注意力和特征中心化多尺度融合的小目标检测方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于混合注意力和特征中心化多尺度融合的小目标检测方法，其特征在于：所述的骨干网络输入为大小640*640的图片，包括四个阶段的处理层，第一阶段处理层包含相互之间级联的两个卷积模块和一个网络聚合模块，卷积模块由conv层、bn层和silu激活函数三个子模块级联组成，第二、三、四阶段处理层均由一个最大池化模块和网络聚合模块级联组成，四个阶段分别输出不同分辨率的特征图。

4.根据权利要求3所述的基于...

【专利技术属性】
技术研发人员：杨绿溪，陈家豪，江志康，张天择，徐俐，李春国，黄永明，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人