一种基于复合主干网络和多预测头的航拍目标检测方法技术

技术编号:34900522 阅读:21 留言:0更新日期:2022-09-10 14:04
本发明专利技术公开了一种基于复合主干网络和多预测头的航拍目标检测方法,涉及计算机视觉目标检测技术领域,包括以下步骤:步骤1、准备航拍图像的数据集;步骤2、构建目标检测模型;步骤3、应用目标检测模型进行目标预测;其中,步骤2包括:步骤2.1、建立目标检测模型的主干网络,并提取多尺度特征;步骤2.2、通过Recursive

【技术实现步骤摘要】
一种基于复合主干网络和多预测头的航拍目标检测方法


[0001]本专利技术涉及计算机视觉目标检测
,尤其涉及一种基于复合主干网络和多预测头的航拍目标检测方法。

技术介绍

[0002]近年来,随着成像技术的迅猛发展,图像数量迅速增长,图像分辨率不断提高。在海量高分辨率可见光图像数据中存在多种类别的目标,如飞机、汽车、船舶等,将其精确地检测出来对航拍判读起重要作用。
[0003]航拍图像通常由无人机搭载相机获取,与自然场景下的图像相比,航拍图像具有背景复杂度高、目标尺寸小且外观模糊的问题,这些小目标的检测是富有挑战的研究方向。大部分目标检测算法虽然在通用目标检测中具有较高的精度和泛化性能,但在航拍图像小目标检测中精度仍然较低。
[0004]基于传统机器学习的遥感图像目标检测算法,将遥感图像目标的检测视为分类回归任务。首先,使用区域搜索法或者滑动窗口法生成可能存在目标的区域,然后,使用不同的方法,对区域进行特征提取,最后,使用得到的特征训练目标分类器,目标分类器有K近邻、支持向量机、条件随机场等。虽然传统机器学习方法相较其他的图像处理方法,在目标检测精度上有一定的提升,但是提取的特征仍然需要人工手动设计,特征的层次较为初级,不具有高级语义信息。此外,目标检测结果缺乏对候选区域的二次调整,也对候选区域的生成算法产生了严重依赖,候选区域数量过少会导致漏检,数量过多会导致虚警同时也对存储空间提出更高的要求。基于传统机器学习的方法在实际应用中也存在诸多限制,难以适应海量的航拍图像数据。
[0005]深度学习是机器学习的一个分支,近年来海量标注数据的涌现和GPU并行计算技术的发展,推动了深度学习技术的突破。深度学习强大的表达能力,使其不仅可以学到几何特征,还可以学到语义特征,简化图像处理步骤,最终网络利用自动获取到的特征来进行目标检测。基于深度学习的自然场景目标检测算法可以大致分为两种:一阶段检测算法和二阶段检测算法。一阶段检测算法使用单一的网络结构和回归的预测方式进行目标检测,具有结构简单运行速度快等优点,但是检测精度往往稍逊于二阶段检测算法。二阶段检测算法是基于区域的算法,首先提出候选区域,然后对候选区域进行目标判别和位置尺度的二次调整。二阶段算法结构复杂且推断延迟较高,但是通常具有更高的检测精度。
[0006]陈天明等人在中国专利技术专利申请“一种复杂遥感陆地环境小样本小目标快速检测识别方法”(公开号为:CN113963265A)中公开了一种快速检测识别的方法,该方法基于改进的Faster R CNN卷积神经网络架构,构建针对复杂遥感陆地环境车辆目标的检测识别网络;通过对训练数据进行一定的变换和扰动扩充,并对负样本及难分样本进行重复训练,在增加了训练数据量的同时可以让网络充分学习到目标的变化,解决样本数据量少带来模型泛化能力弱和精度差的问题;通过增加小目标特征、挖掘难样本信息以解决Faster R CNN对小目标检测效果差、虚警率高、识别精度低的问题;RPN和Fast R CNN共用同一个5层的卷
积神经网络,并对网络模型参数调优,使得整个检测过程只需完成一系列卷积运算即可完成检测识别过程,减少了运算时间。但该方法是通过预先在图像的每个位置生成一系列的anchor,并且采用的卷积神经网络算法是anchor

based模型。
[0007]张向荣等人在中国专利技术专利申请“基于中心点的深度全卷积网络遥感图像密集车辆检测方法”(公开号为:CN110659601A)中提出一种遥感图像密集车辆检测方法,主要解决现有遥感影像中目标小且排列密集导致检测精度低的问题。其方案为:在遥感影像目标检测数据集中获取训练集和测试集;构建中心点深度全卷积网络密集车辆目标检测模型,设定目标中心点分类任务和目标尺寸回归任务的整体损失函数;将训练集输入到构建的网络模型中进行训练,得到训练好的车辆检测模型;将测试集输入训练好的车辆目标检测模型中,预测输出目标的中心点位置和目标尺寸。本专利技术降低了目标尺寸对密集场景目标定位的影响,提高了遥感影像中密集车辆目标的召回率,提升了车辆目标的检测精度。可用于城市规划,车流控制,交通监管及军事侦查。但该方法只适用于密集车辆的检测,而且依然存在一定程度的信息丢失,不能使网络充分学习每一个目标的所有特征。
[0008]深度学习算法在可见光遥感图像目标检测中的良好效果,证明其潜力巨大,但是在实际应用中仍存在以下问题:
[0009]1、绝大多数基于神经网络的航拍图像目标检测框架是先将目标特征提取出来,然后对提取出的特征进行识别。如果特征提取过程受到干扰,后续的识别精度也会受影响。但是航拍图像中目标只占一小部分,大部分区域被背景占据,复杂的背景信息会将目标信息淹没,检测器难以提取目标特征;
[0010]2、在航拍图像的俯瞰视角下,一些类别的目标存在密集排布现象,在此情况下,检测器难以精确区分每一个目标。已有的检测算法虽然也提出了一些解决方法,但是现有的解决方法往往存在一定程度的信息丢失,不能使网络充分学习每一个目标的所有特征;
[0011]3、目前卷积神经网络算法大多采用anchor

based模型作为detection head,虽然anchor

based模型可以为神经网络提供一个强先验,加速神经网络的训练,使网络更容易收敛,但是,anchor的设计严重依赖人工经验,如果设计不好会影响最终的检测效果。anchor需要随数据变化进行不断调整,使得检测算法的泛化性大大降低;
[0012]4、为了定位目标在图像中的位置,现有的方法大多是预先在图像的每个位置生成一系列的anchor。在训练的过程中通过设定固定的阈值来判断anchor属于正样本还是负样本。上述方式将导致模型训练过程中不同尺寸目标的正负样本不均衡的问题。
[0013]因此,本领域的技术人员致力于开发一种新的航拍目标检测方法,解决现有深度学习算法在实际应用于航拍目标检测中存在的上述问题。

技术实现思路

[0014]有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是如何提升航拍图像中的多尺寸特征,并能有效地提取其中的多尺寸特征,再进行多尺寸的融合,提高目标检测的精度。
[0015]为实现上述目的,本专利技术提供了一种基于复合Swin Transformer(Shifted

windows Transformer)主干网络和TPH(Transformer Prediction Head)结合的航拍图像目标检测方法。首先,通过复合Swin Transformer作为主干网络构成层次特征图表示,提取
航拍图像的多尺度特征,然后,利用Recursive

FPN(Recursive Feature Pyramid Network)对主干网络提取的输入特征进行多尺度融合,最后,利用TPH网络作为detection head,对航拍图像多个尺度输出预测目标检测结果。其中,模型训练时利用OTA(Optimal Tr本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于复合主干网络和多预测头的航拍目标检测方法,其特征在于,所述方法包括以下步骤:步骤1、准备航拍图像的数据集;步骤2、构建目标检测模型;步骤3、应用所述目标检测模型进行目标预测;其中,所述步骤2包括以下子步骤:步骤2.1、通过复合连接Swin Transformer建立所述目标检测模型的主干网络,并提取多尺度特征;步骤2.2、通过Recursive

FPN网络对所述多尺度特征进行融合,得到融合增强后的所述多尺度特征;步骤2.3、基于融合增强后的所述多尺度特征,使用TPH网络作为detection head,构建所述目标检测模型;步骤2.4、将所述航拍图像的所述数据集按比例划分为训练集和测试集,用所述训练集输入所述目标检测模型进行训练,再用所述测试集对所述目标检测模型进行测试,确定所述目标检测模型;其中,训练时的正负样本的划分是遵循OTA策略。2.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法,其特征在于,在所述步骤2.1中,所述主干网络包含若干前后连接的backbone,所述每个backbone中有L个stage,所述每个stage包含若干卷积层,并且所述每个stage的特征图大小都相同;其中,所述backbone的第l个所述stage会进行非线性转换F
l
(
·
);通过对相邻的所述backbone位于同一水平位置的所述stage进行复合连接,将若干相同的所述backbone进行组合;所述backbone分为两种类型,分别为assistant backbone和lead backbone;其中,所述assistant backbone表示为B1,B2,...,B
k
‑1,所述lead backbone表示为B
k
;所述一个assistant backbone的输出通过所述复合连接流动到下一个所述backbone中,作为同一水平位置的所述stage的输入,并将最后一个所述backbone,即所述lead backbone的输出作为提取的所述多尺度特征。3.如权利要求2所述的基于复合主干网络和多预测头的航拍目标检测方法,其特征在于,在所述步骤2.1中,所述主干网络进行所述backbone的相邻高层复合,即将B
k
中第l

1个所述stage的输出和B
k
‑1中第l个所述stage的输出融合起来,作为B
k
中第l个所述stage的输入:其中,q(
·
)表示复合连接,对进行降维和上采样操作后,作为当前所述backbone的第l个stage的输入。4.如权利要求3所述的基于复合主干网络和多预测头的航拍目标检测方法,其特征在于,在所述步骤2.1中的所述backbone的所述相邻高层复合中,用于复合连接的两个所述backbone为Swin Transformer;所述Swin Transformer利用步长为4的7*7卷积实现图像块划分,所述不同stage之间的特征图利用步长为2的3*3卷积实现下采样;在每个Swin Transformer block中,在不重
叠的局部窗口中计算自注意力;假设所述每个局部窗口中包含M*M个图像块,整个图像含有h*w个图像块,则全局MSA和基于窗口的W

MSA的计算复杂度分别为:Ω(M...

【专利技术属性】
技术研发人员:李馨蔚何小其杨根科褚健
申请(专利权)人:上海交通大学宁波人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1