一种基于复合主干网络和多预测头的航拍目标检测方法技术

技术编号：34900522 阅读：21 留言：0更新日期：2022-09-10 14:04

本发明专利技术公开了一种基于复合主干网络和多预测头的航拍目标检测方法，涉及计算机视觉目标检测技术领域，包括以下步骤：步骤1、准备航拍图像的数据集；步骤2、构建目标检测模型；步骤3、应用目标检测模型进行目标预测；其中，步骤2包括：步骤2.1、建立目标检测模型的主干网络，并提取多尺度特征；步骤2.2、通过Recursive

全部详细技术资料下载

【技术实现步骤摘要】
一种基于复合主干网络和多预测头的航拍目标检测方法

[0001]本专利技术涉及计算机视觉目标检测
，尤其涉及一种基于复合主干网络和多预测头的航拍目标检测方法。

技术介绍

[0002]近年来，随着成像技术的迅猛发展，图像数量迅速增长，图像分辨率不断提高。在海量高分辨率可见光图像数据中存在多种类别的目标，如飞机、汽车、船舶等，将其精确地检测出来对航拍判读起重要作用。
[0003]航拍图像通常由无人机搭载相机获取，与自然场景下的图像相比，航拍图像具有背景复杂度高、目标尺寸小且外观模糊的问题，这些小目标的检测是富有挑战的研究方向。大部分目标检测算法虽然在通用目标检测中具有较高的精度和泛化性能，但在航拍图像小目标检测中精度仍然较低。
[0004]基于传统机器学习的遥感图像目标检测算法，将遥感图像目标的检测视为分类回归任务。首先，使用区域搜索法或者滑动窗口法生成可能存在目标的区域，然后，使用不同的方法，对区域进行特征提取，最后，使用得到的特征训练目标分类器，目标分类器有K近邻、支持向量机、条件随机场等。虽然传统机器学习方法相较其他的图像处理方法，在目标检测精度上有一定的提升，但是提取的特征仍然需要人工手动设计，特征的层次较为初级，不具有高级语义信息。此外，目标检测结果缺乏对候选区域的二次调整，也对候选区域的生成算法产生了严重依赖，候选区域数量过少会导致漏检，数量过多会导致虚警同时也对存储空间提出更高的要求。基于传统机器学习的方法在实际应用中也存在诸多限制，难以适应海量的航拍图像数据。
[0005]深度...

【技术保护点】

【技术特征摘要】
1.一种基于复合主干网络和多预测头的航拍目标检测方法，其特征在于，所述方法包括以下步骤：步骤1、准备航拍图像的数据集；步骤2、构建目标检测模型；步骤3、应用所述目标检测模型进行目标预测；其中，所述步骤2包括以下子步骤：步骤2.1、通过复合连接Swin Transformer建立所述目标检测模型的主干网络，并提取多尺度特征；步骤2.2、通过Recursive
‑
FPN网络对所述多尺度特征进行融合，得到融合增强后的所述多尺度特征；步骤2.3、基于融合增强后的所述多尺度特征，使用TPH网络作为detection head，构建所述目标检测模型；步骤2.4、将所述航拍图像的所述数据集按比例划分为训练集和测试集，用所述训练集输入所述目标检测模型进行训练，再用所述测试集对所述目标检测模型进行测试，确定所述目标检测模型；其中，训练时的正负样本的划分是遵循OTA策略。2.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法，其特征在于，在所述步骤2.1中，所述主干网络包含若干前后连接的backbone，所述每个backbone中有L个stage，所述每个stage包含若干卷积层，并且所述每个stage的特征图大小都相同；其中，所述backbone的第l个所述stage会进行非线性转换F
l
(
·
)；通过对相邻的所述backbone位于同一水平位置的所述stage进行复合连接，将若干相同的所述backbone进行组合；所述backbone分为两种类型，分别为assistant backbone和lead backbone；其中，所述assistant backbone表示为B1，B2，...，B
k
‑1，所述lead backbone表示为B
k
；所述一个assistant backbone的输出通过所述复合连接流动到下一个所述backbone中，作为同一水平位置的所述stage的输入，并将最后一个所述backbone，即所述lead backbone的输出作为提取的所述多尺度特征。3.如权利要求2所述的基于复合主干网络和多预测头的航拍目标检测方法，其特征在于，在所述步骤2.1中，所述主干网络进行所述backbone的相邻高层复合，即将B
k
中第l
‑
1个所述stage的输出和B
k
‑1中第l个所述stage的输出融合起来，作为B
k
中第l个所述stage的输入：其中，q(
·
)表示复合连接，对进行降维和上采样操作后，作为当前所述backbone的第l个stage的输入。4.如权利要求3所述的基于复合主干网络和多预测头的航拍目标检测方法，其特征在于，在所述步骤2.1中的所述backbone的所述相邻高层复合中，用于复合连接的两个所述backbone为Swin Transformer；所述Swin Transformer利用步长为4的7*7卷积实现图像块划分，所述不同stage之间的特征图利用步长为2的3*3卷积实现下采样；在每个Swin Transformer block中，在不重
叠的局部窗口中计算自注意力；假设所述每个局部窗口中包含M*M个图像块，整个图像含有h*w个图像块，则全局MSA和基于窗口的W
‑
MSA的计算复杂度分别为：Ω(M...

【专利技术属性】
技术研发人员：李馨蔚，何小其，杨根科，褚健，
申请(专利权)人：上海交通大学宁波人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人