本发明专利技术公开了一种基于多尺度特征融合的无人机航拍图像目标检测方法。包括以下步骤。首先,在骨干网络和颈部网络使用h
【技术实现步骤摘要】
基于多尺度特征融合的无人机航拍图像目标检测方法
[0001]本专利技术涉及一种深度神经网络,是一种基于多尺度特征融合和注意力机制的改进YOLOV4无人机航拍图像目标检测方法,属于目标检测领域。
技术介绍
[0002]随着网络技术的飞速发展,无人机图像目标检测具有广泛的应用,包括城市管理、森林防火、农业信息、电力线路检测、交通监控、土地变化监控、军事侦察等。此外,无人机影像在维护社会秩序方面发挥着至关重要的作用。物联网结合无人机,可用于实时视频监控,监控盲点。无人机航拍图像数据量巨大,传统的人工处理图像内容的方法会导致遗漏和委托错误。因此,仅仅依靠人力资源来检索、查看和处理海量图像数据是不现实的。人工智能领域的智能视频监控方法利用先进的算法处理海量图像数据,为用户提供满足其需求的有用信息,节省人力物力,降低监控成本,显着提高监控效率。无人机实时采集的海量视频数据可以利用大数据技术和深度学习进行处理,将传统的目标检测方法从低效的人工模式转变为智能实时高效模式。因此,利用深度学习在无人机航拍视频中进行目标检测具有重要的研究价值和意义。
[0003]之前该领域大部分采用的是传统检测算法,当无人机在高空对地面拍摄实时画面时,极易受到外界环境的影响,导致传统检测算法采集到的目标特征点不太显著,所以采用传统的目标检测算法进行检测时,检测速度较慢且精度较低,容易出现误检和漏检。采用深度学习通过神经网络对目标进行识别,相较于传统的目标检测算法,在检测精度和速度方面都有极大地提升,在无人机对地面目标检测的发展过程中也发挥了重要的作用。
[0004]与地面图像相比,无人机图像中的目标检测更具挑战性。无人机拍摄的图像中存在大量微小物体,如小于32像素的物体。Audebert等在航拍图像中利用深度全卷积网络对车辆精确分割,通过连通分量的提取实现车辆检测,证明了航拍图像中语义分割和目标检测的结合,可以提高检测性能,尤其是在目标边界信息的提取上。Mask R
‑
CNN、MaskLab等算法兼顾了分割和目标检测,并在2个任务上都取得了很好的效果。受此启发,Li等构建了一个语义分割指导下的RPN(semantic segmentatio
‑
guided RPN,sRPN)模块来抑制航拍图像中的背景杂波。这个模块将多层金字塔特征集成为一个新的特征后,进行空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)和卷积运算,得到掩膜和语义特征,它们分别可以帮助指导RPN和得到更精准的回归结果。sRPN对检测精度有一定的提升作用,但获取的特征在尺度上较为稀疏,上下文信息联系不够紧密,容易造成信息丢失。Yang等将注意力机制引入目标检测中,提出了SCRDet,使用一个有监督的多维注意力网络(Multi
‑
Dimensional Attention Leaner,MDA
‑
NET)来突出目标特征,弱化背景特征。Li等基于YOLOv4提出YOLOv4_Drone,加入空心卷积用于对特征图像进行重采样,从而提高对航拍图像的特征提取和目标检测性能。Zhu等基于YOLOv5提出TPH
‑
YOLOv5,用Transformer的预测头取代原来的检测头,提高对小目标的检测能力。
技术实现思路
[0005]为了解决无人机航拍图像目标检测目前存在的问题,本专利技术提供了一种基于多尺度特征融合和注意力机制的改进YOLOv4无人机航拍图像目标检测方法,该方法能够有效地提高无人机航拍图像的检测精度,具有良好的检测性能,本专利技术的具体方案如下:
[0006]1.获取数据集
[0007]本专利技术的实验数据集采用VisDrone2019数据集,数据由无人机平台在中国14个城市的不同天气和照明条件下获取。
[0008]2.数据预处理
[0009]数据预处理是为了对数据集进行扩充以提高对小目标的检测性能,并且在一定程度上去除噪声干扰。
[0010]3.多尺度特征融合的改进YOLOv4无人机航拍图像目标检测模型
[0011]本专利技术在YOLOv4网络结构的基础上进行改进,YOLOv4结构主要由特征提取阶段、特征融合阶段以及检测头三部分构成。首先,在骨干网络和颈部网络用h
‑
swish激活函数替换Mish激活函数和Relu激活函数,增加模型的表现能力和减少参数量。然后在骨干网络瓶颈层加入注意力机制(Coordinate Attention),使模型更关注位置信息,从而增加模型特征的表达能力,并抑制背景噪声的干扰。最后提出了一种特征金字塔网络(Blur
‑
PANet),通过去除PANet的冗余节点和添加额外的连接,并使用BlurPool取代下采样方式,减少下采样过程中特征的丢失,从而有效地融合多层特征。
[0012]4.对模型进行训练,保存最佳模型进行预测
[0013]构建好模型后,在VisDrone训练集上对搭建的改进YOLOV4模型进行训练,保存最优模型,以进行预测。
[0014]5.模型预测及评价
[0015]使用最佳模型对验证集进行预测,得到预测图,获取评价指标。同时,为了定量评估模型的检测效果,本专利技术选取平均精度(mAP)作为性能评价指标。
附图说明
[0016]图1为本专利技术的完整模型结构示意图
[0017]图2为注意力机制示意图
[0018]图3为多尺度特征增强结构示意图
[0019]图4为多尺度特征融合结构示意图
[0020]图5为VisDrone验证集检测结果示意图
具体实施方式
[0021]步骤1:数据准备阶段
[0022]如图5所示,使用VisDrone2019数据集作为本专利技术的实验数据集,数据由无人机平台在中国14个城市的不同天气和照明条件下获取,包含6471张训练图片与1610张测试图片。该数据集不仅场景复杂且目标都普遍偏小,增大了检测难度,包括行人、人、汽车、自行车、面包车、公共汽车、卡车、三轮车、遮阳三轮车和电机10种目标。
[0023]步骤2:构建多尺度特征融合的改进YOLOv4无人机航拍图像目标检测模型
[0024]本专利技术对经典的YOLOv4模型进行改进,提出了基于多尺度特征融合的无人机航拍图像目标检测方法,对无人机航拍图像目标检测存在问题的不同特点使用不同的模块进行解决,具体工作总结如下:
[0025](1)针对模型的表现能力不足问题,本专利技术在骨干网络和颈部网络用h
‑
swish激活函数替换Mish激活函数和Relu激活函数,增加模型的表现能力和减少参数量。
[0026](2)针对模型噪声和背景等干扰因素较多的问题,本专利技术在骨干网络瓶颈层加入注意力机制(Coordinate Attention),使模型更关注位置信息,从而增加模型特征的表达能力,并抑制背景噪声的干扰。
[0027](3)针对模型特征融合与增强能力不本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于多尺度特征融合的无人机航拍图像目标检测方法,其特征在于,所述方法包括:步骤1:数据获取与数据预处理;步骤2:构建基于注意力机制和多尺度特征融合的改进YOLOV4模型;步骤3:替换更合适的h
‑
swish激活函数,然后在VisDrone训练集上对搭建好的改进YOLOV4模型进行训练,同时保存最优模型以进行预测;步骤4:将VisDrone验证集输入训练好的最优模型中进行预测,保存预测结果,获取评价指标,最后进行结果对比。2.根据权利要求1所述的基于多尺度特征融合的无人机航拍图像目标检测方法,其特征在于:所述步骤1中,对获取的公开数据集进行预处理,用于对数据集进行扩充以提高对小目标的检测性能,并且在一定程度上去除噪声干扰。3.根据权利要求2所述的基于多尺度特征融合的无人机航拍图像目标检测方法,其特征在于:在骨干网络和颈部网络用h
‑
swish激活函数替换Mish激活函数和Relu激活函数,增加模型的表现能力和减少参数量。4.根据权利要求...
【专利技术属性】
技术研发人员:黄同愿,朱金江,谭禹,
申请(专利权)人:重庆理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。