本发明专利技术公开了一种无人机航拍图像目标检测算法,该算法包括以下步骤,S1使用混合数据集训练初始检测网络模型,swin transformer模型对图像进行特征提取,获得目标检测模型;S2将无人机吊舱航拍视频通过无线网络传输到图像服务器终端;S3图像服务器终端处理视频图像信息,实现无人机对目标实时检测。该检测算法结合Transformer系列模型,在通道和空间维度上进行Attention,进而利用训练得到的检测模型对吊舱拍摄的视频序列进行检测。经测试验证,该方法打破了CNN感受野的局限性,显著提高了无人机吊舱视角下的检测准确度,增加了CV领域的多样性。域的多样性。域的多样性。
【技术实现步骤摘要】
一种无人机航拍图像目标检测算法
[0001]本专利技术涉及图像检测领域,具体讲是一种无人机航拍图像目标检测算法。
技术介绍
[0002]航空图像目标检测在军事侦察、导弹制导、无人机武器系统等领域发挥着重要作用。当航空器在飞行时,需要使用光电吊舱对地面目标进行实时检测,比如军事侦察、海上巡检等任务。而航空检测任务不同于一般场景下的目标检测,无人机吊舱视角下的目标不仅视场变化大、疏密变化大、尺度变化大,且目标重叠、截断、遮挡的情况常有。
[0003]目前该领域算法往往通过将多个两阶段目标检测算法集成,提升检测精确度的同时也牺牲了检测速度。得益于深度学习的发展,原本用于自然语言处理的Transformer模型被证实在计算机视觉领域用于目标检测时也能取得较好的表现。
技术实现思路
[0004]为此,本专利技术公开了一种机载光电吊舱观测场景下的车辆检测方法。该方法结合单阶段目标检测算法和Transformer系列模型,在通道和空间维度上进行 Attention,进而利用训练得到的检测模型对吊舱拍摄的视频序列进行检测。经测试验证,该方法打破了CNN感受野的局限性,显著提高了无人机吊舱视角下的检测准确度,增加了CV领域的多样性。
[0005]本专利技术是这样实现的,构造一种无人机航拍图像目标检测算法,该算法包括以下步骤,
[0006]S1使用混合数据集训练初始检测网络模型,swin transformer模型对图像进行特征提取,获得目标检测模型;
[0007]S2将无人机吊舱航拍视频通过无线网络传输到图像服务器终端;
[0008]S3图像服务器终端处理视频图像信息,实现无人机对目标实时检测。
[0009]进一步的,在S1中,所述训练是指是指对初始网络进行有监督训练,且通过单阶段检测器进行训练,所述单阶段检测器选择为改进后的YOLOX单阶段目标检测器。
[0010]进一步的,在训练单阶段检测器过程中,先将有标签的训练样本输入至单阶段检测器,由单阶段检测器输出预测结果,利用初始网络损失函数计算预测结果标签值与训练样本的标签值之间的损失,并使用随机梯度下降法将损失的梯度回传给单阶段检测器,以调整模型的参数,其初始网络损失函数表示为:
[0011][0012]式中:其中L
cls
代表分类损失,采用二值交叉熵损失(BCELoss)函数,L
rrg
代表定位损失函数,采用的是IoU损失函数,L
obj
代表置信度损失,采用二值交叉熵损失函数。λ代表定位损失的平衡系数,N
pos
代表被分成正样的Anchorpoint 个数;
[0013]训练过程中正负样本匹配所使用损失函数为:
[0014][0015]其中,表示每一个样本与每个groundturth之间的分类损失,表示每个样本与每个groundturth直接的回归损失。
[0016]进一步的,所述Transformer模块包含有多头注意力和多层感知机,每层感知机之间使用ResNet的残差结构进行连接,Transformer中的注意力机制基于图片中物体的像素点施加注意力,将图片转化为序列,将序列中的任意两个位置之间的距离缩小为一个常量,从而判断特征图中像素点之间的关联性以及图片中物体的重要程度。首先从图片中的每一个像素点生成三个不同的向量,分别是Query向量(Q),Key向量(K)和Value向量(V),通过注意力机制中的Q和K做点乘,目的是计算相似度即attention操作,然后经过softmax 函数得到一组注意力权重,最后将注意力权重对Value进行加权求和,得到注意力下的Value值,从而得到图片中某点的关注程度。transformer注意力机制的公式为:
[0017][0018]式中:Q表示查询向量,K为键,表示被查询信息与其他信息的相关性的向量,V表示被查询信息的向量。基于此,我们将特征图拆成更小的window计算局部注意力,并利用不同Transformer层之间的窗口滑动计算window间的特征关联,在降低计算量的同时也获得了全局的特征依赖关系。该模型提取的特征能够建立起图像不同部分间的空间联系。
[0019]进一步的,所述训练样本包括图像和标签信息。
[0020]进一步的,所述网络分为backbone/neck/head三个部分。
[0021]进一步的,在网络模型backbone中,采用了swin transformer网络进行层次性特征提取;
[0022]将提取出的特征通过注意力机制,使得输入的特征图进行自适应特征细化;
[0023]上述所获得的特征输入到Neck结构中进行多尺度特征融合;
[0024]将融合后的特征输入到head网络,将head网络的输出进行解码,获得最后的可视化检测结果。
[0025]在上述网络模型backbone改进中,采用了swin transformer网络进行层次性特征提取,该网络底部处理的数据更多也更局部,顶部的网络处理的数据更少但是语义信息是更丰富。
[0026]进一步的,在步骤S3中,将无人机吊舱图像通过无线网络传输到图像服务器上,图像服务器将收到的图像输入到目标检测模型,目标检测模型输出预测信息,完成对无人机吊舱图像的目标检测。
[0027]本专利技术具有如下有益效果:
[0028]1、根据本专利技术提供的无人机吊舱航拍图像目标检测方法,相比传统检测算法和基于深度学习的两阶段检测算法,显著提高检测精度,可以实现无人机吊舱实时目标检测。
[0029]2、根据本专利技术提供的无人机吊舱航拍图像目标检测方法,引入领域自适应到目标检测领域,提高检测算法在未知环境检测效果,实现自适应检测。
附图说明
[0030]图1是本专利技术运用于目标检测的流程图;
具体实施方式
[0031]下面将结合附图1对本专利技术进行详细说明,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]本专利技术通过改进在此提供一种无人机航拍图像目标检测算法,可以按照如下方式予以实施:一种无人机航拍图像目标检测算法,该算法包括以下步骤,
[0033]S1使用混合数据集训练初始检测网络模型,swintransformer模型对图像进行特征提取,获得目标检测模型;
[0034]S2将无人机吊舱航拍视频通过无线网络传输到图像服务器终端;
[0035]S3图像服务器终端处理视频图像信息,实现无人机对车辆目标实时检测。
[0036]在本实施例中,在S1中,所述训练是指是指对初始网络进行有监督训练,且通过单阶段检测器进行训练,所述单阶段检测器选择为改进后的YOLOX单阶段目标检测器。
[0037]在本实施例中,在训练单阶段检测器过程本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种无人机航拍图像目标检测算法,其特征在于:该算法包括以下步骤S1使用混合数据集训练初始检测网络模型,swin transformer模型对图像进行特征提取,获得目标检测模型;S2将无人机吊舱航拍视频通过无线网络传输到图像服务器终端;S3图像服务器终端处理视频图像信息,实现无人机对目标实时检测。2.根据权利要求1所述一种无人机航拍图像目标检测算法,其特征在于:在S1中,所述训练是指是指对初始网络进行有监督训练,且通过单阶段检测器进行训练,所述单阶段检测器选择为改进后的YOLOX单阶段目标检测器。3.根据权利要求2所述一种无人机航拍图像目标检测算法,其特征在于:在训练单阶段检测器过程中,先将有标签的训练样本输入至单阶段检测器,由单阶段检测器输出预测结果,利用初始网络损失函数计算预测结果标签值与训练样本的标签值之间的损失,并使用随机梯度下降法将损失的梯度回传给单阶段检测器,以调整模型的参数,其初始网络损失函数表示为:其中L
cls
代表分类损失,采用二值交叉熵损失(BCELoss)函数,L
reg
代表定位损失函数,采用的是IoU损失函数,L
obj
代表置信度损失,采用二值交叉熵损失函数。λ代表定位损失的平衡系数,N
pos
代表被分成正样的Anchorpoint个数;训练过程中正负样本匹配所使用损失函数为:其中,表示每一个样本与每个groundturth之间的分类损失,表示每个样本与每个groundturth直接的回归损失。4.根...
【专利技术属性】
技术研发人员:曾钦勇,赵彦,尹小杰,王少敏,
申请(专利权)人:成都浩孚科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。