一种基于计算机视觉的合成孔径雷达图像飞机检测方法技术

技术编号：43357621 阅读：33 留言：0更新日期：2024-11-19 17:43

本发明专利技术提出了一种运用扩散模型和注意力机制相结合的合成孔径雷达图像飞机检测方法，该方法能够提高飞机目标和类别的检测精度，并且保持较高的检测效率。本发明专利技术首次将扩散模型和注意力机制相结合的方法应用于合成孔径雷达图像飞机检测任务，检测过程包括以下步骤：步骤1，编码器提取原始图像多尺度特征。步骤2，通过动态渐变双向注意力模块，计算空间注意力权重并获取带权图像特征。步骤3，解码器基于扩散方法，根据图像特征生成飞机目标和型号。通过在公开数据集上的实验，本发明专利技术检测方法达到了62.164的AP值。实验结果表明，本发明专利技术检测方法能够在不降低检测效率的同时，提高检测精度，符合预期效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉和图像处理，特别涉及通过计算机视觉方法实时检测合成孔径雷达图像中的飞机目标。具体是基于扩散模型和注意力机制相结合的方法生成图像中飞机的位置与型号。

技术介绍

1、合成孔径雷达是一种具有在全天候、全气象下进行图像采集能力的微波遥感成像技术，该技术已广泛应用于地形测绘、灾害风险监测和生态学等各个领域。在这些应用中，飞机目标检测过程是一个基本组成部分，飞机目标的信息获取能够有效协助关键区域的动态监测、态势分析和紧急救援。与车辆、船舶等目标相比，飞行器目标结构复杂、散射机理复杂，对准确探测是一个重大挑战。合成孔径雷达图像中的的飞机具有多样性的目标尺寸，不同类型的飞机目标和具有不同分辨率的图像会导致目标尺寸的变化。当使用固定感受野技术进行特征提取时，这种多尺寸目标问题会产生问题。随着网络的深入，很容易错过体积小或后向散射信息较弱的飞机目标。同时，另一个难点在于图像目标通常为离散散射点，飞行器目标的散射特性是离散且不连续的，结构不完整性和组件间弱相关性使经典网络模型结构难以实现准确的预测。并且，检错过程中经常会遇到复杂的场景和强烈的背景干扰，在真实场景中，飞机周围的建筑物、车辆和某些金属结构表现出与飞机目标相似的强烈散射特性，因此常规检测方法通常难以检测合成孔径雷达图像中的飞机目标。

2、目前，基于深度学习的具有强大特征学习能力的方法在合成孔径雷达图像目标检测方面取得了显著进展，目前已有的方法通常基于卷积神经网络和transformer结构，其中在生成目标检测框的过程中，常用的做法是使用fpn或先验框来

技术实现思路

1、为解决上述技术问题，本专利技术提出了一种运用扩散模型和注意力机制相结合的合成孔径雷达图像飞机检测方法（aircraft diffusion det），该方法能够提高飞机目标和类别的检测精度，并且保持较高的检测效率。

2、本专利技术首次将扩散模型和注意力机制相结合的方法应用于合成孔径雷达图像飞机检测任务，aircraft diffusion det检测过程包括以下步骤：步骤1：通过编码器提取原始图像多尺度特征；步骤2：通过动态渐变双向注意力(dgba)模块，计算空间注意力权重并获取带权图像特征；步骤3：将步骤2所得的特征输入到检测解码器中，解码器通过扩散方法生成飞机目标和型号。

3、其中，动态渐变双向注意力模块是本专利技术的一部分，该模块专门用于提取合成孔径雷达图像中的注意力信息，它是以ca注意力机制为基础做出的改良计算流程，相比ca模块注意力模块，动态渐变双向注意力模块避免了相邻注意力分数差异大和注意力分数矩阵在空间上呈现条纹状的问题。

本文档来自技高网...

【技术保护点】

1.基于计算机视觉的合成孔径雷达图像飞机检测方法，其特征为，包括以下步骤：步骤1：通过编码器提取原始图像多尺度特征；步骤2：通过动态渐变双向注意力(DGBA)模块，计算空间注意力权重并获取带权图像特征；步骤3：将步骤2所得的特征输入到检测解码器中，解码器通过扩散方法生成飞机目标和型号。

2.根据权利要求1所述的基于计算机视觉的合成孔径雷达图像飞机检测方法，其特征在于，所述步骤1，包含一个用于提取图像特征的编码器和一个用于融合多尺度信息的FPN。其中，编码器可以使用任意能够接收图像数据，并至少可以输出4种尺度（1/4、1/8、1/16和1/32原图宽高）特征图的结构（例如ResNet，Swin Transfomer等）。

3.根据权利要求1所述的基于计算机视觉的合成孔径雷达图像飞机检测方法，其特征在于，所述步骤2，包含一个动态渐变双向注意力模块，该模块包含以下9个步骤。第一步，包含一轮池化层，它对输入特征图进行了四种池化。上半路线中，X max pooling和X avgpooling对输入特征图在X方向（宽方向）分别进行全局最大和全局平均池化。类似的，下半

4.根据权利要求1所述的基于计算机视觉的合成孔径雷达图像飞机检测方法，其特征在于，所述步骤3中解码器解码过程是若干次迭代过程。对于第T次迭代，解码器的输入是经过编码的图像特征，以及T时刻的目标框（Boxes（T）），其中目标框的形状为（N，4），N表示目标框个数，且N作为超参数不参与训练。然后，通过RoI Align方法从图像特征（Featuers）中提取目标框对应位置的固定大小特征信息，得到形状为（N，49）的目标特征图，其中N表示目标个数，49表示每个目标框对应特征映射为49维向量，再将目标特征图输入到Sparse R-CNN head中得到第一轮预测目标框，再将第一轮预测目标框输入到下一轮RoI Align方法，依次循环6次，最终能够得到T-1时刻的目标框（Boxes（T-1））和型号，至此，一轮迭代结束。特别的，第一次迭代时，输入目标框完全由高斯噪声生成，当迭代进行到大于等于第二次时，输入目标框由前一时刻的预测目标框根据DDIM方法采样得到。

...

【技术特征摘要】

1.基于计算机视觉的合成孔径雷达图像飞机检测方法，其特征为，包括以下步骤：步骤1：通过编码器提取原始图像多尺度特征；步骤2：通过动态渐变双向注意力(dgba)模块，计算空间注意力权重并获取带权图像特征；步骤3：将步骤2所得的特征输入到检测解码器中，解码器通过扩散方法生成飞机目标和型号。

2.根据权利要求1所述的基于计算机视觉的合成孔径雷达图像飞机检测方法，其特征在于，所述步骤1，包含一个用于提取图像特征的编码器和一个用于融合多尺度信息的fpn。其中，编码器可以使用任意能够接收图像数据，并至少可以输出4种尺度（1/4、1/8、1/16和1/32原图宽高）特征图的结构（例如resnet，swin transfomer等）。

3.根据权利要求1所述的基于计算机视觉的合成孔径雷达图像飞机检测方法，其特征在于，所述步骤2，包含一个动态渐变双向注意力模块，该模块包含以下9个步骤。第一步，包含一轮池化层，它对输入特征图进行了四种池化。上半路线中，x max pooling和x avgpooling对输入特征图在x方向（宽方向）分别进行全局最大和全局平均池化。类似的，下半路线中，y max pooling和y avg pooling对输入特征图在y方向（高方向）分别进行全局最大和全局平均池化。上半路线和下半路线输出形状分别为（c, h, 1）和（c, 1, w）。第二步，用于将4个特征图通过通道拼接合并为2个特征图。上半路线中，对2个形状为（c, h, 1）特征图进行通道拼接和转置操作，输出形状为（2c, 1, h）。下半路线中，对2个形状为（c, 1,w）特征图仅进行通道拼接，输出形状为（2c, 1, w）。下面详述的第三到第六步在上半路线和下半路线操作相同，且参数隔离，因此仅以上半路线为例进行说明。第三步，包含两个一维卷积操作，其中卷积核尺寸为3，卷积核个数为2c/r，输出形状为（2c/r, 1, h）。第四步，包含一个下采样模块，该模块用于减小特征图在宽方向上的尺寸，下采样模块包含若干卷积操作（可根据输入图像分辨率进行调整），输出形状为（2c/r, 1, h/k）。第五步，包含一个动态卷积操作，卷积核尺寸为1，卷积个数为c，该步的卷积核参数不通过网络学习获取，而是由第二步产生特征图通过变形得到...

【专利技术属性】
技术研发人员：邵蔚，于波，任泽华，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人