System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于计算机视觉的合成孔径雷达图像飞机检测方法技术_技高网

一种基于计算机视觉的合成孔径雷达图像飞机检测方法技术

技术编号:43357621 阅读:1 留言:0更新日期:2024-11-19 17:43
本发明专利技术提出了一种运用扩散模型和注意力机制相结合的合成孔径雷达图像飞机检测方法,该方法能够提高飞机目标和类别的检测精度,并且保持较高的检测效率。本发明专利技术首次将扩散模型和注意力机制相结合的方法应用于合成孔径雷达图像飞机检测任务,检测过程包括以下步骤:步骤1,编码器提取原始图像多尺度特征。步骤2,通过动态渐变双向注意力模块,计算空间注意力权重并获取带权图像特征。步骤3,解码器基于扩散方法,根据图像特征生成飞机目标和型号。通过在公开数据集上的实验,本发明专利技术检测方法达到了62.164的AP值。实验结果表明,本发明专利技术检测方法能够在不降低检测效率的同时,提高检测精度,符合预期效果。

【技术实现步骤摘要】

本专利技术属于计算机视觉和图像处理,特别涉及通过计算机视觉方法实时检测合成孔径雷达图像中的飞机目标。具体是基于扩散模型和注意力机制相结合的方法生成图像中飞机的位置与型号。


技术介绍

1、合成孔径雷达是一种具有在全天候、全气象下进行图像采集能力的微波遥感成像技术,该技术已广泛应用于地形测绘、灾害风险监测和生态学等各个领域。在这些应用中,飞机目标检测过程是一个基本组成部分,飞机目标的信息获取能够有效协助关键区域的动态监测、态势分析和紧急救援。与车辆、船舶等目标相比,飞行器目标结构复杂、散射机理复杂,对准确探测是一个重大挑战。合成孔径雷达图像中的的飞机具有多样性的目标尺寸,不同类型的飞机目标和具有不同分辨率的图像会导致目标尺寸的变化。当使用固定感受野技术进行特征提取时,这种多尺寸目标问题会产生问题。随着网络的深入,很容易错过体积小或后向散射信息较弱的飞机目标。同时,另一个难点在于图像目标通常为离散散射点,飞行器目标的散射特性是离散且不连续的, 结构不完整性和组件间弱相关性使经典网络模型结构难以实现准确的预测。并且,检错过程中经常会遇到复杂的场景和强烈的背景干扰,在真实场景中,飞机周围的建筑物、车辆和某些金属结构表现出与飞机目标相似的强烈散射特性,因此常规检测方法通常难以检测合成孔径雷达图像中的飞机目标。

2、目前,基于深度学习的具有强大特征学习能力的方法在合成孔径雷达图像目标检测方面取得了显著进展,目前已有的方法通常基于卷积神经网络和transformer结构,其中在生成目标检测框的过程中,常用的做法是使用fpn或先验框来生成区域建议和边界框,但该设计需要先验知识并且通常搭配复杂的网络结构,检测速度通常也无法达到实时检测的要求。


技术实现思路

1、为解决上述技术问题,本专利技术提出了一种运用扩散模型和注意力机制相结合的合成孔径雷达图像飞机检测方法(aircraft diffusion det),该方法能够提高飞机目标和类别的检测精度,并且保持较高的检测效率。

2、本专利技术首次将扩散模型和注意力机制相结合的方法应用于合成孔径雷达图像飞机检测任务,aircraft diffusion det检测过程包括以下步骤:步骤1:通过编码器提取原始图像多尺度特征;步骤2:通过动态渐变双向注意力(dgba)模块,计算空间注意力权重并获取带权图像特征;步骤3:将步骤2所得的特征输入到检测解码器中,解码器通过扩散方法生成飞机目标和型号。

3、其中,动态渐变双向注意力模块是本专利技术的一部分,该模块专门用于提取合成孔径雷达图像中的注意力信息,它是以ca注意力机制为基础做出的改良计算流程,相比ca模块注意力模块,动态渐变双向注意力模块避免了相邻注意力分数差异大和注意力分数矩阵在空间上呈现条纹状的问题。

本文档来自技高网...

【技术保护点】

1.基于计算机视觉的合成孔径雷达图像飞机检测方法,其特征为,包括以下步骤:步骤1:通过编码器提取原始图像多尺度特征;步骤2:通过动态渐变双向注意力(DGBA)模块,计算空间注意力权重并获取带权图像特征;步骤3:将步骤2所得的特征输入到检测解码器中,解码器通过扩散方法生成飞机目标和型号。

2.根据权利要求1所述的基于计算机视觉的合成孔径雷达图像飞机检测方法,其特征在于,所述步骤1,包含一个用于提取图像特征的编码器和一个用于融合多尺度信息的FPN。其中,编码器可以使用任意能够接收图像数据,并至少可以输出4种尺度(1/4、1/8、1/16和1/32原图宽高)特征图的结构(例如ResNet,Swin Transfomer等)。

3.根据权利要求1所述的基于计算机视觉的合成孔径雷达图像飞机检测方法,其特征在于,所述步骤2,包含一个动态渐变双向注意力模块,该模块包含以下9个步骤。第一步,包含一轮池化层,它对输入特征图进行了四种池化。上半路线中,X max pooling和X avgpooling对输入特征图在X方向(宽方向)分别进行全局最大和全局平均池化。类似的,下半路线中,Y max pooling和Y avg pooling对输入特征图在Y方向(高方向)分别进行全局最大和全局平均池化。上半路线和下半路线输出形状分别为(C, H, 1)和(C, 1, W)。第二步,用于将4个特征图通过通道拼接合并为2个特征图。上半路线中,对2个形状为(C, H, 1)特征图进行通道拼接和转置操作,输出形状为(2C, 1, H)。下半路线中,对2个形状为(C, 1,W)特征图仅进行通道拼接,输出形状为(2C, 1, W)。下面详述的第三到第六步在上半路线和下半路线操作相同,且参数隔离,因此仅以上半路线为例进行说明。第三步,包含两个一维卷积操作,其中卷积核尺寸为3,卷积核个数为2C/r,输出形状为(2C/r, 1, H)。第四步,包含一个下采样模块,该模块用于减小特征图在宽方向上的尺寸,下采样模块包含若干卷积操作(可根据输入图像分辨率进行调整),输出形状为(2C/r, 1, H/k)。第五步,包含一个动态卷积操作,卷积核尺寸为1,卷积个数为C,该步的卷积核参数不通过网络学习获取,而是由第二步产生特征图通过变形得到。第六步,包含一个一维卷积操作,卷积核尺寸为1,卷积核个数为3,输出形状为(3, 1, H/k)。在上半路线中,将第六步输出特征图在通道上进行拆分,可以得到三个维数为H/k的向量,并且分别定义这三个向量为分布权重向量,分布均值偏置向量,分布方差向量。同理,下半路线可以三个维数为W/k的向量,和。第七步,用于通过上述向量生成高斯分布。在上半路线中,定义输出的H/k个一维高斯分布分别为~,对于每一个一维高斯分布,其均值取,其方差取。类似的,在下半路线中,定义输出的W/k个一维高斯分布分别为~,对于每一个一维高斯分布,其均值取,其方差取。第八步,用于根据上一步获得的若干分布以及分布权重向量,得到注意力得分矩阵。在上半路线中,设的概率密度函数为,则定义为纵向分布概率密度函数。类似的,在下半路线中,设的概率密度函数为,则定义为横向分布概率密度函数。至此,已得到两个一维分布和的概率密度函数,定义为二者的联合分布密度函数。最后,设为注意力得分矩阵,和分别为联合密度函数在特征图空间范围内的均值和方差,令矩阵第i行第j列的值。至此,注意力得分矩阵计算完成。第九步,将上一步计算得到的注意力得分矩阵与输入特征图的每个通道的矩阵按位相乘,得到动态渐变双向注意力模块的输出。

4.根据权利要求1所述的基于计算机视觉的合成孔径雷达图像飞机检测方法,其特征在于,所述步骤3中解码器解码过程是若干次迭代过程。对于第T次迭代,解码器的输入是经过编码的图像特征,以及T时刻的目标框(Boxes(T)),其中目标框的形状为(N,4),N表示目标框个数,且N作为超参数不参与训练。然后,通过RoI Align方法从图像特征(Featuers)中提取目标框对应位置的固定大小特征信息,得到形状为(N,49)的目标特征图,其中N表示目标个数,49表示每个目标框对应特征映射为49维向量,再将目标特征图输入到Sparse R-CNN head中得到第一轮预测目标框,再将第一轮预测目标框输入到下一轮RoI Align方法,依次循环6次,最终能够得到T-1时刻的目标框(Boxes(T-1))和型号,至此,一轮迭代结束。特别的,第一次迭代时,输入目标框完全由高斯噪声生成,当迭代进行到大于等于第二次时,输入目标框由前一时刻的预测目标框根据DDIM方法采样得到。

...

【技术特征摘要】

1.基于计算机视觉的合成孔径雷达图像飞机检测方法,其特征为,包括以下步骤:步骤1:通过编码器提取原始图像多尺度特征;步骤2:通过动态渐变双向注意力(dgba)模块,计算空间注意力权重并获取带权图像特征;步骤3:将步骤2所得的特征输入到检测解码器中,解码器通过扩散方法生成飞机目标和型号。

2.根据权利要求1所述的基于计算机视觉的合成孔径雷达图像飞机检测方法,其特征在于,所述步骤1,包含一个用于提取图像特征的编码器和一个用于融合多尺度信息的fpn。其中,编码器可以使用任意能够接收图像数据,并至少可以输出4种尺度(1/4、1/8、1/16和1/32原图宽高)特征图的结构(例如resnet,swin transfomer等)。

3.根据权利要求1所述的基于计算机视觉的合成孔径雷达图像飞机检测方法,其特征在于,所述步骤2,包含一个动态渐变双向注意力模块,该模块包含以下9个步骤。第一步,包含一轮池化层,它对输入特征图进行了四种池化。上半路线中,x max pooling和x avgpooling对输入特征图在x方向(宽方向)分别进行全局最大和全局平均池化。类似的,下半路线中,y max pooling和y avg pooling对输入特征图在y方向(高方向)分别进行全局最大和全局平均池化。上半路线和下半路线输出形状分别为(c, h, 1)和(c, 1, w)。第二步,用于将4个特征图通过通道拼接合并为2个特征图。上半路线中,对2个形状为(c, h, 1)特征图进行通道拼接和转置操作,输出形状为(2c, 1, h)。下半路线中,对2个形状为(c, 1,w)特征图仅进行通道拼接,输出形状为(2c, 1, w)。下面详述的第三到第六步在上半路线和下半路线操作相同,且参数隔离,因此仅以上半路线为例进行说明。第三步,包含两个一维卷积操作,其中卷积核尺寸为3,卷积核个数为2c/r,输出形状为(2c/r, 1, h)。第四步,包含一个下采样模块,该模块用于减小特征图在宽方向上的尺寸,下采样模块包含若干卷积操作(可根据输入图像分辨率进行调整),输出形状为(2c/r, 1, h/k)。第五步,包含一个动态卷积操作,卷积核尺寸为1,卷积个数为c,该步的卷积核参数不通过网络学习获取,而是由第二步产生特征图通过变形得到...

【专利技术属性】
技术研发人员:邵蔚于波任泽华
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1