一种基于对象增强的高分辨率遥感图像语义分割方法技术

技术编号:38420473 阅读:11 留言:0更新日期:2023-08-07 11:21
本发明专利技术涉及一种基于对象增强的高分辨率遥感图像语义分割方法,属于图像处理领域。该方法包括以下内容:首先在骨干网络中加入了一种高效通道注意力模块,有效捕获了跨通道交互的信息,提高了骨干网络特征提取的能力。在分割网络中,使用了空间金字塔池化模块来进一步提取多尺度信息,以解决遥感图像中的对象间尺度跨度较大问题。同时加入了基于transformer解码器结构的对象特征学习模块,学习到的对象特征可以增强像素语义信息,提高最终的分割精度。度。度。

【技术实现步骤摘要】
一种基于对象增强的高分辨率遥感图像语义分割方法


[0001]本专利技术属于图像处理领域,涉及一种基于对象增强的高分辨率遥感图像语义分割方法。

技术介绍

[0002]遥感技术是通过各种传感仪器对远距离目标进行探测和识别的技术,由于遥感图像具有成像比例大、不受空间限制、分辨率高等特点,受到研究人员的广泛青睐。随着遥感技术的不断进步,高分辨率的遥感图像数据越来越丰富。利用计算机对地球表面及其环境在遥感图像上的信息进行识别和分类,以达到识别图像信息所对应的实际地物信息,是目前常用的遥感图像解析方法。通过解析高分辨率遥感图像所得到的信息,被广泛应用于自然灾害检测、城市规划与土地覆盖检测等领域。因此探索深度学习语义分割网络模型在高分辨率遥感影像中的应用具有重要研究价值与意义。
[0003]随着遥感影像覆盖范围逐步增大、涉及地物种类越来越多,从影像中提取信息的难度也随之增大,如何快速提取遥感图像信息成为解译遥感图像的关键。利用传统机器学习对遥感影像进行特征分析与特征提取不能够有效地对空间结构与物体边缘特征进行提取,有显著的局限性。而深度学习技术在计算机视觉领域已经取得了巨大的成就,基于深度学习的语义分割网络是目前主流的遥感图像分割方法。在语义分割中如何充分利用图像的上下文信息是提高分割精度的一个关键问题。考虑到语义分割任务中,像素所属的类别就是像素所在的对象的类别,通过利用像素所属对象的特征,对像素进行增强,可以更有效的获取图像上下文信息。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种基于对象增强的高分辨率遥感图像语义分割方法。
[0005]为达到上述目的,本专利技术提供如下技术方案:
[0006]一种基于对象增强的高分辨率遥感图像语义分割方法,该方法包括以下步骤:
[0007]S1:使用加入了ECA高效通道注意力模块的改进resnet50作为骨干网络,将已经预处理好的图像输入骨干网络中,进行遥感图像特征提取,得到特征图F;通过resnet的残差结构,H
(x)
=F
(x)
+x,其中x为原始输入,F(x)是普通映射,H(x)是残差映射;解决网络加深造成的梯度爆炸和梯度消失的问题;当输入的图像进入骨干网络后,先经过一个7x7的普通卷积层,由池化层下采样后进入多个残差块组成的残差结构中;每个残差块包含2个1x1卷积核,3x3卷积核,以及shortcut捷径分支;舍弃resnet50网络最后的全局平均池化层和全连接层;注意力机制看作是一个基于输入图像特征的动态权重调整过程,加入高效通道注意力模块,在模型参数量增加极少的情况下捕捉通道间的依赖关系;ECA高效通道注意力算法表示为s=F
eca
(X,θ)=σ(Conv1D(GAP(X))),其中,GAP表示全局平均池化,Conv1D表示一维卷积,σ表示sigmod激活函数,s表示高效通道注意力的输出;将ECA模块加入resnet的每个
残差块中,实现跨通道信息交互;
[0008]S2:构建改进的ASPP空洞金字塔池化模块,并行使用具有不同采样率的多个空洞卷积分支;为每个空洞卷积提取的特征在单独的分支中做处理,并融合以生成最终结果;该空洞金字塔池化模块通过不同的空洞率构建不同感受野的卷积核,用来获取多尺度物体信息;使用空洞卷积,在不增加参数量的情况下增大感受野k

=k+(k

1)(r

1),其中k为原始卷积核的大小,r为空洞率也称为膨胀率,k

是实际卷积核的大小;
[0009]S3:使用标准的transformer解码器从特征图F,以及N个可以学习的位置嵌入Q
i
计算输出,N是做图像分割任务时的类别个数,即对象个数,输出的每个向量对应一个对象特征;Transformer解码器是基于多头注意力机制实现的Q、K、V分别是查询向量矩阵、键向量矩阵和值向量矩阵,Attention(Q,K,V)是得到的注意力的值,Softmax是激活函数;
[0010]多头注意力机制使用一组线性变化层对Q、K和V分别进行线性变换;变换不会改变原有张量的尺寸,每个变换矩阵都是方阵;每个头从语义层面分割输出张量,即每个头都想获得一组Q、K、V;分割最后一维的词嵌入向量;把每个头的获得的输入送到注意力机制中,就形成多头注意力机制;
[0011]S4:将得到的对象特征与经过骨干网络输出的特征图相乘,得到对象增强后的特征图X
obj
=X
·
Attention(X
q
,X
k
,Q
i
),X表示输入的特征图,X
q
表示用输入X作为查询向量矩阵,X
k
表示用输入X作为键向量矩阵,Q
i
表示可学习的位置嵌入,Attention表示多头注意力机制,X
obj
是对象增强后的输出;
[0012]S5:将S3获得的包含多尺度信息的特征图和S4得到的对象增强后的特征图做拼接操作;再通过一个1X1的卷积层,融合多尺度信息和对象增强信息X
aug
=Conv(X
aspp
+X
obj
),X
obj
表示对象增强后的输出,X
aspp
是空洞金字塔池化模块的输出,X
aug
是融合后的输出,Conv表示1X1的卷积;
[0013]S6:将S5获得的特征图上采样到原图大小;使用双线性插值法进行上采样S6:将S5获得的特征图上采样到原图大小;使用双线性插值法进行上采样y2,y1为中间插值点的坐标值,R1,R2是中间插值点的像素值,f(P)是最终插值点的像素值;最后逐个像素计算softmax分类的损失,每一个像素对应一个训练样本;使用交叉熵函数作为损失函数,通过逐个对比每个像素得到损失值;选取的评价指标为MIoU,MIoU是分别对每个类计算真实标签和预测结果的交并比IOU,然后再对所有类别的IOU求均值;其中k表示类别数,TP表示真正,FN表示假负,FP表示假正。
[0014]可选的,所述空洞金字塔池化模块中,池化金字塔包含一个普通的1x1卷积核,膨胀率rate为6的3x3卷积核,膨胀率rate为12的3x3卷积核,膨胀率rate为18的3x3卷积核,膨胀率rate为15的3x3卷积核;将全局平均池化层换成膨胀率rate为15的3x3卷积核;池化层更换为rate15的卷积核后,该分支的输出会由C维向量变为CxHxW的特征图。
[0015]可选的,所述Transformer解码器包含6个解码器层,每个解码器层由三个子层连接结构组成:
[0016]第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接;
[0017]第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接;
[0018]第三个子层连接结构包括一个前本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对象增强的高分辨率遥感图像语义分割方法,其特征在于:该方法包括以下步骤:S1:使用加入了ECA高效通道注意力模块的改进resnet50作为骨干网络,将已经预处理好的图像输入骨干网络中,进行遥感图像特征提取,得到特征图F;通过resnet的残差结构,H
(x)
=F
(x)
+x,其中x为原始输入,F(x)是普通映射,H(x)是残差映射;解决网络加深造成的梯度爆炸和梯度消失的问题;当输入的图像进入骨干网络后,先经过一个7x7的普通卷积层,由池化层下采样后进入多个残差块组成的残差结构中;每个残差块包含2个1x1卷积核,3x3卷积核,以及shortcut捷径分支;舍弃resnet50网络最后的全局平均池化层和全连接层;注意力机制看作是一个基于输入图像特征的动态权重调整过程,加入高效通道注意力模块,在模型参数量增加极少的情况下捕捉通道间的依赖关系;ECA高效通道注意力算法表示为s=F
eca
(X,θ)=σ(Conv1D(GAP(X))),其中,GAP表示全局平均池化,Conv1D表示一维卷积,σ表示sigmod激活函数,s表示高效通道注意力的输出;将ECA模块加入resnet的每个残差块中,实现跨通道信息交互;S2:构建改进的ASPP空洞金字塔池化模块,并行使用具有不同采样率的多个空洞卷积分支;为每个空洞卷积提取的特征在单独的分支中做处理,并融合以生成最终结果;该空洞金字塔池化模块通过不同的空洞率构建不同感受野的卷积核,用来获取多尺度物体信息;使用空洞卷积,在不增加参数量的情况下增大感受野k'=k+(k

1)(r

1),其中k为原始卷积核的大小,r为空洞率也称为膨胀率,k'是实际卷积核的大小;S3:使用标准的transformer解码器从特征图F,以及N个可以学习的位置嵌入Q
i
计算输出,N是做图像分割任务时的类别个数,即对象个数,输出的每个向量对应一个对象特征;Transformer解码器是基于多头注意力机制实现的Q、K、V分别是查询向量矩阵、键向量矩阵和值向量矩阵,Attention(Q,K,V)是得到的注意力的值,Softmax是激活函数;多头注意力机制使用一组线性变化层对Q、K和V分别进行线性变换;变换不会改变原有张量的尺寸,每个变换矩阵都是方阵;每个头从语义层面分割输出张量,即每个头都想获得一组Q、K、V;分割最后一维的词嵌入向量;把每个头的获得的输入送到注意力机制中,就形成多头注意力机制;S4:将得到的对象特征与经过骨干网络输出的特征图相乘,得到对象增强后的特征图X
obj<...

【专利技术属性】
技术研发人员:袁正午邓阳王阳陈强
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1