渐进式训练多尺度信息检索网络的图像场景分类方法技术

技术编号:39496197 阅读:14 留言:0更新日期:2023-11-24 11:23
本发明专利技术公开一种渐进式训练多尺度信息检索网络的图像场景分类方法,主要解决现有遥感图像场景分类方法特征提取能力不足,受噪声样本影响的问题

【技术实现步骤摘要】
渐进式训练多尺度信息检索网络的图像场景分类方法


[0001]本专利技术属于图像处理
,更进一步涉及图像分类
中的一种渐进式训练多尺度信息检索网络的图像场景分类方法

本专利技术可用于为遥感场景图像进行分类


技术介绍

[0002]在多种遥感技术中,遥感场景分类是一种基本的遥感判别技术,其目的是定义符合遥感场景内容的场景标签

准确的场景分类结果有利于不同的遥感任务和应用,如图像检索

土地覆盖分类

危害与环境监测

资源勘探

然而,由于遥感图像中包含的多元化的地理环境以及不同的土地利用类型,如山脉

河流

城市和湿地等,遥感场景相较于自然图像具有显著的复杂特征,理解遥感场景的复杂特征对于遥感图像场景分类方法具有实践意义

同时,在工程实践中由于遥感场景图像的土地覆被类别多

体量大等特征,使得对新获得的遥感场景进行标注十分困难

手动标记大规模遥感数据具备挑战性,耗时且费力,此外还要求从业人员具备专业知识

机器标记遥感数据的准确性还有待提高

由于神经网络强大的学习能力,错误标记的遥感场景会直接影响最终的分类性能

[0003]康健等人在其发表的论文“Noise

tolerant deep neighborhood embedding for remotely sensed images with label noise”(IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing

2021)
中提出了一种基于度量学习的面向噪声场景的遥感图像分类方法

该方法通过对原始度量学习损失函数的改进,准确地进行编码遥感场景之间的语义关系,通过最大化留一法
K
紧邻的得分以解释特征空间中图像之间的固有邻域结构,同时通过学习局部结构并修剪具有低
K
紧邻得分的图像来降低潜在噪声图像的贡献,最后通过神经网络提取特征并使用
K
紧邻方法进行分类

该方法虽然通过挑选样本的方法降低了噪声样本对分类结果的影响,但是,该方法仍然存在的不足之处是,该方法中的网络结构采用原始的神经网络,具有的特征提取能力有限,提取出的特征不足以准确描述复杂的遥感场景内容,因此在面向噪声场景的分类任务中,使用基础的神经网络由于特征提取能力的不足无法表现出良好的分类性能

[0004]齐鲁工业大学在其申请的专利文献“一种基于多头注意力卷积神经网络的遥感场景分类方法”(
专利申请号:
CN 202210381142.1,
授权公告号:
CN 114463646 B)
中提出了一种基于多头自注意力卷积神经网络的遥感场景分类方法

该方法利用多头自注意力层对卷积神经网络学习到的卷积特征图进一步编码,从而充分地利用上下文信息进行特征的捕捉

但是,该方法存在的不足之处在于,该方法仅针对被正确标注的遥感场景进行分类,因此在对网络进行训练的过程中只使用了交叉熵损失函数训练,由于实际应用中遥感场景可能被错误标注,因此在数据集中包含噪声样本的场景下,该方法构建的模型由于噪声样本的干扰,其分类性能达不到预想的指标要求


技术实现思路

[0005]本专利技术的目的在于针对上述现有技术的不足,提出一种渐进式训练多尺度信息检
索网络的图像场景分类方法,用于解决现有遥感场景分类方法用于面向噪声场景图像分类时存在的特征提取能力不足

受噪声样本影响较大导致分类精度低的技术问题

[0006]为实现上述目的,本专利技术的思路是,通过
Transformer
将神经网络从遥感场景中提取的多尺度信息进行融合,融合后的全局上下文特征同时包含不同尺度的信息和不同尺度间
/
相同尺度内信息的关系,相较于神经网络提取的全局卷积特征,全局上下文特征可以补充其缺失的长距离依赖关系,以此解决面向噪声场景图像分类时模型特征提取能力不足的问题,同时采用双孪生分支的结构降低噪声样本对单一模型产生的影响

本专利技术利用一个渐进式学习算法,将模型的训练过程分为三个阶段,首先,采用反向学习策略初步训练多尺度信息检索网络,使用反向学习损失函数简单地学习样本与标签的关系;其次,采用样本选择策略,选择部分样本并通过交叉熵损失函数进一步训练多尺度信息检索网络;最后,为了避免信息的缺失,采用重新标记策略训练并利用交叉熵损失函数训练网络完成多尺度信息检索网络的训练,以此解决分类精度低

模型受噪声样本影响较大的问题

[0007]实现本专利技术目的的具体步骤如下:
[0008]步骤1,生成训练集:
[0009]选取至少
P
张遥感图片组成训练集,训练集中至少包括
C
个遥感场景类别,每一个遥感场景类别中至少含有
N
张图片,并且该类别中含有
M
张噪声的遥感图片,其中,
N
大于或等于1,
M≤N

C
大于或等于2,
P

C
×
N

[0010]步骤2,搭建一个由结构相同的第一子网络和第二子网络并联组成双孪生分支结构的多尺度信息检索网络;每个子网络包括两个支路和四个尺度缩减层;所述第一支路由下采样模块

第一卷积模块

第二卷积模块

第三卷积模块

第四卷积模块依次串联组成;第二支路由拼接层
、Transformer
模块

分类器依次串联组成;第一支路中的第一至第四卷积模块分别与第一尺度至第四尺度缩减层相连后再与第二支路的拼接层相连接;第一支路中的第四卷积模块与第二支路的分类器相连;
[0011]步骤3,采用反向学习策略,初步训练多尺度信息检索网络:
[0012]将训练集输入到多尺度信息检索网络中,使用梯度下降法,迭代更新第一子网络的权重值,使用参数迁移法更新第二子网络的权重,直至反向学习损失函数收敛为止,得到初步训练好的多尺度信息检索网络;
[0013]步骤4,采用样本选择策略,进一步训练多尺度信息检索网络:
[0014]将训练集输入到初步训练好的多尺度信息检索网络中,使用样本选择策略选择部分样本参与训练;使用梯度下降法,迭代更新第一子网络的权重,使用参数迁移法更新第二子网络的权重,直至交叉熵损失函数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种渐进式训练多尺度信息检索网络的图像场景分类方法,其特征在于,构建一个包含双孪生分支的多尺度信息检索网络,使用渐进式学习算法训练网络;该分类方法的步骤包括如下:步骤1,生成训练集:选取至少
P
张遥感图片组成训练集,训练集中至少包括
C
个遥感场景类别,每一个遥感场景类别中至少含有
N
张图片,并且该类别中含有
M
张噪声的遥感图片,其中,
N
大于或等于1,
M≤N

C
大于或等于2,
P

C
×
N
;步骤2,搭建一个由结构相同的第一子网络和第二子网络并联组成双孪生分支结构的多尺度信息检索网络;每个子网络包括两个支路和四个尺度缩减层;所述第一支路由下采样模块

第一卷积模块

第二卷积模块

第三卷积模块

第四卷积模块依次串联组成;所述第二支路由拼接层
、Transformer
模块

分类器依次串联组成;第一支路中的第一至第四卷积模块分别与第一尺度至第四尺度缩减层相连后再与第二支路的拼接层相连接;第一支路中的第四卷积模块与第二支路的分类器相连;步骤3,采用反向学习策略,初步训练多尺度信息检索网络:将训练集输入到多尺度信息检索网络中,使用梯度下降法,迭代更新第一子网络的权重值,使用参数迁移法更新第二子网络的权重,直至网络的反向学习损失函数收敛为止,得到初步训练好的多尺度信息检索网络;步骤4,采用样本选择策略,进一步训练多尺度信息检索网络:将训练集输入到初步训练好的多尺度信息检索网络中,使用样本选择策略选择部分样本参与训练过程中交叉熵损失函数的计算;使用梯度下降法,迭代更新第一子网络的权重,使用参数迁移法更新第二子网络的权重,直至网络的交叉熵损失函数收敛为止,得到进一步训练好的多尺度信息检索网络;步骤5,采用重新标记策略,完成对多尺度信息检索网络的训练:将训练集输入到进一步训练好的多尺度信息检索网络中,使用重新标记策略为训练集中的训练样本重新分配标签;使用梯度下降法,迭代更新第一子网络的权重,使用参数迁移法更新第二子网络的权重,直至网络的交叉熵损失函数收敛为止,得到训练好的多尺度信息检索网络;步骤6,对遥感图像进行分类:将待分类的遥感图像输入到训练好的多尺度信息检索网络中,输出分类结果向量,该向量中包含与训练集中每一遥感场景类别相对应的概率值,将其中最大概率值所对应的类别作为待分类遥感图像的分类结果
。2.
根据权利要求1所述的渐进式训练多尺度信息检索网络的图像场景分类方法,其特征在于,步骤2中所述的下采样模块由卷积层,归一化层,激活层

最大池化层依次串联组成;将卷积层的输入通道数设置为
N
r

N
r
的取值与输入遥感场景图像的通道数相等,输出通道数设置为
64
,卷积核的大小设置为7×7,卷积步长设置为1,边界扩充值设置为1;将归一化层的通道数量设置为
64
;激活层使用
ReLU
激活函数实现;最大池化层的步长设置为
2。3.
根据权利要求1所述的渐进式训练多尺度信息检索网络的图像场景分类方法,其特征在于,步骤2中所述的第一卷积模块,第二卷积模块,第三卷积模块

第四卷积模块的结构为;第一卷积模块由第一残差块

第二残差块

最大池化层依次串联组成;第二卷积模块由
第三残差块

第四残差块

第五残差块

最大池化层依次串联组成;第三卷积模块由第六残差块

第七残差块

第八残差块

第九残差块

最大池化层依次串联组成;第四卷积模块由第十残差块

第十一残差块

最大池化层依次串联组成;将第一至第三卷积模块中的最大池化层的步长均设置为2;第四卷积模块中的最大池化层的步长设置为
7。4.
根据权利要求3所述的渐进式训练多尺度信息检索网络的图像场景分类方法,其特征在于,步骤2中所述第一卷积模块,第二卷积模块,第三卷积模块

第四卷积模块中第一至第十一残差块的结构均相同;每个残差块均由第一卷积层,第一批次归一化层,激活层,第二卷积层,第二批次归一化层依次串联组成;第一卷积层的输出与第二卷积层的输出相加;将第一

第二卷积层的卷积核大小均设置为3×3,卷积步长均设置为1,边界扩充值均设置为1;第一

第二批次归一化层的通道数与所属残差块的输出通道数相等;激活层使用
ReLU
激活函数实现;将第一至第十一残差块的输入通道数分别设置为
64

64

64

128

128

128

256

256

256

256

512
;输出通道数分别设置为
64

64

128

128

1...

【专利技术属性】
技术研发人员:唐旭杜瑞琦马晶晶张向荣焦李成
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1