本发明专利技术提供了一种多层次自适应知识蒸馏的轻量化高分遥感场景分类方法,包括以下步骤:步骤S1:将遥感图像数据分别送入教师模型和学生模型进行特征提取;步骤S2:将教师模型和学生模型提取的特征分别送入分类器,通过自适应温度机制对温度进行调整后,将概率分布输出进行蒸馏学习;步骤S3:将教师模型和学生模型提取的特征分别生成对应的空;步骤S4:将教师模型和学生模型提取的特征分别生成对应的通道间相关性,并从教师模型与学生模型的特征的通道间相关性进行蒸馏学习。应用本技术方案能够自适应调整知识蒸馏过程中输出层的蒸馏温度,使得学生模型有选择地学习教师模型的输出层概率分布知识。出层概率分布知识。出层概率分布知识。
【技术实现步骤摘要】
多层次自适应知识蒸馏的轻量化高分遥感场景分类方法
[0001]本专利技术涉及遥感
,特别是一种多层次自适应知识蒸馏的轻量化高分遥感场景分类方法。
技术介绍
[0002]高分遥感影像场景分类与识别是指对高分辨率遥感影像中提取的子区域使用不同级别的语义特征进行影像内容识别和标记,是遥感信息智能处理的关键环节,对于土地资源管理和优化、城市规划、自然灾害评估探测、植被制图以及促进可持续发展具有重要意义。当前遥感图像的场景分类工作的一个局限性表现为:深度神经网络模型计算量大且耗时,而轻量化模型速度快但精度低,二者均无法直接应用在嵌入式设备上。在这种情况下,一种有效的解决方案是对深层CNN模型进行压缩以获得更精简有效的模型。知识蒸馏是目前主流的模型压缩算法之一,将已经完成训练的深层网络的输出语义信息作为教师知识,指导新的浅层网络进行训练,进而提高浅层网络的模型学习和泛化能力,最终在保证模型精度的基础上降低参数量,提高模型整体性能。
[0003]然而,由于遥感场景图像是从高空拍摄,覆盖区域很大,包含的对象比普通图像丰富,对象构成更为复杂,这导致不同类别的影像之间差异程度不均衡。在高分遥感图像场景分类的知识蒸馏过程中,如果使用恒定温度会导致模型效果下降,因为蒸馏的温度会影响学生模型对软标签样本的学习程度。此外,由于高分遥感结构信息丰富,基于深层卷积神经网络模型提取的特征在送入分类器后结构信息将被打乱,因此,仅使用教师模型的输出层的语义信息作为学生模型的指导信息限制了学生模型的泛化性学习。
技术实现思路
[0004]有鉴于此,本专利技术的目的在于提供一种多层次自适应知识蒸馏的轻量化高分遥感场景分类方法,能够自适应调整知识蒸馏过程中输出层的蒸馏温度,使得学生模型有选择地学习教师模型的输出层概率分布知识。
[0005]为实现上述目的,本专利技术采用如下技术方案:多层次自适应知识蒸馏的轻量化高分遥感场景分类方法,包括以下步骤:
[0006]步骤S1:将遥感图像数据分别送入教师模型和学生模型进行特征提取;
[0007]步骤S2:将教师模型和学生模型提取的特征分别送入送入经过归一化函数BatchNorm、全连接层、以及全连接层组成的分类模块,得到相应的概率分布输出,通过自适应温度机制对温度进行调整后,将调整后的教师模型的概率分布输出与学生模型的概率分布输出进行蒸馏学习;
[0008]步骤S3:将教师模型和学生模型提取的特征分别生成对应的空间注意力,并从教师模型与学生模型的特征的空间注意力进行蒸馏学习;
[0009]步骤S4:将教师模型和学生模型提取的特征分别生成对应的通道间相关性,并从教师模型与学生模型的特征的通道间相关性进行蒸馏学习。
[0010]在一较佳的实施例中,通过自适应温度机制对温度进行调整具体如下:
[0011]设置一个温度初始值T
s
,依据教师模型的软标签对温度进行自适应调整:
[0012]T
s
[0013]式中,P
t_max
为教师模型的分类器输出的最大概率值;通过针对不同的图像样本自适应调整蒸馏的温度,使得对于相关性大的场景类别样本,温度变大,学生模型能够学到更多的概率分布知识;而对于相关性小的场景类别样本,温度变小,学生模型学习更少的概率分布知识。
[0014]在一较佳的实施例中,在知识蒸馏的过程中,引入教师模型和学生模型最后一层卷积层的特征中的空间注意力以及通道间相关性的计算,通过教师模型的特征空间注意力计算指导学生模型应关注的特征空间区域;通过教师模型的特征通道间相关性计算指导学生模型从特征的通道间相关性的学习。假设教师模型和学生模型的中间特征输出分别为和和和表示教师模型的特征有m维通道,A(
·
)表示转换为将特征图转换成单通道的大小为h
×
w的特征注意力:
[0015][0016]式中得到教师模型和学生模型的特征注意力后,使用Smooth L1损失函数进行特征注意力的计算。特征的通道间相关性的计算如下:
[0017][0018]得到教师模型和学生模型的特征通道间相关性后,使用L2损失函数来计算特征的通道相关性损失。
[0019]在一较佳的实施例中,协同模型的输出层和最后一层卷积层的特征层的空间注意力和通道间相关性信息作为约束条件,使得学生模型的输出层和特征层与教师模型相似。
[0020]与现有技术相比,本专利技术具有以下有益效果:能够自适应调整知识蒸馏过程中输出层的蒸馏温度,使得学生模型有选择地学习教师模型的输出层概率分布知识;此外,增加模型最后一层卷积层的特征的空间注意力和通道间相关性,多层次增强学生模型学习的指导,最终获得高性能的轻量化模型。
附图说明
[0021]图1为本专利技术优选实施例的原理示意图。
具体实施方式
[0022]下面结合附图及实施例对本专利技术做进一步说明。
[0023]应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。
[0024]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包
括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0025]多层次自适应知识蒸馏的轻量化高分遥感场景分类方法,参考图1,包括以下步骤:
[0026]步骤S1:将遥感图像数据分别送入教师模型和学生模型进行特征提取,其中,教师模型通常选用精度高的分类模型,包括但不限于ResNet
‑
152,学生模型通常选用轻量化的分类模型,包括但不限于MobileNetV3;
[0027]步骤S2:将教师模型和学生模型提取的特征分别送入送入经过归一化函数BatchNorm、全连接层、以及全连接层组成的分类模块,得到相应的概率分布输出,通过自适应温度机制对温度进行调整后,将调整后的教师模型的概率分布输出与学生模型的概率分布输出进行蒸馏学习;通过自适应温度机制的输出层知识蒸馏,学生模型可以更好地从教师模型的输出层学习负样本知识,同时减少标签噪声对差异度较低的场景的影响。
[0028]步骤S3:将教师模型和学生模型提取的特征分别生成对应的空间注意力,并从教师模型与学生模型的特征的空间注意力进行蒸馏学习;在知识蒸馏的过程中,增加模型最后一层卷积层的特征的空间注意力和通道间相关性,增强对学生模型学习的指导。
[0029]步骤S4:将教师模型和学生模型提取的特征分别生成对应的通道间相关性,并从教师模型与学生模型的特征的通道间相关性进行蒸馏学习。
[0030]通过自适应温度机制对温度进行调整具体如下:
[0031]设置一个温度初始值T
s本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.多层次自适应知识蒸馏的轻量化高分遥感场景分类方法,其特征在于,包括以下步骤:步骤S1:将遥感图像数据分别送入教师模型和学生模型进行特征提取;步骤S2:将教师模型和学生模型提取的特征分别送入经过归一化函数BatchNorm、全连接层、以及全连接层组成的分类模块;得到相应的概率分布输出,通过自适应温度机制对温度进行调整后,将调整后的教师模型的概率分布输出与学生模型的概率分布输出进行蒸馏学习;步骤S3:将教师模型和学生模型提取的特征分别生成对应的空间注意力,并从教师模型与学生模型的特征的空间注意力进行蒸馏学习;步骤S4:将教师模型和学生模型提取的特征分别生成对应的通道间相关性,并从教师模型与学生模型的特征的通道间相关性进行蒸馏学习。2.根据权利要求1所述的多层次自适应知识蒸馏的轻量化高分遥感场景分类方法,其特征在于,通过自适应温度机制对温度进行调整具体如下:设置一个温度初始值T
s
,依据教师模型的软标签对温度进行自适应调整:式中,P
t_max
为教师模型的分类器输出的最大概率值;通过针对不同的图像样本自适应调整蒸馏的温度,使得对于相关性大的场景类别样本,温度变大,学生模型能够学到更多的...
【专利技术属性】
技术研发人员:翁谦,黄志铭,林嘉雯,林智明,吴雨阳,陈浩,
申请(专利权)人:福州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。