一种基于ResNet18残差神经网络自蒸馏训练方法技术

技术编号：43225144 阅读：16 留言：0更新日期：2024-11-05 17:15

本发明专利技术公开了一种基于ResNet18残差神经网络自蒸馏训练方法，其包括残差神经网络ResNet18、注意力模块与浅层模块，构建多个分类器搭建自蒸馏框架；同时使用已完成普通训练的ResNet18网络搭建联合训练框架，充分利用网络内外部的“知识”，提高神经网络的分类性能，本发明专利技术以残差神经网络ResNet18为基础，额外引入注意力模块、浅层模块构建多个分类器搭建自蒸馏框架，然后使用另一个已经完成普通训练的ResNet18残差网络来指导自蒸馏框架进行训练。整个训练过程可以全面利用网络内外部知识，提升蒸馏效果，进而提高ResNet18网络的分类精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及神经网络自蒸馏训练，尤其涉及一种基于resnet18残差神经网络自蒸馏训练方法。

技术介绍

1、现有技术中，近年来，深度学习在计算机视觉等领域获得了极大的成功。作为计算机视觉三大任务之一的图像分类应用范围极其广泛。随着分类任务的不断复杂化，分类难度不断增大，残差神经网络resnet18难以在有限的分类数据集中学习到更多的信息，导致分类精度较低，无法有效完成图像分类任务。

2、为提升神经网络分类性能，基于知识迁移的知识蒸馏深受关注，其思想是利用复杂度较高的教师网络指导复杂度较低的学生网络训练，使学生网络在训练过程中，能够吸收教师网络传递的“知识”，进而提升学生网络性能。而传统蒸馏方法仅注重学习隐藏在数据集内的知识和教师网络传授的外部知识，忽视了网络内部知识的学习。自蒸馏作为一种知识蒸馏的改进方法，以神经网络自身构造深层分类器作为教师网络，然后根据深层分类器的深度将其划分为多个区域，在不同区域分别增加模块，构造浅层分类器作为学生网络，最后对所有分类器进行自蒸馏训练。全过程，“知识”仅在蒸馏框架内部流动，提高了网络内部知识的吸收率进而提升了神经网络深层分类器性能，却忽略了外部知识的运用。

3、因此本申请提出一种基于resnet18残差神经网络自蒸馏训练方法，用于解决上述问题。

技术实现思路

1、基于
技术介绍
存在的技术问题，本专利技术提出了一种基于resnet18残差神经网络自蒸馏训练方法。

2、本专利技术提出的一种基于resnet18残差

3、优选的，所述conv3×3表示卷积核为3×3的卷积层，64、128、256与512为卷积层输出特征图的通道数；maxpool表示最大池化层；avgpool表示平均池化层；fc1_100、fc2_100、fc3_100、fc4_100、fc5_100均表示节点个数为100的全连接层，fc6_512和fc7_512表示节点个数为512的全连接层；softmax1、softmax2、softmax3、softmax4与softmax5均表示softmax函数；attention module 1、attention module 2与attention module 3均表示注意力模块，label表示图像的真实标签，t_basicblock1、t_basicblock2、t_basicblock3与t_basicblock4为已完成训练的resnet18的残差模块，basicblock1、basicblock2、basicblock3与basicblock4为自蒸馏框架内resnet18的残差模块；已完成训练的resnet18由一个卷积核为3×3的卷积层、一个maxpool最大池化层、t_basicblock1残差模块、t_basicblock2残差模块、t_basicblock3残差模块、t_basicblock4残差模块、一个avgpool平均池化层、一个全连接层fc5_100以及softmax5函数构成，其中t_basicblock1模块、t_basicblock2模块、t_basicblock3模块与t_basicblock4模块分别由2组卷积核大小为3×3的卷积层构成，输出特征图通道数分别为64、128、256、512，自蒸馏框架内的resnet18由一个卷积核为3×3的卷积层、一个maxpool最大池化层、basicblock1残差模块、basicblock2残差模块、basicblock3残差模块、basicblock4残差模块、一个avgpool平均池化层、一个全连接层fc4_100以及softmax4函数构成，此外，自蒸馏框架在basicblock1残差模块上依次添加了attention module 1、浅层模块1、全连接层fc1_100以及softmax1函数构成了浅层分类器1；在basicblock2残差模块上添加了attention module 2、浅层模块2、全连接层fc2_100以及softmax2函数构成了浅层分类器2；在basicblock3残差模块上添加了浅层模块3、attention module 3、全连接层fc3_100以及softmax3函数构成了浅层分类器3；在basicblock4残差模块上添加了浅层模块4。此外，在浅层模块1和浅层模块2上分别添加了fc6_512和fc7_512。

4、优选的，已完成训练的resnet18网络，对输入图像先进行卷积操作(conv3×3，64)，后经过maxpool最大池化层获得输出特征图，maxpool的输出特征图作为t_basicblock1残差模块的输入特征图，输入到t_basicblock1残差模块中，经过卷积操作，获得t_basicblock1的输出特征图；t_basicblock1的输出特征图作为t_basicblock2残差模块的输入特征图，输入到t_basicblock2残差模块中，经过卷积操作，获得t_basicblock2的输出特征图；t_basicblock2的输出特征图作为t_basicblock3残差模块的输入特征图，输入到t_basicblock3残差模块中，经过卷积操作，获得t_basicblock3的输出特征图；t_basicblock3的输出特征图作为t_basicblock4残差模块的输入特征图，输入到t_basicblock4残差模块中，经过卷积操作，获得t_basicblock4的输出特征图；最后t_basicblock4的输出特征图依次经过avgpool平均池化层、全连接层fc5_100和softmax5函数之后，得到resnet18最终的预测结果out5。

5、优选的，所述自蒸馏框架中的resnet18，对输入图像先进行卷积操作(conv3×3，64)、后经过maxpool最大池化层获得输出特征图，maxpool的输出特征图作为basicblock1残差模块的输入特征图，输入到basicblock1残差模块中，经过卷积操作，获得basicblock1的输出特征图；basicblock1的输出特征图分别作为basicblock2和attention module 1的输入特征图，attention module 1的输出特征图经过浅层模块1与全连接层fc1_100、softmax1函数得到浅层分类器1的最终预测结果out1；basicblock2的输出特征图分别作为basicblock3和attention module 2的输入特征图，attention module2的输出特征图经过浅层模块2、全连接层fc2_100与softmax2函数得到浅层分类器2的最终预测结果out2；basicblock3的输出特征图分别作为basicblock4和attention 本文档来自技高网...

【技术保护点】

1.一种基于ResNet18残差神经网络自蒸馏训练方法，其特征在于，包括残差神经网络ResNet18、注意力模块与浅层模块，构建多个分类器搭建自蒸馏框架；同时使用已完成普通训练的ResNet18网络搭建联合训练框架，充分利用网络内外部的“知识”，提高神经网络的分类性能。

2.根据权利要求1所述的一种基于ResNet18残差神经网络自蒸馏训练方法，其特征在于，所述Conv3×3表示卷积核为3×3的卷积层，64、128、256与512为卷积层输出特征图的通道数；maxpool表示最大池化层；AvgPool表示平均池化层；FC1_100、FC2_100、FC3_100、FC4_100、FC5_100均表示节点个数为100的全连接层，FC6_512和FC7_512表示节点个数为512的全连接层；Softmax1、Softmax2、Softmax3、Softmax4与Softmax5均表示Softmax函数；Attention module 1、Attention module 2与Attention module 3均表示注意力模块，label表示图像的真实标签，T_Basi

3.根据权利要求1所述的一种基于ResNet18残差神经网络自蒸馏训练方法，其特征在于，已完成训练的ResNet18网络，对输入图像先进行卷积操作(Conv3×3，64)，后经过maxpool最大池化层获得输出特征图，maxpool的输出特征图作为T_Basicblock1残差模块的输入特征图，输入到T_Basicblock1残差模块中，经过卷积操作，获得T_Basicblock1的输出特征图；T_Basicblock1的输出特征图作为T_Basicblock2残差模块的输入特征图，输入到T_Basicblock2残差模块中，经过卷积操作，获得T_Basicblock2的输出特征图；T_Basicblock2的输出特征图作为T_Basicblock3残差模块的输入特征图，输入到T_Basicblock3残差模块中，经过卷积操作，获得T_Basicblock3的输出特征图；T_Basicblock3的输出特征图作为T_Basicblock4残差模块的输入特征图，输入到T_Basicblock4残差模块中，经过卷积操作，获得T_Basicblock4的输出特征图；最后T_Basicblock4的输出特征图依次经过AvgPool平均池化层、全连接层FC5_100和Softmax5函数之后，得到ResNet18最终的预测结果out5。

4.根据权利要求1所述的一种基于ResNet18残差神经网络自蒸馏训练方法，其特征在于，所述...

【技术特征摘要】

1.一种基于resnet18残差神经网络自蒸馏训练方法，其特征在于，包括残差神经网络resnet18、注意力模块与浅层模块，构建多个分类器搭建自蒸馏框架；同时使用已完成普通训练的resnet18网络搭建联合训练框架，充分利用网络内外部的“知识”，提高神经网络的分类性能。

2.根据权利要求1所述的一种基于resnet18残差神经网络自蒸馏训练方法，其特征在于，所述conv3×3表示卷积核为3×3的卷积层，64、128、256与512为卷积层输出特征图的通道数；maxpool表示最大池化层；avgpool表示平均池化层；fc1_100、fc2_100、fc3_100、fc4_100、fc5_100均表示节点个数为100的全连接层，fc6_512和fc7_512表示节点个数为512的全连接层；softmax1、softmax2、softmax3、softmax4与softmax5均表示softmax函数；attention module 1、attention module 2与attention module 3均表示注意力模块，label表示图像的真实标签，t_basicblock1、t_basicblock2、t_basicblock3与t_basicblock4为已完成训练的resnet18的残差模块，basicblock1、basicblock2、basicblock3与basicblock4为自蒸馏框架内resnet18的残差模块；已完成训练的resnet18由一个卷积核为3×3的卷积层、一个maxpool最大池化层、t_basicblock1残差模块、t_basicblock2残差模块、t_basicblock3残差模块、t_basicblock4残差模块、一个avgpool平均池化层、一个全连接层fc5_100以及softmax5函数构成，其中t_basicblock1模块、t_basicblock2模块、t_basicblock3模块与t_basicblock4模块分别由2组卷积核大小为3×3的卷积层构成，输出特征图通道数分别为64、128、256、512，自蒸馏框架内的resnet18由一个卷积核为3×3的卷积层、一个maxpool最大池化层、basicblock1残差模块、basicblock2残差模块、basicblock3残差模块、basicblock4残差模块、一个avgpool平均池化层、一个全连接层fc4_100以及softmax4函数构成，此外，自蒸馏框架在basicblock1残差模块上依次添加了attention module 1、浅层模块1、全连接层fc1_100以及softmax1函数构成了浅层分类器1；在basicblock2残差模块上添加了attention module 2、浅层模块2、全连接层fc2_100以及softmax2函数构成了浅层分类器2；在basicblock3残差模块上添加了浅层模块3、attention module 3、全连接层fc3_100以及softmax3函数构成了浅层分类器3；在basicblock4残差模块上添加了浅层模块4。此外，在浅层模块1和浅层模块2上分别添加了fc6_512和fc7_512。

3.根据权利要求1所述的一种基于resnet18残差神经网络自蒸馏训练方法，其特征在于，已完成训练的resnet18网络，对输入图像先进行卷积操作(conv3×3，64)，后经过maxpool最大池化层获得输出特征图，maxpool的输出特征图作为t_basicblock1残差模块的输入特征图，输入到t_basicblock1残差模块中，经过卷积操作，获得t_basicblock1的输出特征图；t_basicblock1的输出特征图作为t_basicblock2残差模块的输入特征图，输入到t_basicblock2残差模块中，经过卷积操作，获得t_basicblock2的输出特征图；t_basicblock2的输出特征图作为t_basicblock3残差模块的输入特征图，输入到t_basicblock3残差模块中，经过卷积操作，获得t_basicblock3的输出特征图；t_basicblock3的输出特征图作为t_basicblock4残差模块的输入特征图，输入到t_basicblock4残差模块中，经过卷积操作，获得t_basicblock4的输出特征图；最后t_basicblock4的输出特征图依次经过avgpool平均池化层、全连接层fc5_100和softmax5函数之后，得到resnet18最终的预测结果out5。

4.根据权利要求1所述的一种基于resnet18残差神经网络自蒸馏训练方法，其特征在于，所述自蒸馏框架中的resnet18，对输入图像先进行卷积操作(conv3×3，64)、后经过maxpool最大池化层获得输出特征图，maxpool的输出特征图作为basicblock1残差模块的输入特征图，输入到basicblock1残差模块中，经过卷积操作，获得basicblock1的输出特征图；basicblock1的输出特征图分别作为basicblock2和attention module 1的输入特征图，attention module1的输出特征图经过浅层模块1与全连接层fc1_100、softmax1函数得到浅层分类器1的最终预测结果out1；basicblock2的输出特征图分别作为basicblock3和attention module 2的输入特征图，att...

【专利技术属性】
技术研发人员：刘尚鑫，朱明甫，倪水平，朱智丹，孙鹏，陈亚薇，底飞，张毅哲，马新良，王文迪，
申请(专利权)人：河南垂天科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人