基于多层次注意力的自我回顾知识蒸馏方法、系统及终端技术方案

技术编号：43866636 阅读：17 留言：0更新日期：2024-12-31 18:53

本发明专利技术涉及人工智能技术领域，公开了一种基于多层次注意力的自我回顾知识蒸馏方法、系统及终端。该方法利用学生模型和收敛后的教师模型，分别对样本集中的样本图片进行预测处理；获取教师模型和学生模型在每个处理阶段输出的特征图，据此计算教师模型和学生模型在每个处理阶段的注意力图。将学生模型在每个处理阶段的注意力图与前一处理阶段的注意力图进行特征融合，计算多层级注意力蒸馏损失。计算标准交叉熵损失和基本蒸馏损失；将三种损失加权得到总训练损失，据此进行梯度下降和反向传播，从而优化学生模型参数，随后利用样本集下一批次的样本图片对学习模型进行持续优化，直至学生模型收敛。本发明专利技术可有效提高学生模型的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体是一种基于多层次注意力的自我回顾知识蒸馏方法、系统及终端。

技术介绍

1、知识蒸馏是一种迁移学习方法，旨在通过转移从较大的教师模型中提炼出来的知识来提高较小的学生模型的性能。现有的知识蒸馏方法可以分为两种类型：基于logits的知识蒸馏方法，基于特征的知识蒸馏方法。

2、基于logits的蒸馏方法仅通过输出的logits来提取知识。现有研究提出了知识蒸馏的概念，并通过软化后的教师模型输出来指导学生模型的训练。之后，许多研究者对基于logits的方法进行了改进，例如：通过引入互学范式或额外的教师助理模块来促进知识蒸馏；通过解耦教师模型和学生模型的蒸馏过程来提高性能。logit蒸馏方法实施起来很简单，可以应用于任何情况。但是，它们的性能通常不如基于特征的方法。

3、基于特征的知识蒸馏方法是一类通过对齐教师模型和学生模型的中间特征表示来进行知识传递的方法。与基于logits的方法不同，基于特征的方法不仅仅依赖于最终输出的logits，而是利用了模型内部的特征表示，从而能够捕捉到更多的中间信息。现有越来越多的工作开始研究神经网络中间层的知识。有学者在教师网络和学生网络的一些隐藏层中增加了辅助分类器，然后对教师网络和学生网络进行协同训练，训练后去掉这些分类器，以减少运行时间。另外还有基于注意力转移的知识蒸馏方法，它将特定层的注意力图定义为指示模型最关注的输入区域的空间图。然而，上述方法均没有通过复习自己的知识来考虑学生的自我回顾。现有的大多数基于特征的知识蒸馏方法仅使用一种蒸馏策略在教师

技术实现思路

1、本专利技术解决的技术问题是如何在基于特征的知识蒸馏方法中，提高学生模型的准确率。

2、为实现上述目的，本专利技术提供如下技术方案：

3、本专利技术公开一种基于多层次注意力的自我回顾知识蒸馏方法，包括：

4、利用学生模型和收敛后的教师模型，分别对样本集中的样本图片进行预测处理；其中，所述预测处理包括多个处理阶段，每个处理阶段由学生模型或教师模型中的对应网络层执行。

5、获取教师模型和学生模型在每个处理阶段输出的特征图，据此计算教师模型和学生模型在每个处理阶段基于注意力的特征图即注意力图。

6、将学生模型在每个处理阶段的注意力图与前一处理阶段的注意力图进行特征融合，结合融合结果计算每个处理阶段的知识从教师模型转移到学生模型过程中的单次蒸馏损失，从而计算多层级注意力蒸馏损失。

7、根据学生模型和教师模型进行预测处理后的输出结果，计算标准交叉熵损失和基本蒸馏损失；将所述多层级注意力蒸馏损失、所述标准交叉熵损失和所述基本蒸馏损失三者进行加权得到总训练损失。

8、基于所述总训练损失进行梯度下降和反向传播，从而优化学生模型参数，随后利用样本集下一批次的样本图片对学习模型进行持续优化，直至学生模型收敛。

9、作为上述方案的进一步改进，教师模型和学生模型在每个处理阶段的注意力图的计算公式分别如下：

10、；

11、；

12、式中，为教师模型在第 i个处理阶段输出的特征图， c为特征图中的通道数量，， k为所述预测处理的处理阶段总数；为教师模型在第 i个处理阶段对应的注意力图；||·||2表示向量的第二范数； vec(·)表示向量运算；为学生模型在第 i个处理阶段输出的特征图；为学生模型在第 i个处理阶段对应的注意力图。

13、作为上述方案的进一步改进，所述将学生模型在每个处理阶段的注意力图与前一处理阶段的注意力图进行特征融合，结合融合特征计算每个处理阶段的知识从教师模型转移到学生模型过程中的单次蒸馏损失，从而计算多层级注意力蒸馏损失包括：

14、将学生模型在每个处理阶段的注意力图与前一处理阶段的注意力图进行特征融合，融合特征的计算公式如下：

15、；

16、式中，表示学生模型在第 i个处理阶段的融合特征，为实数集， h和 w分别为注意力图的宽度和高度；表示初始特征融合，表示融合权重；表示加权乘法。

17、计算每个处理阶段的单次蒸馏损失，计算公式如下：

18、；

19、式中，为第 i个处理阶段的单次蒸馏损失。

20、根据样本集中的所有样本图片在所有处理阶段的单次蒸馏损失，计算所述多层级注意力蒸馏损失，的计算公式如下：

21、；

22、式中，表示样本集；为样本集中的第张样本图片。

23、作为上述方案的进一步改进，所述融合权重的计算过程为：

24、将初始特征融合结果分别输入至两个卷积层处理单元，再将两个卷积层处理单元的输出进行二次融合；每个卷积层处理单元包括依次连接的两个逐点卷积层，两个逐点卷积层之间设有relu激活函数，二次融合前设有批归一化处理，二次融合后设有sigmoid激活函数。

25、作为上述方案的进一步改进，所述标准交叉熵损失的计算公式如下：

26、；

27、式中，表示所述标准交叉熵损失； n为总类别数， j∈[1, n]；为第张样本图片的硬标签； log(·)为对数函数；为学生模型针对第张样本图片的第 j个类别预测出的概率值。

28、所述基本蒸馏损失的计算公式为：

29、；

30、式中，表示所述基本蒸馏损失；为教师模型针对第张样本图片的第 j个类别的软标签；为学生模型针对第张样本图片的第 j个类别的软标签。

31、作为上述方案的进一步改进，所述总训练损失的计算公式如下：

32、；

33、式中，表示所述总训练损失； α和 β是用于平衡不同蒸馏损失的权重系数；为温度系数。

34、本专利技术还公开一种基于多层次注意力的自我回顾知识蒸馏系统，包括：预测处理模块、多层次注意力模块、学生自我回顾模块、损失计算模块以及模型优化模块。

35、预测处理模块用于利用学生模型和收敛后的教师模型，分别对样本集中的样本图片进行预测处理；其中，所述预测处理包括多个处理阶本文档来自技高网...

【技术保护点】

1.基于多层次注意力的自我回顾知识蒸馏方法，其特征在于，包括：

2.根据权利要求1所述的基于多层次注意力的自我回顾知识蒸馏方法，其特征在于，教师模型和学生模型在每个处理阶段的注意力图的计算公式分别如下：

3.根据权利要求2所述的基于多层次注意力的自我回顾知识蒸馏方法，其特征在于，所述将学生模型在每个处理阶段的注意力图与前一处理阶段的注意力图进行特征融合，结合融合特征计算每个处理阶段的知识从教师模型转移到学生模型过程中的单次蒸馏损失，从而计算多层级注意力蒸馏损失包括：

4.根据权利要求3所述的基于多层次注意力的自我回顾知识蒸馏方法，其特征在于，所述融合权重的计算过程为：

5.根据权利要求3所述的基于多层次注意力的自我回顾知识蒸馏方法，其特征在于，所述标准交叉熵损失的计算公式如下：

6.根据权利要求5所述的基于多层次注意力的自我回顾知识蒸馏方法，其特征在于，所述总训练损失的计算公式如下：

7.基于多层次注意力的自我回顾知识蒸馏系统，其特征在于，包括：

8.根据权利要求7所述的基于多层次注意力的自我回顾

9.一种计算机终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至6中任意一项所述的基于多层次注意力的自我回顾知识蒸馏方法的步骤。

...

【技术特征摘要】

1.基于多层次注意力的自我回顾知识蒸馏方法，其特征在于，包括：

4.根据权利要求3所述的基于多层次注意力的自我回顾知识蒸馏方法，其特征在于，所述融合权重的计算过程为：

5.根据权利要求3所述的基于多层次注意力的自我...

【专利技术属性】
技术研发人员：张本宏，张毅东，毕翔，宋易荏，张彦辉，
申请(专利权)人：合肥工业大学智能制造技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人