System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及知识蒸馏,尤其涉及一种基于transformer注意力机制的异构知识蒸馏方法及装置。
技术介绍
1、知识蒸馏的目的是把一个大模型或者多个模型集成学到的知识迁移到另一个轻量级模型上。特征层知识传递是知识蒸馏的一种方法,特征层知识传递是指教师模型中间层的特征作为学生模型的目标,从而提高了传输知识的表征能力和信息量,有效提升了蒸馏训练效果。但是,当教师模型和学生模型的各个层或块不能完全对应时,如何实现特征层知识蒸馏成为亟需解决的问题。
技术实现思路
1、本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
2、为此,本申请的第一个目的在于提出一种基于transformer注意力机制的异构知识蒸馏方法,以在教师模型和学生模型的各个层或块不能完全对应的情况下,在教师模型和学生模型的特征层之间使用了transformer网络,transformer网络可以基于注意力机制有效捕获教师模型的全局信息,并将捕捉到的第二特征传递给学生模型,使得学生模型可以在短时间内学习到教师模型更多重要的数据特征。
3、本申请的第二个目的在于提出一种基于transformer注意力机制的异构知识蒸馏装置。
4、本申请的第三个目的在于提出一种电子设备。
5、本申请的第四个目的在于提出一种计算机可读存储介质。
6、本申请的第五个目的在于提出一种计算机程序产品。
7、为达上述目的,本申请第一方面实施例提出了一种基于transformer注
8、获取第一数据集,其中,所述第一数据集中包括第一样本数据及对应的第一标签;
9、将所述第一样本数据输入教师模型中,得到所述第一样本数据对应的第一预测结果及所述教师模型中的每个第一特征层输出的第一特征;
10、将每个所述第一特征分别输入至与对应特征层连接的transformer网络中,得到每个所述transformer网络输出的第二特征;
11、将所述第一样本数据输入学生模型中,得到所述学生模型中每个第二特征层输出的第三特征;
12、根据所述第一预测结果与所述第一标签之间的差异、及所述第二特征与第三特征之间的差异,对所述学生模型进行训练,得到训练后的学生模型。
13、为达上述目的,本申请第二方面实施例提出了一种基于transformer注意力机制的异构知识蒸馏装置,包括:
14、获取模块,用于获取第一数据集,其中,所述第一数据集中包括第一样本数据及对应的第一标签;
15、第一处理模块,用于将所述第一样本数据输入教师模型中,得到所述第一样本数据对应的第一预测结果及所述教师模型中的每个第一特征层输出的第一特征;
16、第二处理模块,用于将每个所述第一特征分别输入至与对应特征层连接的transformer网络中,得到每个所述transformer网络输出的第二特征;
17、第三处理模块,用于将所述第一样本数据输入学生模型中,得到所述学生模型中每个第二特征层输出的第三特征;
18、第四处理模块,用于根据所述第一预测结果与所述第一标签之间的差异、及所述第二特征与第三特征之间的差异,对所述学生模型进行训练,得到训练后的学生模型。
19、为达上述目的,本申请第三方面实施例提出了一种电子设备,包括:
20、处理器,以及与所述处理器通信连接的存储器;
21、所述存储器存储计算机执行指令;
22、所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面实施例所述的方法。
23、为达上述目的,本申请第四方面实施例提出了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面实施例所述的方法。
24、为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,计算机程序,该计算机程序被处理器执行时实现第一方面实施例所述的方法。
25、本申请提供的基于transformer注意力机制的异构知识蒸馏方法及装置,将第一样本数据输入教师模型中,得到第一样本数据对应的第一预测结果及教师模型中的每个第一特征层输出的第一特征,将每个第一特征分别输入至与对应特征层连接的transformer网络中,得到每个transformer网络输出的第二特征,将第一样本数据输入学生模型中,得到学生模型中每个第二特征层输出的第三特征,最后根据第一预测结果与第一标签之间的差异、及第二特征与第三特征之间的差异,对学生模型进行训练,得到训练后的学生模型。由此,在教师模型和学生模型的各个层或块不能完全对应的情况下,在教师模型和学生模型的特征层之间使用了transformer网络,transformer网络可以基于注意力机制有效捕获教师模型的全局信息,并将捕捉到的第二特征传递给学生模型,使得学生模型可以在短时间内学习到教师模型更多重要的数据特征。
26、本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
本文档来自技高网...【技术保护点】
1.一种基于Transformer注意力机制的异构知识蒸馏方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,在所述根据所述第一预测结果与所述第一标签之间的差异、及所述第二特征与第三特征之间的差异,对所述学生模型进行训练,得到训练后的学生模型之后,还包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一预测结果与所述第一标签之间的差异、及所述第二特征与第三特征之间的差异,对所述学生模型进行训练,得到训练后的学生模型,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二特征及所述第三特征之间的差异,确定第二损失值,包括:
5.根据权利要求1所述的方法,其特征在于,所述将每个所述第一特征分别输入至与对应特征层连接的Transformer网络中,得到每个所述Transformer网络输出的第二特征,包括:
6.根据权利要求1所述的方法,其特征在于,
7.根据权利要求1-6任一所述的方法,其特征在于,所述样本数据为文本、语音、图像、视频中的至少一项。
8.
9.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7中任一项所述的方法。
...【技术特征摘要】
1.一种基于transformer注意力机制的异构知识蒸馏方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,在所述根据所述第一预测结果与所述第一标签之间的差异、及所述第二特征与第三特征之间的差异,对所述学生模型进行训练,得到训练后的学生模型之后,还包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一预测结果与所述第一标签之间的差异、及所述第二特征与第三特征之间的差异,对所述学生模型进行训练,得到训练后的学生模型,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二特征及所述第三特征之间的差异,确定第二损失值,包括:
5.根据权利要求1所述的方法,其特征在于,所述将...
【专利技术属性】
技术研发人员:马永壮,程健,孙闯,杨国奇,孙大智,
申请(专利权)人:天地科技股份有限公司北京技术研究分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。