一种生成模型的方法和电子设备技术

技术编号:37412127 阅读:7 留言:0更新日期:2023-04-30 09:37
本申请实施例提供一种生成模型的方法以及电子设备。方法应用于电子设备,方法包括:获取预训练模型;以所述预训练模型为教师模型,根据所述教师模型生成学生模型,其中:所述教师模型的特征空间中任意一层特征向量近似表示为所述学生模型特征向量的线性组合;所述学生模型的特征向量间线性无关。根据本申请一实施例的方法,预训练模型的小型化结果可以近似为预训练模型的特征空间的一组基底,可以提高预训练模型的小型化结果的模型表征能力,使得预训练模型的小型化结果高效完备地模拟预训练模型的模型特征。练模型的模型特征。练模型的模型特征。

【技术实现步骤摘要】
一种生成模型的方法和电子设备


[0001]本申请涉及计算机
,特别涉及一种生成模型的方法和电子设备。

技术介绍

[0002]预训练模型(Pre

trained Models,PTMs)是一种基于迁移学习方法的模型。具体的,预训练模型的应用就是在当前的目标任务上使用之前训练好的初始模型,并且,在应用预训练模型时,根据当前的目标任务的特性,对该初始模型进行精调,从而达到提高目标任务的执行效果的目的。预训练模型在诸多下游任务中表现出明显优势,因此,其被越来越多的应用于下游任务的处理场景中。
[0003]然而,预训练模型的数据量通常较大,其运行时需要耗费巨大的计算资源,这就导致预训练模型往往无法直接应用于端侧场景。例如,只能由云端服务器调用预训练模型进行计算,将计算结果反馈給端侧设备。
[0004]因此,为了拓展预训练模型的应用场景,需要一种生成模型的方法,对预训练模型进行小型化处理,降低预训练模型的数据量。

技术实现思路

[0005]针对如何小型化预训练模型的问题,本申请提供了一种生成模型的方法和电子设备,本申请还提供一种计算机可读存储介质。
[0006]本申请实施例采用下述技术方案:
[0007]第一方面,本申请提供一种生成模型的方法,所述方法应用于电子设备,所述方法包括:
[0008]获取预训练模型;
[0009]以所述预训练模型为教师模型,根据所述教师模型生成学生模型,其中:
[0010]所述教师模型的特征空间中任意一层特征向量近似表示为所述学生模型特征向量的线性组合;
[0011]所述学生模型的特征向量间线性无关。
[0012]根据本申请实施例的方法,以预训练模型为教师模型,根据教师模型生成学生模型,以学生模型作为预训练模型的小型化结果。根据本申请一实施例的方法,预训练模型的小型化结果可以近似为预训练模型的特征空间的一组基底,可以提高预训练模型的小型化结果的模型表征能力,使得预训练模型的小型化结果高效完备地模拟预训练模型的模型特征。
[0013]在第一方面的一种实现方式中,所述根据所述教师模型生成学生模型,包括:
[0014]根据所述教师模型的模型层和待学习模型的模型层之间的关系建立第一亲和性图,其中,所述待学习模型在第一次迭代中为对应所述教师模型的初始学生模型;
[0015]根据所述第一亲和性图将所述待学习模型的特征线性组合,获取所述待学习模型的线性组合结果;
[0016]将所述待学习模型的线性组合结果与所述教师模型的模型特征进行损失函数约束,获取所述待学习模型的学习结果;
[0017]使用所述待学习模型的学习结果更新所述待学习模型;
[0018]迭代更新所述待学习模型,以最后一次迭代更新后的所述待学习模型为所述学生模型。
[0019]在第一方面的一种实现方式中,所述根据所述教师模型生成学生模型,还包括:
[0020]约束所述线性组合结果,使得所述线性组合结果中的模型特征层之间线性无关。
[0021]在第一方面的一种实现方式中,所述方法还包括:
[0022]获取所述学生模型的线性组合参数;
[0023]将所述学生模型的模型特征以及所述学生模型的线性组合参数进行线性组合,获取所述学生模型的线性组合特征;
[0024]通过所述学生模型的线性组合特征表示所述预训练模型的特征,将所述学生模型的线性组合特征用于下游任务模型的训练。
[0025]根据本申请实施例的方法,可以提升预训练模型小型化结果迁移下游任务时的效果和灵活性。
[0026]在第一方面的一种实现方式中,所述获取所述学生模型的线性组合参数,包括:
[0027]将所述学生模型的模型特征输入线性组合参数模型,生成第一线性组合参数。
[0028]在第一方面的一种实现方式中,所述获取所述学生模型的线性组合参数,还包括:
[0029]将所述第一线性组合参数和第二亲和性图进行损失函数约束,获取所述第一线性组合参数的约束结果;
[0030]根据所述第一线性组合参数的约束结果更新所述线性组合参数模型的参数;
[0031]将所述学生模型的模型特征输入参数更新后的所述线性组合参数模型,生成第二线性组合参数;
[0032]使用所述第二线性组合参数更新所述第一线性组合参数;
[0033]迭代更新所述第一线性组合参数,以最后一次迭代更新后的所述第一线性组合参数作为所述学生模型的线性组合参数。
[0034]在第一方面的一种实现方式中,所述第二亲和性图为生成所述学生模型过程中最后一次迭代中所生成的亲和性图。
[0035]在第一方面的一种实现方式中,所述方法还包括:
[0036]根据所述教师模型的模型层和所述学习模型的模型层之间的关系建立所述第二亲和性图。
[0037]第二方面,本申请提供一种电子设备,所述电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当所述计算机程序指令被该处理器执行时,触发所述电子设备执行如第一方面所述的方法步骤。
[0038]第三方面,本申请提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如第一方面所述的方法。
附图说明
[0039]图1所示为一对一式蒸馏执行逻辑示意图;
[0040]图2所示为一对多式蒸馏执行逻辑示意图;
[0041]图3所示为根据本申请一实施例的生成模型的方法逻辑示意图;
[0042]图4所示为根据本申请一实施例的生成模型的方法流程图;
[0043]图5所示为根据本申请一实施例的生成模型的方法流程图;
[0044]图6所示为根据本申请一实施例的学生模型训练逻辑示意图;
[0045]图7所示为根据本申请一实施例的学生模型测试逻辑示意图;
[0046]图8所示为根据本申请一实施例的学生模型测试逻辑示意图;
[0047]图9所示为公开数据集上多个不同SOTA小模型的性能参数示意图;
[0048]图10为根据本申请一实施例的电子设备结构示意图。
具体实施方式
[0049]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0050]本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
[0051]针对针对如何小型化预训练模型的问题,一种可行的解决方案是对预训练模型进行知识蒸馏,从而小型化预训练模型。
[0052]例如,图1所示为一对一式蒸馏执行逻辑示意图。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成模型的方法,所述方法应用于电子设备,其特征在于,所述方法包括:获取预训练模型;以所述预训练模型为教师模型,根据所述教师模型生成学生模型,其中:所述教师模型的特征空间中任意一层特征向量近似表示为所述学生模型特征向量的线性组合;所述学生模型的特征向量间线性无关。2.根据权利要求1所述的方法,其特征在于,所述根据所述教师模型生成学生模型,包括:根据所述教师模型的模型层和待学习模型的模型层之间的关系建立第一亲和性图,其中,所述待学习模型在第一次迭代中为对应所述教师模型的初始学生模型;根据所述第一亲和性图将所述待学习模型的特征线性组合,获取所述待学习模型的线性组合结果;将所述待学习模型的线性组合结果与所述教师模型的模型特征进行损失函数约束,获取所述待学习模型的学习结果;使用所述待学习模型的学习结果更新所述待学习模型;迭代更新所述待学习模型,以最后一次迭代更新后的所述待学习模型为所述学生模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述教师模型生成学生模型,还包括:约束所述线性组合结果,使得所述线性组合结果中的模型特征层之间线性无关。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述方法还包括:获取所述学生模型的线性组合参数;将所述学生模型的模型特征以及所述学生模型的线性组合参数进行线性组合,获取所述学生模型的线性组合特征;通过所述学生模型的线性组合特征表示所述预训练模型的特征,将所述学生模型的线性组合特征用于下游任务模型的训练。5.根据权利要求4所...

【专利技术属性】
技术研发人员:裴仁静李炜棉邵滨许松岑刘健庄
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1