模型训练方法、装置、电子设备、芯片及存储介质制造方法及图纸

技术编号:39137907 阅读:10 留言:0更新日期:2023-10-23 14:53
本申请实施例公开了一种模型训练方法、模型训练装置、电子设备及计算机可读存储介质,其中,所述方法包括:将目标模型拆分为主干模型和附生模型;利用所述主干模型对训练集做正向推理,得到中间集;基于所述中间集,训练所述附生模型,得到训练后的附生模型;基于所述主干模型和训练后的附生模型,得到训练后的目标模型。模型。模型。

【技术实现步骤摘要】
模型训练方法、装置、电子设备、芯片及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种模型训练方法、模型训练装置、电子设备、芯片及计算机可读存储介质。

技术介绍

[0002]当前深度学习的一般发展趋势是模型参数量和复杂度不断增大,训练模型所需的数据量也不断增大,训练模型的成本也不断增大。降低训练模型的时间和成本是亟待解决的问题。

技术实现思路

[0003]本申请实施例提供了一种模型训练方法、装置、电子设备、芯片及计算机可读存储介质。
[0004]本申请实施例的技术方案是这样实现的:
[0005]第一方面,本申请实施例提供了一种模型训练方法,包括:
[0006]将目标模型拆分为主干模型和附生模型;所述主干模型为已训练模型,且所述附生模型的至少一个层的输入是所述主干模型的至少一个层的输出;所述附生模型任意一层的输出均不是所述主干模型的输入;
[0007]利用所述主干模型对训练集做正向推理,得到中间集;
[0008]基于所述中间集,训练所述附生模型,得到训练后的附生模型;
[0009]基于所述主干模型和训练后的附生模型,得到训练后的目标模型。
[0010]第二方面,本申请实施例提供了一种模型训练装置,包括:
[0011]目标模型分离模块,用于将目标模型拆分为主干模型和附生模型;所述主干模型为已训练模型,且所述附生模型的至少一个层的输入是所述主干模型的至少一个层的输出;所述附生模型任意一层的输出均不是所述主干模型的输入;
[0012]中间集获取模块,用于利用所述主干模型对训练集做正向推理,得到中间集;
[0013]附生模型训练模块,用于基于所述中间集,训练所述附生模型,得到训练后的附生模型;
[0014]目标模型组合模块,用于基于所述主干模型和训练后的附生模型,得到训练后的目标模型。
[0015]第三方面,本申请提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,执行本申请实施例所提供的任意一种模型训练方法。
[0016]第四方面,本申请提供一种芯片,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行本申请实施例所提供的任意一种模型训练方法。
[0017]第五方面,本申请提供一种计算机可读存储介质,用于存储计算机程序,所述计算机程序使得计算机执行本申请实施例所提供的任意一种模型训练方法。
[0018]本申请实施例所提供的模型训练方法,将共生模型在数据集上的训练转化为附生模型在中间集上的训练,由此避免共生模型训练过程中主干模型集合冗余的正向推理消耗,提高训练效率,降低训练时间和成本。
附图说明
[0019]图1为相关技术中的监督学习流程示意图;
[0020]图2为相关技术中的模型训练结构示意图一;
[0021]图3为相关技术中的模型训练结构示意图二;
[0022]图4为相关技术中的模型训练结构示意图三;
[0023]图5为本申请实施例提供的模型训练方法的实现流程示意图;
[0024]图6为本申请实施例提供的模型训练结构示意图四;
[0025]图7为本申请实施例提供的共生模型结构示意图一;
[0026]图8为本申请实施例提供的共生模型结构示意图二;
[0027]图9为本申请实施例提供的共生模型结构示意图三;
[0028]图10为本申请实施例提供的共生模型结构示意图四;
[0029]图11为本申请实施例提供的模型结构示意图五;
[0030]图12为本申请实施例提供的获取中间集的流程示意图;
[0031]图13为本申请实施例提供的训练附生模型的流程图;
[0032]图14为本申请实施例提供的共生模型的抽象结构示意图;
[0033]图15为本申请实施例提供的模型训练结构示意图五;
[0034]图16为本申请实施例提供的模型训练结构示意图六;
[0035]图17为本申请实施例提供的模型训练装置1700的示意性结构图;
[0036]图18为本申请实施例提供的中间集获取装置1800的示意性结构图;
[0037]图19为本申请实施例提供的附生模型训练装置1900的示意性结构图;
[0038]图20为本申请实施例提供的电子设备示意性结构图;
[0039]图21为本申请实施例提供的芯片的示意性结构图;
具体实施方式
[0040]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0041]需要说明的是,本申请实施例中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本申请实施例中,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0042]在本申请实施例的描述中,术语“对应”可表示两者之间具有直接对应或间接对应的关系,也可以表示两者之间具有关联关系,也可以是指示与被指示、配置与被配置等关系。
[0043]为便于理解本申请实施例的技术方案,以下对本申请实施例的相关技术进行说明,以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合,其均属于本申请实施例的保护范围。
[0044]图1为相关技术中的监督学习流程示意图,通常收集得到数据集S,即全量样本集,S={{样本0,标签0},{样本1,标签1},...,{样本M,标签M}},标签i是样本i的期望推理结果,其中0≤i≤M;Loss
i
用于度量标签i与实际推理结果i之间的距离,标签i与实际推理结果i之间差距越大,则Loss
i
越大,反之标签i与实际推理结果i之间差距越小,则Loss
i
越小。
[0045]一般情况下,训练模型时不是送入1个样本,也不是送入所有样本,而是送入一批(batch)样本,我们设一批样本集合为R,R是全量样本集S的子集,即通常,批样本集的损失为单样本损失的均值,有:其中,θ是网络参数,L(θ)是批样本集损失,是批样本集中的一个样本,Loss(x;θ)是单样本损失。训练模型的反向传播过程可以描述为:其中,是通过损失求网络参数θ梯度的过程,λ可以认为是更新梯度的学习率,θ
n+1
即为原参数θ
n
梯度更新后的新参数;通过损失求网络参数θ梯度的过程是后向链式求导的过程,如图1中损失反向传播示意。随着网络参数θ的不断更新,损失L(θ)也不断收敛,收敛到符合预期即得到了能够“拟合”数据集S的网络模型。
[0046]图2为相关技术中的模型训练结构示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:将目标模型拆分为主干模型和附生模型;所述主干模型为已训练模型,且所述附生模型的至少一个层的输入是所述主干模型的至少一个层的输出;所述附生模型任意一层的输出均不是所述主干模型的输入;利用所述主干模型对训练集做正向推理,得到中间集;基于所述中间集,训练所述附生模型,得到训练后的附生模型;基于所述主干模型和训练后的附生模型,得到训练后的目标模型。2.根据权利要求1所述的方法,其特征在于,所述利用所述主干模型对所述训练集做正向推理,得到中间集,包括:遍历所述训练集中的每个样本标签对,利用所述主干模型对所述训练集中的每个样本标签对进行正向推理,基于所述主干模型的每个层输出结果,得到每个所述样本标签对对应的正向推理集;基于所述附生模型的输入来源,从所述正向推理集和/或所述训练集中获取中间集。3.根据权利要求1所述的方法,其特征在于,所述基于所述中间集,训练所述附生模型,得到训练后的附生模型,包括:遍历所述中间集中的每个样本标签对,从所述中间集中获取批尺寸至少为1的样本标签对训练所述附生模型,得到迭代更新后的附生模型;基于所述迭代更新后的附生模型的样本损失,判断是否满足训练停止条件;若不满足训练停止条件,则重新遍历所述中间集中的每个样本标签对,进行新一轮迭代;若满足训练停止条件,则停止训练,得到训练后的附生模型。4.根据权利要求1所述的方法,其特征在于,所述目标模型为共生模型;所述共生模型包括主干模型集合和附生模型集合;所述主干模型集合中至少有两个主干模型,所述附生模型集合中至少有两个附生模型;所述主干模型集合中的各个主干模型之间没有数据交互;所述附生模型集合中的各个附生模型之间没有数据交互;所述主干模型集合中的每个主干模型中,至少有一层的输出是所述附生模型集合中至少一个附生模型的至少一层的输入;所述主干模型集合中的任一主干模型与所述附生模型集合中的每个附生...

【专利技术属性】
技术研发人员:冯俊兰陈建忠陈茜王小丰胡风硕黄文辉邓超
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1