System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,特别涉及一种模型训练方法、装置、计算机设备及存储介质。
技术介绍
1、随着计算机技术的发展,网络模型的种类越类越多。混合专家模型(mixture ofexperts,moe)是一种比较典型的网络模型。在混合专家模型中,每个输入都会被混合专家模型中的门控网络,分配到最适合处理该输入的专家网络中来进行处理。但是这种分配方式使得一些专家网络需要处理大量的输入,而另一些专家则处于空闲状态,无法充分利用混合专家网络,降低了混合专家网络的处理效率。
技术实现思路
1、本申请实施例提供了一种模型训练方法、装置、计算机设备及存储介质,使得各个专家网络所处理的训练样本的数量尽可能相同,不仅可以提高专家网络的利用率,还能避免某些专家网络因所要处理的样本过多而降低处理模型的处理效率。所述技术方案如下:
2、一方面,提供了一种模型训练方法,所述方法包括:
3、获取多个训练样本和处理模型,所述处理模型包括门控网络和多个专家网络;
4、通过所述处理模型中的门控网络,对所述多个训练样本和所述多个专家网络的任务进行处理,确定所述处理模型中各个专家网络所要处理的训练样本的样本数量,每个专家网络的任务用于表示所述专家网络能够处理的训练样本的类型;
5、基于所述多个专家网络的样本数量和参考数量,确定训练损失,所述参考数量为平均分配所述多个训练样本时每个专家网络分配到的训练样本的数量,所述训练损失用于所述多个专家网络的样本数量和参考数量之间的差距;
...【技术保护点】
1.一种模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过所述处理模型中的门控网络,对所述多个训练样本和所述多个专家网络的任务进行处理,确定所述处理模型中各个专家网络所要处理的训练样本的样本数量,包括:
3.根据权利要求2所述的方法,其特征在于,所述对于所述多个训练样本中的任一训练样本,通过所述处理模型中的门控网络,对所述训练样本和所述多个专家网络的任务进行处理,确定所述训练样本的匹配结果,包括:
4.根据权利要求1所述的方法,其特征在于,所述通过所述处理模型中的门控网络,对所述多个训练样本和所述多个专家网络的任务进行处理,确定所述处理模型中各个专家网络所要处理的训练样本的样本数量,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述专家网络的匹配结果,确定所述专家网络所要处理的训练样本的样本数量,包括:
6.根据权利要求1所述的方法,其特征在于,每个专家网络所要处理的训练样本的样本数量不超过所述专家网络的样本容量,所述样本容量用于表示所述专家网络所能处理的训练样本的最
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
8.一种模型训练装置,其特征在于,所述装置包括:
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行权利要求1至7任一项权利要求所述的模型训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储至少一段计算机程序,所述至少一段计算机程序用于执行权利要求1至7任一项权利要求所述的模型训练方法。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项权利要求所述的模型训练方法。
...【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过所述处理模型中的门控网络,对所述多个训练样本和所述多个专家网络的任务进行处理,确定所述处理模型中各个专家网络所要处理的训练样本的样本数量,包括:
3.根据权利要求2所述的方法,其特征在于,所述对于所述多个训练样本中的任一训练样本,通过所述处理模型中的门控网络,对所述训练样本和所述多个专家网络的任务进行处理,确定所述训练样本的匹配结果,包括:
4.根据权利要求1所述的方法,其特征在于,所述通过所述处理模型中的门控网络,对所述多个训练样本和所述多个专家网络的任务进行处理,确定所述处理模型中各个专家网络所要处理的训练样本的样本数量,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述专家网络的匹配结果,确定所述专家网络所要处理的训练样本的样本数量,包括:
6.根据权利要求1所述的方法,其特征在于,每个专家网络所要处理的训练样本...
【专利技术属性】
技术研发人员:陈孝良,涂贤玲,常乐,黄赟贺,
申请(专利权)人:北京声智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。