System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种模型分布式并行训练方法、装置、电子设备和存储介质。
技术介绍
1、大语言模型(large language model,llm,也称大模型)分布式并行训练是指在分布式计算环境中训练大模型。在训练过程中,模型的性能不仅取决于训练算法本身,还受到分布式策略等超参数选择的极大影响。
2、相关技术通过网格搜索、随机搜索、动态规划等方法进行超参数搜索,但是这些方法在搜索效率、搜索成本、搜索精度和资源消耗等方面存在诸多不足,使得大模型的训练效率低、模型性能差且资源消耗高。
3、因此,如何在分布式计算环境中提高模型的训练效率和模型性能成为业界亟待解决的技术问题。
技术实现思路
1、本专利技术提供一种模型分布式并行训练方法、装置、电子设备和存储介质,用于解决如何在分布式计算环境中提高模型的训练效率和模型性能的技术问题。
2、本专利技术提供一种模型分布式并行训练方法,包括:
3、确定在分布式计算系统中对目标模型进行训练的超参数组合;
4、基于所述超参数组合生成粒子群;所述粒子群中各个粒子的速度是基于所述超参数组合中各个超参数的取值分布概率确定的;
5、基于各个粒子生成的分布式训练执行脚本对所述目标模型进行训练,以所述分布式计算系统的训练吞吐性能为各个粒子的适应度值对各个粒子的速度和位置进行更新,确定超参数组合的最优解;
6、基于所述超参数组合的最优解生成的分布式训练执行脚本,继续对
7、在一些实施例中,所述确定在分布式计算系统中对目标模型进行训练的超参数组合,包括:
8、确定对所述目标模型进行训练的多个并行策略;
9、基于各个并行策略对应的数据切分维度和模型切分维度,确定所述超参数组合。
10、在一些实施例中,所述基于所述超参数组合生成粒子群,包括:
11、确定所述超参数组合中各个超参数的取值集合;
12、基于所述取值集合,确定各个超参数的取值分布概率;
13、以各个超参数的取值分布概率为每个粒子的速度,生成所述粒子群。
14、在一些实施例中,所述基于各个粒子生成的分布式训练执行脚本对所述目标模型进行训练,以所述分布式计算系统的训练吞吐性能为各个粒子的适应度值对各个粒子的速度和位置进行更新,确定超参数组合的最优解,包括:
15、基于专家经验设置和/或随机采样生成的方式初始化各个粒子的速度和位置;
16、基于初始化后的各个粒子生成分布式训练执行脚本,对所述目标模型进行训练,将所述分布式计算系统的训练吞吐性能确定为各个粒子的适应度值,并在训练过程中对各个粒子的个体最优位置和全局最优位置进行搜索;
17、在搜索停止条件未满足的情况下,基于各个粒子的适应度值更新各个粒子的个体最优位置和全局最优位置,并基于所述个体最优位置和所述全局最优位置对各个粒子的速度进行更新;
18、在所述搜索停止条件满足的情况下,基于各个粒子的位置确定所述超参数组合的最优解。
19、在一些实施例中,所述基于所述个体最优位置和所述全局最优位置对各个粒子的速度进行更新,包括:
20、基于当前搜索过程中各个粒子的各个超参数的取值分布概率,各个粒子在个体最优位置的各个超参数的取值分布概率,以及各个粒子在全局最优位置的各个超参数的取值分布概率,分别确定各个粒子的速度,各个粒子在个体最优位置的速度,以及各个粒子在全局最优位置的速度;
21、基于各个粒子的速度与各个粒子在个体最优位置的速度,确定各个粒子的第一速度更新量;
22、基于各个粒子的速度与各个粒子在全局最优位置的速度,确定各个粒子的第二速度更新量;
23、基于所述当前搜索过程中各个粒子的速度,所述第一速度更新量和所述第二速度更新量,确定下一搜索过程中各个粒子的速度;
24、基于所述下一搜索过程中各个粒子的速度,更新所述下一搜索过程中各个粒子的位置。
25、在一些实施例中,所述基于所述下一搜索过程中各个粒子的速度,更新所述下一搜索过程中各个粒子的位置,包括:
26、在各个粒子的位置更新的情况下,基于所述目标模型的当前模型参数、训练进度,以及所述分布式计算系统中优化器的状态参数,确定所述目标模型的当前训练状态;
27、保存所述目标模型的当前训练状态。
28、在一些实施例中,所述保存所述目标模型的当前训练状态之后,所述方法还包括:
29、基于各个粒子更新后的位置确定各个超参数的取值;
30、基于各个超参数的取值,确定在所述下一搜索过程中的数据切分维度和模型切分维度;
31、基于所述数据切分维度对所述目标模型的训练数据进行重新分配;
32、基于所述模型切分维度对所述目标模型的权重和层进行重新分配。
33、本专利技术提供一种模型分布式并行训练装置,包括:
34、参数确定模块,用于确定在分布式计算系统中对目标模型进行训练的超参数组合;
35、粒子群生成模块,用于基于所述超参数组合生成粒子群;所述粒子群中各个粒子的速度是基于所述超参数组合中各个超参数的取值分布概率确定的;
36、粒子群寻优模块,用于基于各个粒子生成的分布式训练执行脚本对所述目标模型进行训练,以所述分布式计算系统的训练吞吐性能为各个粒子的适应度值对各个粒子的速度和位置进行更新,确定超参数组合的最优解;
37、模型训练模块,用于基于所述超参数组合的最优解生成的分布式训练执行脚本,继续对所述目标模型进行训练。
38、本专利技术提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的模型分布式并行训练方法。
39、本专利技术提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的模型分布式并行训练方法。
40、本专利技术提供的模型分布式并行训练方法、装置、电子设备和存储介质,确定在分布式计算系统中对目标模型进行训练的超参数组合;基于超参数组合生成粒子群;基于各个粒子生成的分布式训练执行脚本对目标模型进行训练,以分布式计算系统的训练吞吐性能为各个粒子的适应度值对各个粒子的速度和位置进行更新,确定超参数组合的最优解;基于超参数组合的最优解生成的分布式训练执行脚本,继续对目标模型进行训练;实现了自动化搜索最优超参数,极大地减少了人工干预,提升了搜索过程的效率,不仅优化了并行训练下的各个超参数,在分布式计算环境中提高了模型的训练效率和模型性能,还加快了大模型的训练速度,并提升了最终模型的质量。
本文档来自技高网...【技术保护点】
1.一种模型分布式并行训练方法,其特征在于,包括:
2.根据权利要求1所述的模型分布式并行训练方法,其特征在于,所述确定在分布式计算系统中对目标模型进行训练的超参数组合,包括:
3.根据权利要求1所述的模型分布式并行训练方法,其特征在于,所述基于所述超参数组合生成粒子群,包括:
4.根据权利要求1所述的模型分布式并行训练方法,其特征在于,所述基于各个粒子生成的分布式训练执行脚本对所述目标模型进行训练,以所述分布式计算系统的训练吞吐性能为各个粒子的适应度值对各个粒子的速度和位置进行更新,确定超参数组合的最优解,包括:
5.根据权利要求4所述的模型分布式并行训练方法,其特征在于,所述基于所述个体最优位置和所述全局最优位置对各个粒子的速度进行更新,包括:
6.根据权利要求5所述的模型分布式并行训练方法,其特征在于,所述基于所述下一搜索过程中各个粒子的速度,更新所述下一搜索过程中各个粒子的位置,包括:
7.根据权利要求6所述的模型分布式并行训练方法,其特征在于,所述保存所述目标模型的当前训练状态之后,所述方法还包括:
8.一种模型分布式并行训练装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的模型分布式并行训练方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的模型分布式并行训练方法。
...【技术特征摘要】
1.一种模型分布式并行训练方法,其特征在于,包括:
2.根据权利要求1所述的模型分布式并行训练方法,其特征在于,所述确定在分布式计算系统中对目标模型进行训练的超参数组合,包括:
3.根据权利要求1所述的模型分布式并行训练方法,其特征在于,所述基于所述超参数组合生成粒子群,包括:
4.根据权利要求1所述的模型分布式并行训练方法,其特征在于,所述基于各个粒子生成的分布式训练执行脚本对所述目标模型进行训练,以所述分布式计算系统的训练吞吐性能为各个粒子的适应度值对各个粒子的速度和位置进行更新,确定超参数组合的最优解,包括:
5.根据权利要求4所述的模型分布式并行训练方法,其特征在于,所述基于所述个体最优位置和所述全局最优位置对各个粒子的速度进行更新,包括:
<...【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:广州壁仞集成电路有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。