分布式模型训练的负载均衡方法和装置制造方法及图纸

技术编号：36430223 阅读：25 留言：0更新日期：2023-01-20 22:42

本公开提供了分布式模型训练的负载均衡方法和装置，涉及人工智能领域，尤其涉及深度学习领域。具体实现方案为：统计分布式模型的各个计算节点上的负载量；根据各个计算节点上的负载量之间的比值确定所述分布式模型是否负载均衡；若负载不均衡且有空闲的计算节点，则为所述分布式模型增加与负载量最大的目标计算节点的模型参数相同的同类计算节点；在各个计算节点上进行梯度反向计算后，将所述同类计算节点上的网络参数的梯度与所述目标计算节点上的网络参数的梯度进行同步。该实施方式实现了通过增加或减少计算节点的数量，有效地均衡各个计算节点的负载，充分利用计算和存储资源。资源。资源。

全部详细技术资料下载

【技术实现步骤摘要】
分布式模型训练的负载均衡方法和装置

[0001]本公开涉及人工智能领域，尤其涉及深度学习领域，具体为一种分布式模型训练的负载均衡方法和装置。

技术介绍

[0002]在近年来的深度学习模型训练中，使用更多的训练数据和更大的模型趋势未改。更大的模型和数据量意味着更多的计算量和存储需求，也意味着更久的训练时间。那么如何将计算和存储需求分布到多个训练设备来提升训练速度，是关键问题。
[0003]数据并行(data parallelism)是解决上述问题的一种并行策略，在数据并行的模型训练中，训练任务被切分到多个进程(设备)上,每个进程维护相同的模型参数和相同的计算任务，但是处理不同的数据(batch data)。通过这种方式，同一全局数据(global batch)下的数据和计算被切分到了不同的进程，从而减轻了单个设备上的计算和存储压力。
[0004]分布式模型训练(例如，MoE(Mixure
‑
of
‑
Experts，混合专家模型))是实现超大规模模型训练的技术路径之一。该模型的思想是训练多个神经网络(分布在多个计算节点中)，每个计算节点训练数据集的不同部分。由于每个计算节点的输入数据量不同，计算时间不均匀，造成严重的负载不平衡：一方面，因为单个计算节点可能处理过量的数据，导致内存超出限制；在另一方面，同步通信必须等待最慢计算节点，导致计算利用率下降，类似于“木桶效应”。

技术实现思路

[0005]本公开提供了一种分布式模型训练的负载均衡方法、装置、设备、...

【技术保护点】

【技术特征摘要】
1.一种分布式模型训练的负载均衡方法，包括：统计分布式模型的各个计算节点上的负载量；根据各个计算节点上的负载量之间的比值确定所述分布式模型是否负载均衡；若负载不均衡且有空闲的计算节点，则为所述分布式模型增加与负载量最大的目标计算节点的模型参数相同的同类计算节点；在各个计算节点上进行梯度反向计算后，将所述同类计算节点上的网络参数的梯度与所述目标计算节点上的网络参数的梯度进行同步。2.根据权利要求1所述的方法，其中，所述方法还包括：若负载不均衡且没有空闲的计算节点，则将负载量最小的至少2个计算节点合并成1个计算节点。3.根据权利要求1所述的方法，其中，所述分布式模型为混合专家模型，每个计算节点包括：骨干网络、门控网络和专家网络。4.根据权利要求2所述的方法，其中，分布式模型为混合专家模型，每个计算节点包括：骨干网络、门控网络和专家网络；以及所述将负载量最小的至少2个计算节点合并成1个计算节点，包括：将负载量最小的至少2个计算节点的骨干网络和门控网络的参数分别合并后作为公共骨干网络和公共门控网络；将所述公共门控网络的输出结果分别作为所述负载量最小的至少2个计算节点的专家网络的输入。5.根据权利要求3所述的方法，其中，所述统计分布式模型的各个计算节点上的负载量，包括：统计分布式模型的各个计算节点上的专家网络的负载量。6.根据权利要求3所述的方法，其中，所述将所述同类计算节点上的网络参数的梯度与所述目标计算节点上的网络参数的梯度进行同步，包括：将所述同类计算节点上的专家网络的参数的梯度与所述目标计算节点上的专家网络的参数的梯度进行同步。7.根据权利要求2所述的方法，其中，所述方法还包括：在将负载量最小的至少2个计算节点合并成1个计算节点后空出的计算节点中，加载与负载量最大的目标计算节点的模型参数相同的模型。8.一种分布式模型训练的负载均衡装置，包括：统计单元，被配置成统计分布式模型的各个计算节点上的负载量；确定单元，被配置成根据各个计算节点上的负载量之间的比值确定所述分布式模型是否负载均衡；增加单元，被配置成若负载不均衡且有空闲的计算节点，则为所述分布式模型增加与负载量最大的目标计算节点的模型参数...

【专利技术属性】
技术研发人员：沈亮，吴志华，于佃海，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人