System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 应用于分布式集群的模型训练方法、装置制造方法及图纸_技高网

应用于分布式集群的模型训练方法、装置制造方法及图纸

技术编号:41870135 阅读:8 留言:0更新日期:2024-07-02 00:20
本公开的实施例公开了应用于分布式集群的模型训练方法、装置。该方法的一具体实施方式包括:对自然语言处理模型对应的训练样本集进行拆分,得到多个训练样本子集;将多个训练样本子集中的每个训练样本子集分配至分布式集群中的一个计算节点序列,计算节点序列上部署有自然语言处理模型,自然语言处理模型包括多个子网络,计算节点序列中的每个计算节点上部署有多个子网络中的一个子网络;对于计算节点序列中的计算节点,将对应的子网络的参数集进行拆分,得到多个参数子集;将多个参数子集中每个参数子集分配至计算节点中的一个计算单元,以对自然语言处理模型进行训练。该实施方式与人工智能有关,提升了分布式集群的模型训练效率。

【技术实现步骤摘要】

本公开的实施例涉及计算机,具体涉及应用于分布式集群的模型训练方法、装置


技术介绍

1、自然语言处理模型广泛应用于搜索、推荐等应用场景,从而大幅提高这些应用场景下的处理效果。然后,随着自然语言处理模型的快速发展,模型参数量也越来越大,需要采用分布式系统来进行模型的训练。

2、然而,专利技术人发现,当采用分布式深度学习框架进行模型训练时,经常会存在如下技术问题:

3、现有的深度学习框架中的gpu利用率严重不足,导致模型训练的效率无法进一步提升。


技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了应用于分布式集群的模型训练方法、装置、设备、计算机可读介质和程序产品,来解决以上
技术介绍
部分提到的技术问题中的一项或多项。

3、第一方面,本公开的一些实施例提供了一种应用于分布式集群的模型训练方法,分布式集群中的计算节点包括中央处理器和多个图形处理器,不同的计算节点的图形处理器之间直接通信,同一计算节点的不同图形处理器之间通过总线通信,包括:对自然语言处理模型对应的训练样本集进行拆分,得到多个训练样本子集;将多个训练样本子集中的每个训练样本子集分配至分布式集群中的一个计算节点序列,计算节点序列上部署有自然语言处理模型,自然语言处理模型包括多个子网络,计算节点序列中的每个计算节点上部署有多个子网络中的一个子网络,每个计算节点包括多个计算单元;对于计算节点序列中的计算节点,将对应的子网络的参数集进行拆分,得到多个参数子集;将多个参数子集中每个参数子集分配至计算节点中的一个计算单元,以对自然语言处理模型进行训练。

4、第二方面,本公开的一些实施例提供了一种应用于分布式集群的模型训练装置,分布式集群中的计算节点包括中央处理器和多个图形处理器,不同的计算节点的图形处理器之间直接通信,同一计算节点的不同图形处理器之间通过总线通信,包括:样本拆分单元,被配置成对自然语言处理模型对应的训练样本集进行拆分,得到多个训练样本子集;样本分配单元,被配置成将多个训练样本子集中的每个训练样本子集分配至分布式集群中的一个计算节点序列,计算节点序列上部署有自然语言处理模型,自然语言处理模型包括多个子网络,计算节点序列中的每个计算节点上部署有多个子网络中的一个子网络,每个计算节点包括多个计算单元;参数拆分单元,被配置成对于计算节点序列中的计算节点,将对应的子网络的参数集进行拆分,得到多个参数子集;参数分配单元,被配置成将多个参数子集中每个参数子集分配至计算节点中的一个计算单元,以对自然语言处理模型进行训练。

5、第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。

6、第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。

7、第五方面,本公开的一些实施例提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述第一方面任一实现方式所描述的方法。

8、本公开的上述各个实施例具有如下有益效果:有效提升了分布式集群的模型训练效率。相关的深度学习框架之所以模型训练无法进一步提升的原因在于:在模型训练时,不同的计算节点之间需要通信时,需要首先将数据从gpu(图形处理器)拷贝到cpu(中央处理器),然后通过tcp协议进行通信。其中,从gpu拷贝到cpu涉及io通信,受限于io通信和tcp传输带宽,gpu的算力利用率严重不足,导致模型训练的效率无法进一步提升。基于此,本公开的一些实施例中不同的计算节点通信时,不需要通过cpu,而可以直接通信,避免收到io通信速度的限制。另外,同一计算节点的不同图形处理器之间通过总线高速通信,从而提升gpu利用率,进而提升了分布式集群的模型训练效率。

本文档来自技高网...

【技术保护点】

1.一种应用于分布式集群的模型训练方法,所述分布式集群中的计算节点包括中央处理器和多个图形处理器,不同的计算节点的图形处理器之间直接通信,同一计算节点的不同图形处理器之间通过总线通信,包括:

2.根据权利要求1所述的方法,其中,所述计算节点序列用于利用将对应的训练样本子集输入所述自然语言处理模型以进行前向计算,以及根据输出结果进行反向计算,在所述前向计算的过程中,删除所述自然语言处理模型中目标层的输出结果,在所述反向计算的过程中,重新计算所述目标层的输出结果。

3.根据权利要求2所述的方法,其中,所述方法还包括:

4.根据权利要求2所述的方法,其中,所述方法还包括:

5.根据权利要求2所述的方法,其中,所述方法还包括:

6.根据权利要求1所述的方法,其中,在所述对自然语言处理模型对应的训练样本集进行拆分,得到多个训练样本子集之前,所述方法还包括:

7.一种应用于分布式集群的模型训练装置,所述分布式集群中的计算节点包括中央处理器和多个图形处理器,不同的计算节点的图形处理器之间直接通信,同一计算节点的不同图形处理器之间通过总线通信,包括:

8.一种电子设备,包括:

9.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。

10.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。

...

【技术特征摘要】

1.一种应用于分布式集群的模型训练方法,所述分布式集群中的计算节点包括中央处理器和多个图形处理器,不同的计算节点的图形处理器之间直接通信,同一计算节点的不同图形处理器之间通过总线通信,包括:

2.根据权利要求1所述的方法,其中,所述计算节点序列用于利用将对应的训练样本子集输入所述自然语言处理模型以进行前向计算,以及根据输出结果进行反向计算,在所述前向计算的过程中,删除所述自然语言处理模型中目标层的输出结果,在所述反向计算的过程中,重新计算所述目标层的输出结果。

3.根据权利要求2所述的方法,其中,所述方法还包括:

4.根据权利要求2所述的方法,其中,所述方法还包括:

5.根据权利要求2所述的方法,其中...

【专利技术属性】
技术研发人员:桑青园舒俊华裴杨刘倩欣邢召龙张克丰王文生
申请(专利权)人:北京沃东天骏信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1