System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种计算图分布式标记的优化方法、装置、设备和介质制造方法及图纸_技高网

一种计算图分布式标记的优化方法、装置、设备和介质制造方法及图纸

技术编号:44971440 阅读:2 留言:0更新日期:2025-04-12 01:45
本公开提供了一种计算图分布式标记的优化方法、装置、设备和介质,涉及计算机技术领域,尤其涉及人工智能、深度学习和分布式训练技术。具体实现方案为:获取分布式运行模型的计算图和目标优化策略的优化范式;在计算图中根据优化范式识别对应的待优化计算子图;根据优化范式调整待优化计算子图;根据计算图中的原张量分布式标记,以及算子的运行逻辑,调整计算图中的张量分布式标记。利用优化范式自动识别并转换为融入分布式组网的多种优化策略的计算子图,确保自动并行的易用性,降低了使用优化策略的难度和使用成本,增强了自动并行的适应性和灵活性,提高了分布式训练的效率和性能。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及人工智能、深度学习和分布式训练技术。


技术介绍

1、随着深度神经网络的深度不断加深,模型参数量也在持续扩大,模型参数量呈现指数级增长趋势,从几年前的数百万激增到现在数千亿的量级。因此,现在大规模的模型运行大多依赖分布式系统完成。模型的分布运行是一种将计算任务分解并分配到多个计算节点上并行执行的技术。

2、为了使模型在多个计算节点构成的分布式系统中分布式运行,需要构建模型的计算图,计算图包括符合模型运行逻辑的诸多算子,而后需在计算图中为算子的输入张量和输出张量添加分布式标记,从而满足各个算子的并行运行需求。模型的分布式运行可以由单卡组网来实现,也可以由多卡组网来实现。单卡是指独立的显卡(gpu),每个物理主机可以运行一个或多个显卡,每个显卡也可称为一个计算节点。多卡组网时需实现各显卡之间的数据通信。

3、对于单卡组网实现的模型分布式运行,计算图的分布式标记相对简单,可以由人工来添加。但是多卡组网实现分布式运行时,分布式标记比较复杂,甚至对于部分优化算子,是无法通过分布式标记描述的,所以人工添加分布式标记时,对人员的技术门槛要求高,且工作量大。


技术实现思路

1、本公开提供了一种计算图分布式标记的生成方法、装置、设备、介质和程序产品,以针对模型分布式运行的计算图,优化添加分布式标记的方式。

2、根据本公开的一方面,提供了一种计算图分布式标记的优化方法,包括:

3、获取分布式运行模型的计算图,以及目标优化策略的优化范式;

4、在所述计算图中,根据所述优化范式识别对应的待优化计算子图;

5、根据所述优化范式调整所述待优化计算子图;

6、根据所述计算图中的原张量分布式标记,以及算子的运行逻辑,调整所述计算图中的张量分布式标记;

7、其中,调整前的计算图为由单卡组网支持的模型计算图,调整后的计算图为由多卡组网支持的模型计算图。

8、根据本公开的另一方面,还提供了一种计算图分布式标记的优化装置,包括:

9、图获取模块,用于获取分布式运行模型的计算图,以及目标优化策略的优化范式;

10、待优化图识别模块,用于在所述计算图中,根据所述优化范式识别对应的待优化计算子图;

11、图调整模块,用于根据所述优化范式调整所述待优化计算子图;

12、标记调整模块,用于根据所述计算图中的原张量分布式标记,以及算子的运行逻辑,调整所述计算图中的张量分布式标记;

13、其中,调整前的计算图为由单卡组网支持的模型计算图,调整后的计算图为由多卡组网支持的模型计算图。

14、根据本公开的另一方面,还提供了一种电子设备,包括:

15、至少一个处理器;以及

16、与所述至少一个处理器通信连接的存储器;其中,

17、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本公开实施例任一项所述的计算图分布式标记的优化方法。

18、根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据本公开实施例任一项所述的计算图分布式标记的优化方法。

19、根据本公开的另一方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本公开实施例任一项所述的计算图分布式标记的优化方法。

20、本公开实施例的技术方案,能够自动完成优化策略的计算图调整和分布式标记的推导变化,降低了人工标记的难度。

21、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种计算图分布式标记的优化方法,包括:

2.根据权利要求1所述的方法,其中,获取分布式运行模型的计算图包括:

3.根据权利要求2所述的方法,其中,所述目标优化策略对应于多卡组网支持的分布式优化策略。

4.根据权利要求1所述的方法,其中,在所述计算图中,根据所述优化范式识别对应的待优化计算子图包括:

5.根据权利要求4所述的方法,其中,采用所述优化范式中的优化条件,在所述计算图中进行遍历匹配,以确定匹配的待优化计算子图包括:

6.根据权利要求1所述的方法,其中,根据所述优化范式调整所述待优化计算子图包括:

7.根据权利要求1所述的方法,其中,根据所述计算图中的原张量分布式标记,以及算子的运行逻辑,调整所述计算图中的张量分布式标记包括:

8.根据权利要求1-7任一所述的方法,其中,所述目标优化策略为嵌入向量层词表切分策略,根据所述优化范式调整后的计算子图包括词切分模式的嵌入向量转换算子和通信规约算子。

9.根据权利要求8所述的方法,其中,在所述计算图中,根据所述优化范式识别对应的待优化计算子图包括:

10.根据权利要求9所述的方法,其中,根据所述优化范式调整所述待优化计算子图包括:

11.根据权利要求10所述的方法,其中,根据所述计算图中的原张量分布式标记,以及算子的运行逻辑,调整所述计算图中的张量分布式标记包括:

12.根据权利要求1-7任一所述的方法,其中,所述目标优化策略为并行分类概率与交叉熵损失计算策略,根据所述优化范式调整后的计算子图包括并行分类交叉熵算子和通信规约算子。

13.根据权利要求12所述的方法,其中,在所述计算图中,根据所述优化范式识别对应的待优化计算子图包括:

14.根据权利要求13所述的方法,其中,根据所述优化范式调整所述待优化计算子图包括:

15.根据权利要求14所述的方法,其中,根据所述计算图中的原张量分布式标记,以及算子的运行逻辑,调整所述计算图中的张量分布式标记包括:

16.一种计算图分布式标记的优化装置,包括:

17.一种电子设备,包括:

18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-15中任一项所述的方法。

19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-15中任一项所述的方法。

...

【技术特征摘要】

1.一种计算图分布式标记的优化方法,包括:

2.根据权利要求1所述的方法,其中,获取分布式运行模型的计算图包括:

3.根据权利要求2所述的方法,其中,所述目标优化策略对应于多卡组网支持的分布式优化策略。

4.根据权利要求1所述的方法,其中,在所述计算图中,根据所述优化范式识别对应的待优化计算子图包括:

5.根据权利要求4所述的方法,其中,采用所述优化范式中的优化条件,在所述计算图中进行遍历匹配,以确定匹配的待优化计算子图包括:

6.根据权利要求1所述的方法,其中,根据所述优化范式调整所述待优化计算子图包括:

7.根据权利要求1所述的方法,其中,根据所述计算图中的原张量分布式标记,以及算子的运行逻辑,调整所述计算图中的张量分布式标记包括:

8.根据权利要求1-7任一所述的方法,其中,所述目标优化策略为嵌入向量层词表切分策略,根据所述优化范式调整后的计算子图包括词切分模式的嵌入向量转换算子和通信规约算子。

9.根据权利要求8所述的方法,其中,在所述计算图中,根据所述优化范式识别对应的待优化计算子图包括:

10.根据权利要求9所述的方法,其中,根据所述优化范式调整所述待...

【专利技术属性】
技术研发人员:李振星薛茜茜李雅美陈秋良于佃海吴甜
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1