System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 异构计算系统及其训练耗时预测方法、设备、介质、产品技术方案_技高网

异构计算系统及其训练耗时预测方法、设备、介质、产品技术方案

技术编号:43835612 阅读:7 留言:0更新日期:2024-12-31 18:33
本发明专利技术公开了一种异构计算系统及其训练耗时预测方法、设备、介质、产品,应用于人工智能技术领域。其中,方法包括获取待部署训练任务对应的用户训练方案数据,获取异构计算系统为满足用户训练方案数据提供的资源最大供给数据;基于待训练网络模型的各神经层在单次迭代训练过程中的工作流程预测各神经层的计算量和内存读取量,并结合资源最大供给数据确定各神经层的节点耗时信息。根据待训练网络模型的各神经层的节点耗时信息,确定异构计算系统训练待训练网络模型的单次迭代耗时。本发明专利技术可以解决相关技术只能对实际部署的训练任务进行耗时预测且准确度不高的问题,能够在不实际部署训练任务的基础上,高精度预测单个计算单元的单次迭代训练耗时。

【技术实现步骤摘要】

本专利技术涉及人工智能,特别是涉及一种异构计算系统及其训练耗时预测方法、设备、介质、产品


技术介绍

1、随着人工智能技术的快速发展,神经网络模型的规模越来越大,受限于计算资源和存储资源的大量需求,执行大规模神经网络模型的训练任务的计算设备要求也越来越高。

2、为了高效完成大规模神经网络模型的训练任务,相关技术会在异构计算系统上部署需要执行的任务,然后根据该任务和异构计算系统的计算能力预测异构计算系统在单个训练迭代的计算耗时。但是,这种方法无法在不实际部署执行训练的情况下进行耗时预测,且耗时预测的精度不高。

3、鉴于此,在异构计算系统不实际部署训练任务的基础上,实现对待部署训练任务的单次迭代训练耗时的高精度预测。

4、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本专利技术提供了一种异构计算系统及其训练耗时预测方法、电子设备、非易失性存储介质、计算机程序产品,能够在不实际部署训练任务的基础上,高精度预测异构计算系统的单个计算单元执行待部署训练任务的单次迭代耗时。

2、为解决上述技术问题,本专利技术提供以下技术方案:

3、本专利技术一方面提供了一种异构计算系统训练耗时预测方法,包括:

4、获取待部署训练任务对应的用户训练方案数据;所述用户训练方案数据包括待训练网络模型和用户需求执行所述待部署训练任务的目标计算单元;获取异构计算系统为满足所述用户训练方案数据,提供的资源最大供给数据;基于待训练网络模型的各神经层在单次迭代训练过程中的工作流程,分别预测各神经层的计算量和内存读取量,并根据各神经层的计算量和内存读取量、所述资源最大供给数据确定各神经层的节点耗时信息;根据所述待训练网络模型的各神经层的节点耗时信息,确定所述目标计算单元训练所述待训练网络模型的单次迭代耗时。

5、在第一种示例性的实施方式中,所述基于待训练网络模型的各神经层在单次迭代训练过程中的工作流程,包括:获取所述待训练网络模型的各神经层;根据各神经层在一次训练迭代过程中的工作流程,生成训练任务执行图,以利用所述训练任务执行图描述各神经层对训练样本数据的处理流程及所述待训练网络模型的模型参数的一次更新过程。

6、在第二种示例性的实施方式中,所述训练任务执行图包括前传执行图和反传执行图,根据各神经层在一次训练迭代过程中的工作流程,生成训练任务执行图,包括:在一次训练迭代过程中,基于所述待训练网络模型的各神经层在前向传播过程中对训练样本数据的处理流程,并将各神经层标识为前传节点生成前传执行图;基于所述待训练网络模型的各神经层在反向传播过程的数据处理流程,并根据是否对神经层权重进行操作将各神经层标识为反传带权重节点或反传无权重节点,生成与所述前传执行图相连的反传执行图;其中,所述前传节点为一次训练迭代过程中参与前向传播计算的神经层,所述反传带权重节点为一次训练迭代过程中参与反向传播计算且具有权重操作需求的神经层,所述反传无权重节点为一次训练迭代过程中参与反向传播计算且不具有权重操作需求的神经层;所述权重操作需求包括权重更新操作需求和权重保存操作需求。

7、在第三种示例性的实施方式中,所述预测各神经层的计算量和内存读取量,包括:按照从前传至反传的顺序,从头至尾遍历所述训练任务执行图的各神经层;若当前位置存在一个神经层,则获取当前神经层,并预测当前神经层的计算量和内存读取量;若当前位置存在并列的多个神经层,则随机获取第一神经层,并在预测所述第一神经层的计算量和内存读取量之后,随机获取第二神经层,并预测所述第二神经层的计算量和内存读取量,循环执行直至并列的各神经层的计算量和内存读取量均预测得到。

8、在第四种示例性的实施方式中,所述获取异构计算系统为满足所述用户训练方案数据,提供的资源最大供给数据,包括:通过解析待部署训练任务对应的用户训练方案数据,确定训练精度、用户执行所述待部署训练任务需求的目标内存及目标计算单元;获取异构计算系统在满足所述训练精度时,所述目标计算单元达到的峰值算力;获取所述目标内存到所述目标计算单元的内存带宽,并将所述峰值算力和所述内存带宽作为所述资源最大供给数据。

9、在第五种示例性的实施方式中,所述通过解析待部署训练任务对应的用户训练方案数据,确定训练精度、用户执行所述待部署训练任务需求的目标内存及目标计算单元,包括:通过解析待部署训练任务对应的用户训练方案数据,得到用户执行所述待部署训练任务需求的目标内存在所述异构计算系统的内存标识信息;通过解析待部署训练任务对应的用户训练方案数据,得到用户执行所述待部署训练任务需求的目标计算单元在所述异构计算系统的计算单元标识信息。

10、在第六种示例性的实施方式中,所述分别预测各神经层的计算量和内存读取量,包括:根据所述待训练网络模型的各神经层在一次迭代训练过程中所处的计算阶段及计算类型,确定各神经层的计算量;根据各神经层在一次迭代训练过程中所处的计算阶段、输入的训练样本数据量及模型参数信息,确定各神经层的内存读取量。

11、在第七种示例性的实施方式中,根据所述待训练网络模型的各神经层在一次迭代训练过程中所处的计算阶段及计算类型,确定各神经层的计算量,包括:若当前神经层为一次训练迭代过程中参与前向传播计算的神经层,根据当前神经层所属的神经层计算类型计算所述当前神经层的计算量;若当前神经层为一次训练迭代过程中参与反向传播计算的神经层,根据当前神经层对应在前向传播计算过程中的神经层的计算量和预设调节因子确定当前神经层的计算量。

12、在第八种示例性的实施方式中,根据各神经层在一次迭代训练过程中所处的计算阶段、输入的训练样本数据量及模型参数信息,确定各神经层的内存读取量,包括:若当前神经层为一次训练迭代过程中参与前向传播计算的神经层,根据当前神经层输入的训练样本数据量、所述当前神经层的参数量及训练精度数据量,确定所述当前神经层的内存读取量;若当前神经层为一次训练迭代过程中参与反向传播计算且具有权重操作需求的神经层,根据当前神经层对应在前向传播计算过程中的神经层的输入训练样本数据量、输出数据量、梯度参数及优化器状态对应的数据量,确定所述当前神经层的内存读取量;若当前神经层为一次训练迭代过程中参与反向传播计算且不具有权重操作需求的神经层,根据当前神经层对应在前向传播计算过程中的神经层的输入训练样本数据量确定所述当前神经层的内存读取量。

13、在第九种示例性的实施方式中,所述根据各神经层的计算量和内存读取量、所述资源最大供给数据确定各神经层的节点耗时信息,包括:根据各神经层的计算量和内存读取量,确定模型运行特性值;其中,所述模型运行特性值用于表示所述待训练网络模型在运行过程中的计算操作和内存访问操作的相对比例;根据所述模型运行特性值与所述资源最大供给数据之间的数值关系,确定各神经层的节点耗时信息。

14、在第十种示例性的实施方式中根本文档来自技高网...

【技术保护点】

1.一种异构计算系统训练耗时预测方法,其特征在于,包括:

2.根据权利要求1所述的异构计算系统训练耗时预测方法,其特征在于,基于待训练网络模型的各神经层在单次迭代训练过程中的工作流程,包括:

3.根据权利要求2所述的异构计算系统训练耗时预测方法,其特征在于,所述训练任务执行图包括前传执行图和反传执行图,根据各神经层在一次训练迭代过程中的工作流程,生成训练任务执行图,包括:

4.根据权利要求3所述的异构计算系统训练耗时预测方法,其特征在于,预测各神经层的计算量和内存读取量,包括:

5.根据权利要求1所述的异构计算系统训练耗时预测方法,其特征在于,获取异构计算系统为满足所述用户训练方案数据,提供的资源最大供给数据,包括:

6.根据权利要求5所述的异构计算系统训练耗时预测方法,其特征在于,通过解析待部署训练任务对应的用户训练方案数据,确定训练精度、用户执行所述待部署训练任务需求的目标内存及目标计算单元,包括:

7.根据权利要求1至6任意一项所述的异构计算系统训练耗时预测方法,其特征在于,分别预测各神经层的计算量和内存读取量,包括:

8.根据权利要求7所述的异构计算系统训练耗时预测方法,其特征在于,根据所述待训练网络模型的各神经层在一次迭代训练过程中所处的计算阶段及计算类型,确定各神经层的计算量,包括:

9.根据权利要求7所述的异构计算系统训练耗时预测方法,其特征在于,根据各神经层输入的训练样本数据量及模型参数信息,确定各神经层的内存读取量,包括:

10.根据权利要求1至6任意一项所述的异构计算系统训练耗时预测方法,其特征在于,根据各神经层的计算量和内存读取量、所述资源最大供给数据确定各神经层的节点耗时信息,包括:

11.根据权利要求10所述的异构计算系统训练耗时预测方法,其特征在于,根据所述模型运行特性值与所述资源最大供给数据之间的数值关系,确定各神经层的节点耗时信息,包括:

12.一种电子设备,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至11任一项所述异构计算系统训练耗时预测方法的步骤。

13.一种非易失性存储介质,其特征在于,所述非易失性存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述异构计算系统训练耗时预测方法的步骤。

14.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至11任一项所述异构计算系统训练耗时预测方法的步骤。

15.一种异构计算系统,其特征在于,包括耗时预测处理器和多个计算设备;

...

【技术特征摘要】

1.一种异构计算系统训练耗时预测方法,其特征在于,包括:

2.根据权利要求1所述的异构计算系统训练耗时预测方法,其特征在于,基于待训练网络模型的各神经层在单次迭代训练过程中的工作流程,包括:

3.根据权利要求2所述的异构计算系统训练耗时预测方法,其特征在于,所述训练任务执行图包括前传执行图和反传执行图,根据各神经层在一次训练迭代过程中的工作流程,生成训练任务执行图,包括:

4.根据权利要求3所述的异构计算系统训练耗时预测方法,其特征在于,预测各神经层的计算量和内存读取量,包括:

5.根据权利要求1所述的异构计算系统训练耗时预测方法,其特征在于,获取异构计算系统为满足所述用户训练方案数据,提供的资源最大供给数据,包括:

6.根据权利要求5所述的异构计算系统训练耗时预测方法,其特征在于,通过解析待部署训练任务对应的用户训练方案数据,确定训练精度、用户执行所述待部署训练任务需求的目标内存及目标计算单元,包括:

7.根据权利要求1至6任意一项所述的异构计算系统训练耗时预测方法,其特征在于,分别预测各神经层的计算量和内存读取量,包括:

8.根据权利要求7所述的异构计算系统训练耗时预测方法,其特征在于,根据所述待训练网络模型的各神经层在一次迭代训练过程中所处的计算阶段及计算类型,确定...

【专利技术属性】
技术研发人员:唐轶男郭振华高开李晓川杜国光刘璐贾麒张洪伟
申请(专利权)人:山东海量信息技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1