用于模型训练的迭代计算方法和迭代计算装置制造方法及图纸

技术编号：44137220 阅读：14 留言：0更新日期：2025-01-29 10:15

本说明书实施例提供用于模型训练的迭代计算方法和迭代计算装置。在每轮迭代计算时，在GPU设备上使用当前迭代过程的训练数据顺序执行待训练模型的每层前向计算任务并使用最后层的前向计算结果逆序执行待训练模型的每层反向计算任务。紧接着每层反向计算任务完成，根据模型参数更新任务执行计划，将该层模型结构的模型参数更新任务分配给GPU设备或CPU设备来使用该层反向计算任务所得到的梯度信息执行该层模型的模型参数更新任务，其中，模型参数更新任务执行计划使得部分模型参数更新任务在CPU设备上执行以及剩余模型参数更新任务在GPU设备上执行，并且GPU设备上执行的模型参数更新任务紧接对应层模型结构的反向计算任务执行。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书实施例通常涉及人工智能领域，尤其涉及用于模型训练的迭代计算方法和迭代计算装置。

技术介绍

1、深度学习模型或机器学习模型被广泛应用于例如人脸支付、图片识别、智能客服等应用场景。为了加快模型训练过程，通常使用gpu设备来执行模型训练过程中的大部分模型计算任务。随着模型技术的不断发展，尤其是大模型的兴起，模型参数量变得越来越大，例如，一些模型的模型参数量甚至达到万亿规模，从而使得模型训练的gpu计算资源（例如，gpu算力和gpu显存等）需求大增。然而，gpu计算资源增长缓慢，从而使得gpu计算资源成为模型训练的资源瓶颈。

技术实现思路

1、本说明书实施例提供用于模型训练的迭代计算方案。利用该迭代计算方案，在gpu设备上顺序执行待训练模型的每层前向计算任务并使用最后层的前向计算结果逆序执行待训练模型的每层反向计算任务，并且每次完成一层反向计算任务后，根据gpu设备和cpu设备上的任务执行状态，将该层反向计算任务所得到的梯度信息分配给gpu设备或cpu设备执行该层模型的模型参数更新任务，从而使得部分模型参数更新任务在cpu设备上执行以及剩余模型参数更新任务在gpu设备上执行，并且gpu设备上执行的模型参数更新任务紧接对应层模型结构的反向计算任务执行，从而使得在cpu设备上的每个模型参数更新任务的执行期间同步执行gpu设备上的至少一个后层反向计算任务和/或至少一个后层模型参数更新任务，由此提升模型训练过程中的计算资源使用效率，进而缩短模型训练的迭代计算时间，从而缩短模型训练时间。p>

2、根据本说明书的实施例的一个方面，提供一种用于模型训练的迭代计算方法，包括：在gpu设备上使用当前迭代过程的训练数据顺序执行待训练模型的每层前向计算任务并使用最后层的前向计算结果逆序执行所述待训练模型的每层反向计算任务；以及紧接着每层反向计算任务完成，根据模型参数更新任务执行计划，将该层模型结构的模型参数更新任务分配给所述gpu设备或cpu设备，以在所述gpu设备或cpu设备上使用该层反向计算任务所得到的梯度信息执行该层模型的模型参数更新任务，其中，所述模型参数更新任务执行计划使得部分模型参数更新任务在所述cpu设备上执行以及剩余模型参数更新任务在所述gpu设备上执行，并且所述gpu设备上执行的模型参数更新任务紧接对应层模型结构的反向计算任务执行。

3、可选地，在上述方面的一个示例中，所述模型参数更新任务执行计划可以包括针对所述待训练模型的所有层模型结构的模型参数更新任务的全局模型参数更新任务执行计划，并且根据所述待训练模型的每层反向计算任务和每层模型参数更新任务的任务运行信息确定，每层反向计算任务的任务运行信息包括在所述gpu设备上执行时的任务运行信息，每层模型参数更新任务的任务运行信息包括所述gpu设备上执行时的任务运行信息和所述cpu设备上执行时的任务运行信息，以及所述任务运行信息包括任务执行时间。

4、可选地，在上述方面的一个示例中，所述任务运行信息通过根据模型训练配置信息试运行所述待训练模型确定。

5、可选地，在上述方面的一个示例中，所述任务运行信息通过将模型训练配置信息、模型结构信息、gpu设备算力能力信息和cpu算力能力信息提供给任务运行信息生成模型确定。

6、可选地，在上述方面的一个示例中，所述任务运行信息还可以包括显存使用峰值信息，以及所述模型参数更新任务执行计划可以根据所述待训练模型的每层反向计算任务和每层模型参数更新任务的任务运行信息以及所述gpu设备和所述cpu设备的最大可用内存容量确定。

7、可选地，在上述方面的一个示例中，所述模型参数更新任务执行计划通过将所述待训练模型的每层反向计算任务和每层模型参数更新任务的任务运行信息提供给执行计划生成模型确定。

8、可选地，在上述方面的一个示例中，所述模型参数更新任务执行计划可以包括针对所述待训练模型中刚刚完成反向计算任务的当前层模型结构的当前模型参数更新任务的局部模型参数更新任务执行计划，并且根据所述cpu设备的任务完成剩余时间和所述当前模型参数更新任务在所述gpu设备上执行时的任务运行信息实时确定。

9、可选地，在上述方面的一个示例中，在根据所述模型参数更新任务执行计划执行模型参数更新任务时，所述待训练模型的迭代计算执行时间最短。

10、根据本说明书的实施例的另一方面，提供一种用于模型训练的迭代计算装置，包括：至少一个处理器；与所述至少一个处理器耦合的存储器；以及存储在所述存储器中的计算机程序，所述至少一个处理器执行所述计算机程序来实现如上所述的用于模型训练的迭代计算方法。

11、根据本说明书的实施例的另一方面，提供一种计算机可读存储介质，其存储有可执行指令，所述指令当被执行时使得处理器执行如上所述的用于模型训练的迭代计算方法。

12、根据本说明书的实施例的另一方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行来实现如上所述的用于模型训练的迭代计算方法。

本文档来自技高网...

【技术保护点】

1.一种用于模型训练的迭代计算方法，包括：

2.如权利要求1所述的迭代计算方法，其中，所述模型参数更新任务执行计划包括针对所述待训练模型的所有层模型结构的模型参数更新任务的全局模型参数更新任务执行计划，并且根据所述待训练模型的每层反向计算任务和每层模型参数更新任务的任务运行信息确定，每层反向计算任务的任务运行信息包括在所述GPU设备上执行时的任务运行信息，每层模型参数更新任务的任务运行信息包括所述GPU设备上执行时的任务运行信息和所述CPU设备上执行时的任务运行信息，以及所述任务运行信息包括任务执行时间。

3.如权利要求2所述的迭代计算方法，其中，所述任务运行信息通过根据模型训练配置信息试运行所述待训练模型确定。

4.如权利要求2所述的迭代计算方法，其中，所述任务运行信息通过将模型训练配置信息、模型结构信息、GPU设备算力能力信息和CPU算力能力信息提供给任务运行信息生成模型确定。

5.如权利要求2所述的迭代计算方法，其中，所述任务运行信息还包括显存使用峰值信息，以及所述模型参数更新任务执行计划根据所述待训练模型的每层反向计算任务和

6.如权利要求2所述的迭代计算方法，其中，所述模型参数更新任务执行计划通过将所述待训练模型的每层反向计算任务和每层模型参数更新任务的任务运行信息提供给执行计划生成模型确定。

7.如权利要求1所述的迭代计算方法，其中，在根据所述模型参数更新任务执行计划执行模型参数更新任务时，所述待训练模型的迭代计算执行时间最短。

8.如权利要求1所述的迭代计算方法，其中，所述模型参数更新任务执行计划包括针对所述待训练模型中刚刚完成反向计算任务的当前层模型结构的当前模型参数更新任务的局部模型参数更新任务执行计划，并且根据所述CPU设备的任务完成剩余时间和所述当前模型参数更新任务在所述GPU设备上执行时的任务运行信息实时确定。

9.一种用于模型训练的迭代计算装置，包括：

10.一种计算机可读存储介质，其存储有可执行指令，所述指令当被执行时使得处理器执行如权利要求1到8中任一所述的用于模型训练的迭代计算方法。

11.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行来实现如权利要求1到8中任一所述的用于模型训练的迭代计算方法。

...

【技术特征摘要】

1.一种用于模型训练的迭代计算方法，包括：

2.如权利要求1所述的迭代计算方法，其中，所述模型参数更新任务执行计划包括针对所述待训练模型的所有层模型结构的模型参数更新任务的全局模型参数更新任务执行计划，并且根据所述待训练模型的每层反向计算任务和每层模型参数更新任务的任务运行信息确定，每层反向计算任务的任务运行信息包括在所述gpu设备上执行时的任务运行信息，每层模型参数更新任务的任务运行信息包括所述gpu设备上执行时的任务运行信息和所述cpu设备上执行时的任务运行信息，以及所述任务运行信息包括任务执行时间。

3.如权利要求2所述的迭代计算方法，其中，所述任务运行信息通过根据模型训练配置信息试运行所述待训练模型确定。

4.如权利要求2所述的迭代计算方法，其中，所述任务运行信息通过将模型训练配置信息、模型结构信息、gpu设备算力能力信息和cpu算力能力信息提供给任务运行信息生成模型确定。

5.如权利要求2所述的迭代计算方法，其中，所述任务运行信息还包括显存使用峰值信息，以及所述模型参数更新任务执行计划根据所述待训练模型的每层反向计算任务和每层模型参数更新任务的任务运行信息以及所述gpu设...

【专利技术属性】
技术研发人员：吴昊，赵军平，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人