System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本说明书实施例通常涉及人工智能领域,尤其涉及用于模型训练的迭代计算方法和迭代计算装置。
技术介绍
1、深度学习模型或机器学习模型被广泛应用于例如人脸支付、图片识别、智能客服等应用场景。为了加快模型训练过程,通常使用gpu设备来执行模型训练过程中的大部分模型计算任务。随着模型技术的不断发展,尤其是大模型的兴起,模型参数量变得越来越大,例如,一些模型的模型参数量甚至达到万亿规模,从而使得模型训练的gpu计算资源(例如,gpu算力和gpu显存等)需求大增。然而,gpu计算资源增长缓慢,从而使得gpu计算资源成为模型训练的资源瓶颈。
技术实现思路
1、本说明书实施例提供用于模型训练的迭代计算方案。利用该迭代计算方案,在gpu设备上顺序执行待训练模型的每层前向计算任务并使用最后层的前向计算结果逆序执行待训练模型的每层反向计算任务,并且每次完成一层反向计算任务后,根据gpu设备和cpu设备上的任务执行状态,将该层反向计算任务所得到的梯度信息分配给gpu设备或cpu设备执行该层模型的模型参数更新任务,从而使得部分模型参数更新任务在cpu设备上执行以及剩余模型参数更新任务在gpu设备上执行,并且gpu设备上执行的模型参数更新任务紧接对应层模型结构的反向计算任务执行,从而使得在cpu设备上的每个模型参数更新任务的执行期间同步执行gpu设备上的至少一个后层反向计算任务和/或至少一个后层模型参数更新任务,由此提升模型训练过程中的计算资源使用效率,进而缩短模型训练的迭代计算时间,从而缩短模型训练时间。
...【技术保护点】
1.一种用于模型训练的迭代计算方法,包括:
2.如权利要求1所述的迭代计算方法,其中,所述模型参数更新任务执行计划包括针对所述待训练模型的所有层模型结构的模型参数更新任务的全局模型参数更新任务执行计划,并且根据所述待训练模型的每层反向计算任务和每层模型参数更新任务的任务运行信息确定,每层反向计算任务的任务运行信息包括在所述GPU设备上执行时的任务运行信息,每层模型参数更新任务的任务运行信息包括所述GPU设备上执行时的任务运行信息和所述CPU设备上执行时的任务运行信息,以及所述任务运行信息包括任务执行时间。
3.如权利要求2所述的迭代计算方法,其中,所述任务运行信息通过根据模型训练配置信息试运行所述待训练模型确定。
4.如权利要求2所述的迭代计算方法,其中,所述任务运行信息通过将模型训练配置信息、模型结构信息、GPU设备算力能力信息和CPU算力能力信息提供给任务运行信息生成模型确定。
5.如权利要求2所述的迭代计算方法,其中,所述任务运行信息还包括显存使用峰值信息,以及所述模型参数更新任务执行计划根据所述待训练模型的每层反向计算任务和
6.如权利要求2所述的迭代计算方法,其中,所述模型参数更新任务执行计划通过将所述待训练模型的每层反向计算任务和每层模型参数更新任务的任务运行信息提供给执行计划生成模型确定。
7.如权利要求1所述的迭代计算方法,其中,在根据所述模型参数更新任务执行计划执行模型参数更新任务时,所述待训练模型的迭代计算执行时间最短。
8.如权利要求1所述的迭代计算方法,其中,所述模型参数更新任务执行计划包括针对所述待训练模型中刚刚完成反向计算任务的当前层模型结构的当前模型参数更新任务的局部模型参数更新任务执行计划,并且根据所述CPU设备的任务完成剩余时间和所述当前模型参数更新任务在所述GPU设备上执行时的任务运行信息实时确定。
9.一种用于模型训练的迭代计算装置,包括:
10.一种计算机可读存储介质,其存储有可执行指令,所述指令当被执行时使得处理器执行如权利要求1到8中任一所述的用于模型训练的迭代计算方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如权利要求1到8中任一所述的用于模型训练的迭代计算方法。
...【技术特征摘要】
1.一种用于模型训练的迭代计算方法,包括:
2.如权利要求1所述的迭代计算方法,其中,所述模型参数更新任务执行计划包括针对所述待训练模型的所有层模型结构的模型参数更新任务的全局模型参数更新任务执行计划,并且根据所述待训练模型的每层反向计算任务和每层模型参数更新任务的任务运行信息确定,每层反向计算任务的任务运行信息包括在所述gpu设备上执行时的任务运行信息,每层模型参数更新任务的任务运行信息包括所述gpu设备上执行时的任务运行信息和所述cpu设备上执行时的任务运行信息,以及所述任务运行信息包括任务执行时间。
3.如权利要求2所述的迭代计算方法,其中,所述任务运行信息通过根据模型训练配置信息试运行所述待训练模型确定。
4.如权利要求2所述的迭代计算方法,其中,所述任务运行信息通过将模型训练配置信息、模型结构信息、gpu设备算力能力信息和cpu算力能力信息提供给任务运行信息生成模型确定。
5.如权利要求2所述的迭代计算方法,其中,所述任务运行信息还包括显存使用峰值信息,以及所述模型参数更新任务执行计划根据所述待训练模型的每层反向计算任务和每层模型参数更新任务的任务运行信息以及所述gpu设...
【专利技术属性】
技术研发人员:吴昊,赵军平,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。