一种模型训练方法和相关装置制造方法及图纸

技术编号：35057930 阅读：28 留言：0更新日期：2022-09-28 11:07

本申请实施例公开了一种模型训练方法和相关装置，至少涉及人工智能模型中的机器学习，确定待训练模型包括的m个张量与n个并行进程之间的对应关系，m个张量包括在n个张量集合中，每个张量集合包括m个张量中的部分张量，n个张量集合与n个并行进程的对应关系为一一对应关系，使得每个并行进程只维护部分张量。目标并行进程与目标张量具有对应关系，在进行迭代的过程中，目标并行进程仅基于目标张量更新待训练模型的参数，根据更新后的参数训练待训练模型。不仅降低了创建临时缓存的数量，还降低了临时缓存的频繁创建和释放产生的内存碎片。由此，通过每个并行进程至维护部分张量，降低了激活层内存、临时缓存等，进而降低了模型的显存占用。的显存占用。的显存占用。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练方法和相关装置

[0001]本申请涉及计算机
，特别是涉及一种模型训练方法和相关装置。

技术介绍

[0002]随着人工智能的发展，模型逐渐朝着更大量级发展，如量级越大的自然语言模型的准确率更高，例如，生成型已训练变换模型3(Generative Pre
‑
trained Transformer 3，GPT
‑
3)的模型参数已达到175B。
[0003]在预训练阶段，较大的模型需要占用的显存较多。

技术实现思路

[0004]为了解决上述技术问题，本申请提供了一种模型训练方法和相关装置，用于降低训练模型的显存占用。
[0005]本申请实施例公开了如下技术方案：
[0006]一方面，本申请实施例提供一种模型训练方法，所述方法包括：
[0007]确定待训练模型包括的m个张量与n个并行进程之间的对应关系；其中，所述m个张量包括在n个张量集合中，每个张量集合包括所述m个张量中的部分张量，所述n个张量集合与所述n个并行进程的对应关系为一一对应关系，所述张量为所述待训练模型包括的多层网络的输入和输出，m和n为大于1的整数；
[0008]针对所述n个并行进程中的目标并行进程，基于与所述目标并行进程具有对应关系的目标张量集合更新所述待训练模型的参数；
[0009]根据更新后的参数训练所述待训练模型。
[0010]另一方面，本申请实施例提供一种模型训练装置，所述装置包括：确定单元、更新单元和训练单元；
[0...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：确定待训练模型包括的m个张量与n个并行进程之间的对应关系；其中，所述m个张量包括在n个张量集合中，每个张量集合包括所述m个张量中的部分张量，所述n个张量集合与所述n个并行进程的对应关系为一一对应关系，所述张量为所述待训练模型包括的多层网络的输入和输出，m和n为大于1的整数；针对所述n个并行进程中的目标并行进程，基于与所述目标并行进程具有对应关系的目标张量集合更新所述待训练模型的参数；根据更新后的参数训练所述待训练模型。2.根据权利要求1所述的方法，其特征在于，所述基于与所述目标并行进程具有对应关系的目标张量集合更新所述待训练模型的参数，包括：基于与所述目标并行进程具有对应关系的目标张量集合进行第i次前向传播和第i次反向传播；根据所述多个并行进程在所述第i次反向传播过程中得到的针对所述目标张量集合所包括的目标张量的多个梯度，确定针对所述目标张量的规约梯度；根据所述规约梯度更新所述待训练模型的参数。3.根据权利要求2所述的方法，其特征在于，所述根据所述规约梯度更新所述待训练模型的参数，包括：调用自适应矩估计优化器更新所述规约梯度对应的目标参数；根据所述目标参数获取所述待训练模型更新后的参数。4.根据权利要求2所述的方法，其特征在于，所述根据所述多个并行进程在所述第i次反向传播过程中得到的针对所述目标张量集合所包括的目标张量的多个梯度，确定针对所述目标张量的规约梯度，包括：获取所述多个并行进程在所述第i次反向传播过程中得到的针对所述目标张量集合所包括的目标张量的多个梯度；根据所述多个梯度的梯度总和与梯度数量，确定针对所述目标张量的规约梯度。5.根据权利要求1所述的方法，其特征在于，所述确定待训练模型包括的m个张量与n个并行进程之间...

【专利技术属性】
技术研发人员：弓静，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人