分布式的模型训练方法、相关装置及计算机程序产品制造方法及图纸

技术编号：27849366 阅读：18 留言：0更新日期：2021-03-30 13:10

本申请公开了分布式的模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，涉及深度学习技术领域。该方法的一具体实施方式包括：针对分布式第一训练器所获取的每批次的训练样本，通过分布式第二训练器进行模型训练，得到梯度信息；根据梯度信息，对分布式内置参数服务器中的目标参数进行更新；响应于确定预设数量的训练样本完成训练，通过分布式第一训练器进行分布式内置参数服务器与分布式参数服务器之间的参数交互，进行初始模型的参数更新，直至初始模型训练完成。该实施方式提供了分布式的模型训练方法，提高了模型的训练速度。的训练速度。的训练速度。

全部详细技术资料下载

【技术实现步骤摘要】
分布式的模型训练方法、相关装置及计算机程序产品

[0001]本申请涉及计算机技术
，具体涉及深度学习
，尤其涉及分布式的模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]随着大数据浪潮的推动与深度学习技术的长足发展，深度学习所涉及的数据规模与模型规模都发生了惊人的增长。大数据+大模型的双重挑战，是单机训练无法承受之重，必须使用数据并行的分布式训练模式，才可以满足业务需求。目前，一般采用去中心化的分布式训练模式和中心化的分布式训练模式。

技术实现思路

[0003]本申请实施例提出了一种分布式的模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
[0004]根据第一方面，本申请提供了一种分布式的模型训练方法，包括：针对分布式第一训练器所获取的每批次的训练样本，通过分布式第二训练器进行模型训练，得到梯度信息；根据梯度信息，对分布式内置参数服务器中的目标参数进行更新，其中，分布式内置参数服务器设置于分布式第二训练器中，目标参数为初始模型的部分参数；响应于确定预设数量的训练样本完成训练，通过分布式第一训练器进行分布式内置参数服务器与分布式参数服务器之间的参数交互，进行初始模型的参数更新，直至初始模型训练完成。
[0005]根据第二方面，本申请提供了一种分布式的模型训练装置，包括：训练单元，被配置成针对分布式第一训练器所获取的每批次的训练样本，通过分布式第二训练器进行模型训练，得到梯度信息；目标参数更新单元，被配置成根据梯度信息，...

【技术保护点】

【技术特征摘要】
1.一种分布式的模型训练方法，包括：针对分布式第一训练器所获取的每批次的训练样本，通过分布式第二训练器进行模型训练，得到梯度信息；根据所述梯度信息，对分布式内置参数服务器中的目标参数进行更新，其中，所述分布式内置参数服务器设置于所述分布式第二训练器中，所述目标参数为所述初始模型的部分参数；响应于确定预设数量的训练样本完成训练，通过所述分布式第一训练器进行所述分布式内置参数服务器与分布式参数服务器之间的参数交互，进行所述初始模型的参数更新，直至所述初始模型训练完成。2.根据权利要求1所述的方法，其中，所述响应于确定预设数量的训练样本完成训练，通过所述分布式第一训练器进行所述分布式内置参数服务器与分布式参数服务器之间的参数交互，进行所述初始模型的参数更新，直至所述初始模型训练完成，包括：执行如下参数更新操作，直至所述初始模型训练完成：响应于确定预设数量的训练样本完成训练，通过所述分布式第一训练器将所述分布式内置参数服务器中更新后的目标参数传输至所述分布式参数服务器，进行所述分布式参数服务器中所述初始模型的参数更新；通过所述分布式第一训练器从所述分布式参数服务器中获取所述分布式内置参数服务器进行下一次参数更新操作的目标参数。3.根据权利要求1所述的方法，其中，所述根据所述梯度信息，对分布式内置参数服务器中的目标参数进行更新，包括：针对于所述目标参数中的稠密参数，通过集合通信方式，进行所述分布式第二训练器之间的参数更新。4.根据权利要求1所述的方法，其中，所述根据所述梯度信息，对分布式内置参数服务器中的目标参数进行更新，包括：针对于所述目标参数中的稀疏参数，通过远程过程调用方式，进行所述分布式第二训练器之间的参数更新。5.根据权利要求1所述的方法，其中，所述根据所述梯度信息，对分布式内置参数服务器中的目标参数进行更新，包括：针对于所述目标参数中的稠密参数，通过集合通信方式，进行所述分布式第二训练器之间的参数更新；针对于所述目标参数中的稀疏参数，通过远程过程调用方式，进行所述分布式第二训练器之间的参数更新。6.根据权利要求1所述的方法，其中，还包括：通过数据服务器从分布式文件系统中获取训练样本集；通过所述分布式第一训练器从所述数据服务器中获取每批次的训练样本。7.根据权利要求6所述的方法，其中，所述数据服务器以外挂机器的方式设置；所述方法还包括：根据所述训练样本集的数据规模，调整所述数据服务器中的中央处理器的机器数量。8.根据权利要求1所述的方法，其中，各训练器之间通过信息队列的方式进行信息交
互。9.根据权利要求1所述的方法，其中，在模型训练过程中，基于负载均衡策略，调整各训练器之间的算力，以使各训练器的算力相匹配。10.一种分布式的模型训练装置，包括：训练单元，被配置成针对分布式第一训练器所获取的每批次的训练样本，通过分布式第二训练器进行模型训练，得到梯度信息；目标参数更新单元，被配置成根据所述梯度信息，对分布式内置参数服务器中的目标参数进行更新，其中，所述分布式内...

【专利技术属性】
技术研发人员：吴鑫烜，姚雪峰，于佃海，吴志华，马艳军，吴甜，王海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人