分布式的模型训练方法、相关装置及计算机程序产品制造方法及图纸

技术编号:27849366 阅读:18 留言:0更新日期:2021-03-30 13:10
本申请公开了分布式的模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及深度学习技术领域。该方法的一具体实施方式包括:针对分布式第一训练器所获取的每批次的训练样本,通过分布式第二训练器进行模型训练,得到梯度信息;根据梯度信息,对分布式内置参数服务器中的目标参数进行更新;响应于确定预设数量的训练样本完成训练,通过分布式第一训练器进行分布式内置参数服务器与分布式参数服务器之间的参数交互,进行初始模型的参数更新,直至初始模型训练完成。该实施方式提供了分布式的模型训练方法,提高了模型的训练速度。的训练速度。的训练速度。

【技术实现步骤摘要】
分布式的模型训练方法、相关装置及计算机程序产品


[0001]本申请涉及计算机技术
,具体涉及深度学习
,尤其涉及分布式的模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]随着大数据浪潮的推动与深度学习技术的长足发展,深度学习所涉及的数据规模与模型规模都发生了惊人的增长。大数据+大模型的双重挑战,是单机训练无法承受之重,必须使用数据并行的分布式训练模式,才可以满足业务需求。目前,一般采用去中心化的分布式训练模式和中心化的分布式训练模式。

技术实现思路

[0003]本申请实施例提出了一种分布式的模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
[0004]根据第一方面,本申请提供了一种分布式的模型训练方法,包括:针对分布式第一训练器所获取的每批次的训练样本,通过分布式第二训练器进行模型训练,得到梯度信息;根据梯度信息,对分布式内置参数服务器中的目标参数进行更新,其中,分布式内置参数服务器设置于分布式第二训练器中,目标参数为初始模型的部分参数;响应于确定预设数量的训练样本完成训练,通过分布式第一训练器进行分布式内置参数服务器与分布式参数服务器之间的参数交互,进行初始模型的参数更新,直至初始模型训练完成。
[0005]根据第二方面,本申请提供了一种分布式的模型训练装置,包括:训练单元,被配置成针对分布式第一训练器所获取的每批次的训练样本,通过分布式第二训练器进行模型训练,得到梯度信息;目标参数更新单元,被配置成根据梯度信息,对分布式内置参数服务器中的目标参数进行更新,其中,分布式内置参数服务器设置于分布式第二训练器中,目标参数为初始模型的部分参数;参数交互单元,被配置成响应于确定预设数量的训练样本完成训练,通过分布式第一训练器进行分布式内置参数服务器与分布式参数服务器之间的参数交互,进行初始模型的参数更新,直至初始模型训练完成。
[0006]根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述第一方面中任一项的方法。
[0007]根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述第一方面中任一项的方法。
[0008]根据第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述第一方面中任一项的方法。
[0009]本申请实施例提供的分布式的模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,首先,针对分布式第一训练器所获取的每批次的训练样本,通过分布式第二训练器进行模型训练,得到梯度信息;然后,根据梯度信息,对分布式内置参数服务
器中的目标参数进行更新,其中,分布式内置参数服务器设置于分布式第二训练器中,目标参数为初始模型的部分参数;最后,响应于确定预设数量的训练样本完成训练,通过分布式第一训练器进行分布式内置参数服务器与分布式参数服务器之间的参数交互,进行初始模型的参数更新,直至初始模型训练完成。
[0010]本申请提供了一种分布式的模型训练方法,基于异构的分布式第一训练器和分布式第二训练器,以及设置于分布式第二训练器中的分布式内置参数服务器,提高了模型的训练速度。
[0011]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0013]图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
[0014]图2是根据本申请的分布式的模型训练方法的一个实施例的流程图;
[0015]图3是根据本申请的分布式的模型训练方法的一个应用场景的示意图;
[0016]图4是根据本申请的分布式的模型训练方法的又一个实施例的流程图;
[0017]图5是根据本申请的分布式的模型训练装置协同配合的一个实施例的流程图;
[0018]图6是适于用来实现本申请的实施例的电子设备/终端设备或服务器的计算机系统的结构示意图。
具体实施方式
[0019]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0020]图1示出了可以应用本申请的分布式的模型训练方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。
[0021]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0022]终端设备101、102、103可以是支持网络连接从而进行信息交互和数据处理的硬件设备或软件。当终端设备101、102、103为硬件时,其可以是支持网络连接,信息交互、显示、处理等功能的各种电子设备,包括但不限于智能手机、平板电脑、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
[0023]服务器105可以是提供各种服务的服务器,例如获取终端设备101、102、103计算得
到的梯度信息,进行模型参数更新的后台处理服务器。作为示例,服务器105可以是云端服务器。
[0024]需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
[0025]还需要说明的是,本申请的实施例所提供的分布式的模型训练方法可以由服务器执行,也可以由终端设备执行,还可以由服务器和终端设备彼此配合执行。相应地,分布式的模型训练装置包括的各个部分(例如各个单元、各个模块)可以全部设置于服务器中,也可以全部设置于终端设备中,还可以分别设置于服务器和终端设备中。
[0026]应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式的模型训练方法,包括:针对分布式第一训练器所获取的每批次的训练样本,通过分布式第二训练器进行模型训练,得到梯度信息;根据所述梯度信息,对分布式内置参数服务器中的目标参数进行更新,其中,所述分布式内置参数服务器设置于所述分布式第二训练器中,所述目标参数为所述初始模型的部分参数;响应于确定预设数量的训练样本完成训练,通过所述分布式第一训练器进行所述分布式内置参数服务器与分布式参数服务器之间的参数交互,进行所述初始模型的参数更新,直至所述初始模型训练完成。2.根据权利要求1所述的方法,其中,所述响应于确定预设数量的训练样本完成训练,通过所述分布式第一训练器进行所述分布式内置参数服务器与分布式参数服务器之间的参数交互,进行所述初始模型的参数更新,直至所述初始模型训练完成,包括:执行如下参数更新操作,直至所述初始模型训练完成:响应于确定预设数量的训练样本完成训练,通过所述分布式第一训练器将所述分布式内置参数服务器中更新后的目标参数传输至所述分布式参数服务器,进行所述分布式参数服务器中所述初始模型的参数更新;通过所述分布式第一训练器从所述分布式参数服务器中获取所述分布式内置参数服务器进行下一次参数更新操作的目标参数。3.根据权利要求1所述的方法,其中,所述根据所述梯度信息,对分布式内置参数服务器中的目标参数进行更新,包括:针对于所述目标参数中的稠密参数,通过集合通信方式,进行所述分布式第二训练器之间的参数更新。4.根据权利要求1所述的方法,其中,所述根据所述梯度信息,对分布式内置参数服务器中的目标参数进行更新,包括:针对于所述目标参数中的稀疏参数,通过远程过程调用方式,进行所述分布式第二训练器之间的参数更新。5.根据权利要求1所述的方法,其中,所述根据所述梯度信息,对分布式内置参数服务器中的目标参数进行更新,包括:针对于所述目标参数中的稠密参数,通过集合通信方式,进行所述分布式第二训练器之间的参数更新;针对于所述目标参数中的稀疏参数,通过远程过程调用方式,进行所述分布式第二训练器之间的参数更新。6.根据权利要求1所述的方法,其中,还包括:通过数据服务器从分布式文件系统中获取训练样本集;通过所述分布式第一训练器从所述数据服务器中获取每批次的训练样本。7.根据权利要求6所述的方法,其中,所述数据服务器以外挂机器的方式设置;所述方法还包括:根据所述训练样本集的数据规模,调整所述数据服务器中的中央处理器的机器数量。8.根据权利要求1所述的方法,其中,各训练器之间通过信息队列的方式进行信息交
互。9.根据权利要求1所述的方法,其中,在模型训练过程中,基于负载均衡策略,调整各训练器之间的算力,以使各训练器的算力相匹配。10.一种分布式的模型训练装置,包括:训练单元,被配置成针对分布式第一训练器所获取的每批次的训练样本,通过分布式第二训练器进行模型训练,得到梯度信息;目标参数更新单元,被配置成根据所述梯度信息,对分布式内置参数服务器中的目标参数进行更新,其中,所述分布式内...

【专利技术属性】
技术研发人员:吴鑫烜姚雪峰于佃海吴志华马艳军吴甜王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1