一种分布式机器学习方法、装置、终端设备及存储介质制造方法及图纸

技术编号：32851180 阅读：13 留言：0更新日期：2022-03-30 19:06

本申请适用于计算机技术领域，提供了一种分布式机器学习方法、装置、终端设备及存储介质，该方法包括：对本次训练的初始模型进行训练，得到初始模型对应的第一梯度；判断在第一时间段内是否接收到参数服务器发送的全局参数，其中，第一时间段为本次训练初始模型的时间段；若在第一时间段内未接收到全局参数，则基于第一梯度，得到候选模型，并将候选模型作为下一次训练的初始模型；本申请在没有接收到全局参数时使用第一梯度得到候选模型，并对候选模型继续训练，使参数服务器在计算全局参数和向工作节点传输全局参数的时间内，工作节点一直处于训练的状态，不用必须接收到全局参数后再继续训练，节约了模型训练的时间，使模型训练速度更快。训练速度更快。训练速度更快。

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式机器学习方法、装置、终端设备及存储介质

[0001]本申请属于计算机
，尤其涉及一种分布式机器学习方法、装置、终端设备及存储介质。

技术介绍

[0002]机器学习是计算机利用已有的数据，通过对初始模型进行训练，得到训练后的模型，并利用训练后的模型预测需要的数据。目前多采用分布式机器学习系统对模型进行训练。采用分布式机器学习系统训练模型的具体方法为：将训练样本分别输入并行的多台子服务器中，利用多台子服务器同时对模型进行训练，然后将训练得到的梯度发送至参数服务器，参数服务器利用梯度对全局参数进行更新，并更新后的全局参数返回至各个子服务器中，子服务器利用参数服务器返回的全局参数更新模型参数，并进行下一次训练，依此循环直到训练结束。
[0003]上述方法在子服务器较多时，由于子服务器的数据处理能力存在差异，参数服务器需要接收到所有子服务器发送的梯度后才可以进行全局参数的更新，且子服务器需要在接收到全局参数后才能进行下一次的模型训练，由于全局参数返回时间较长，使模型训练的时间延长，降低了模型训练的效率。

技术实现思路

[0004]本申请实施例提供了一种分布式机器学习方法、装置、终端设备及存储介质，可以解决目前模型训练效率低的问题。
[0005]第一方面，本申请实施例提供了一种分布式机器学习方法，应用于分布式机器学习系统，所述分布式机器学习系统包括参数服务器和至少两个用于对模型进行训练的工作节点，所述工作节点与所述参数服务器相连，包括：
[0006]对本次训练的初始模型进行...

【技术保护点】

【技术特征摘要】
1.一种分布式机器学习方法，应用于分布式机器学习系统，所述分布式机器学习系统包括参数服务器和至少两个用于对模型进行训练的工作节点，所述工作节点与所述参数服务器相连，其特征在于，该方法包括：对本次训练的初始模型进行训练，得到所述初始模型对应的第一梯度；判断在第一时间段内是否接收到所述参数服务器发送的全局参数，其中，所述第一时间段为本次训练所述初始模型的时间段；若在第一时间段内未接收到所述全局参数，则基于所述第一梯度，得到候选模型，并将所述候选模型作为下一次训练的初始模型。2.如权利要求1所述的分布式机器学习方法，其特征在于，所述基于所述第一梯度，得到候选模型，包括：基于所述第一梯度更新所述初始模型的参数，得到候选模型。3.如权利要求1或2所述的分布式机器学习方法，其特征在于，在所述判断在第一时间段内是否接收到所述参数服务器发送的全局参数之后，还包括：若在第一时间段内接收到所述全局参数，基于所述全局参数，得到候选模型，将所述候选模型作为下一次训练的初始模型，并向所述参数服务器发送第二梯度；其中，所述第二梯度为在第二时间段内得到的第一梯度，所述第二时间段为上一次接收到全局参数的时间至第一时间段内接收到所述全局参数的时间，所述参数服务器在接收到第二梯度后，基于所述第二梯度得到全局参数，并向所述工作节点发送所述全局参数。4.如权利要求3所述的分布式机器学习方法，其特征在于，所述基于所述全局参数，得到候选模型，包括：基于全局参数更新所述初始模型的参数，得到候选模型。5.如权利要求3所述的分布式机器学习方法，其特征在于，所述向所述参数服务器发送第二梯度，包括：对所述第二梯度进行降维处...

【专利技术属性】
技术研发人员：郭嵩，王号召，詹玉峰，
申请(专利权)人：香港理工大学深圳研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人