当前位置: 首页 > 专利查询>鹏城实验室专利>正文

一种基于集群的模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:33628756 阅读:11 留言:0更新日期:2022-06-02 01:28
本发明专利技术涉及模型训练技术领域,具体是涉及一种基于集群的模型训练方法、装置、设备及存储介质。本发明专利技术将待训练模型放在各个集群上利用各个集群上的局部数据进行模型的训练,本发明专利技术将待训练模型放在各个集群上,因此本发明专利技术不需要将各个集群上的数据迁移至各个集群的外部就可以利用各个集群的数据对模型进行训练,从而保护了各个集群上的数据隐私以防止数据泄密。泄密。泄密。

【技术实现步骤摘要】
一种基于集群的模型训练方法、装置、设备及存储介质


[0001]本专利技术涉及模型训练
,具体是涉及一种基于集群的模型训练方法、装置、设备及存储介质。

技术介绍

[0002]近年来,人工智能(各种智能的计算模型)的全球发展热潮势不可挡,并在智慧医疗、智慧城市、互联网金融等关键领域创造了巨大的社会效益。使用模型在智慧医疗、智慧城市、互联网金融领域中进行相关任务处理之前,需要对模型进行训练,而模型训练需要大量的数据,集群作为容纳数据的载体,拥有训练模型所需要的数据,但是单个集群所对应数据的局限性,无法满足模型训练时对数据的要求,因此需要多个集群为模型提供更多以及不同的数据,以满足模型训练对数据的要求。现有技术是将各个集群上的数据进行迁移以实现将各个集群上的数据进行汇总,再通过汇总之后的数据对模型进行训练。现有技术由于将各个集群上的数据移出了集群,从而导致了集群数据的泄密。
[0003]综上所述,现有技术利用集群对模型进行训练会导致数据泄密。
[0004]因此,现有技术还有待改进和提高。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供了一种基于集群的模型训练方法、装置、设备及存储介质,解决了现有技术利用集群对模型进行训练会导致数据泄密的问题。
[0006]为实现上述目的,本专利技术采用了以下技术方案:
[0007]第一方面,本专利技术提供一种基于集群的模型训练方法,其中,包括:
[0008]将模型发送至各个集群上,所述集群用于为模型提供训练所需要的数据;
[0009]获取所述模型在各个所述集群上依据局部数据进行训练时所对应的各个局部参数,所述局部数据为各个所述集群上的数据;
[0010]依据各个所述局部参数,得到所述模型所对应的目标参数,完成对所述模型的训练,训练之后的所述模型用于完成目标任务。
[0011]在一种实现方式中,所述依据各个所述局部参数,得到所述模型所对应的目标参数,完成对所述模型的训练,训练之后的所述模型用于完成目标任务,包括:
[0012]获取位于各个所述集群上的所述模型在训练时所对应的各个局部梯度;
[0013]依据各个所述局部梯度和各个所述局部参数,得到所述模型所对应的目标参数,完成对所述模型的训练。
[0014]在一种实现方式中,所述依据各个所述局部梯度和各个所述局部参数,得到所述模型所对应的目标参数,完成对所述模型的训练,包括:
[0015]对各个所述局部梯度进行聚合,得到与所述模型所匹配的聚合梯度;
[0016]对各个所述局部参数进行融合,得到所述模型所对应的融合参数;
[0017]依据所述聚合梯度和所述融合参数,得到所述模型所对应的目标参数。
[0018]在一种实现方式中,所述依据所述聚合梯度和所述融合参数,得到所述模型所对应的目标参数,包括:
[0019]将所述聚合梯度和所述融合参数发送至各个所述集群上;
[0020]获取各个所述集群上的所述模型依据所述聚合梯度和所述融合参数以及所述局部数据进行迭代训练至收敛时所对应的局部目标参数;
[0021]对各个所述局部目标参数进行融合,得到所述模型所对应的目标融合参数;
[0022]依据依据目标融合参数,得到所述模型所对应的目标参数。
[0023]在一种实现方式中,所述依据依据目标融合参数,得到所述模型所对应的目标参数,包括:
[0024]获取各个所述集群上的所述模型依据所述聚合梯度和所述融合参数以及所述局部数据进行迭代训练至收敛时所对应的局部目标梯度;
[0025]对各个所述局部目标梯度进行聚合,得到与所述模型所匹配的目标聚合梯度;
[0026]依据所述目标聚合梯度,得到与所述目标融合参数所匹配的优化器;
[0027]依据所述优化器,对所述目标融合参数进行更新,得到所述模型所对应的目标参数。
[0028]在一种实现方式中,依据局部数据对模型进行训练,得到所述模型在各个集群上所对应的各个局部参数,所述局部数据位于各个所述集群上;
[0029]将各个所述局部参数发送至全局服务器,所述全局服务器用于对各个所述局部参数进行融合;
[0030]依据聚合参数和所述局部数据,得到各个所述集群上的所述模型所对应的各个局部目标参数,所述聚合参数为所述全局服务器对各个所述局部参数进行融合之后的参数;
[0031]将各个所述局部目标参数发送至所述全局服务器,所述全局服务器用于对各个所述局部目标参数进行融合,完成对所述模型的训练,训练之后的所述模型用于完成目标任务。
[0032]在一种实现方式中,所述依据局部数据对模型进行训练,得到所述模型在各个集群上所对应的各个局部参数,所述局部数据位于各个所述集群上,包括:
[0033]依据各个所述集群,得到各个所述集群所包含的局部服务器和各个工作节点,所述工作节点用于将所述局部数据加载到所述模型上;
[0034]在各个所述工作节点上依据所述局部数据对所述模型进行训练,得到所述模型所对应的子部参数;
[0035]通过所述局部服务器对各个所述子部参数进行融合,得到所述模型在各个集群上所对应的各个局部参数。
[0036]在一种实现方式中,所述通过所述局部服务器对各个所述子部参数进行融合,得到所述模型在各个集群上所对应的各个局部参数,包括:
[0037]通过各个所述工作节点计算所述模型所对应的子部梯度;
[0038]所述局部服务器依据所述子部梯度对各个所述子部参数进行融合,得到所述模型在各个集群上所对应的各个局部参数。
[0039]在一种实现方式中,还包括:
[0040]各个所述集群接收所述全局服务器发送的所述模型,所述全局服务器在发送所述
模型之前对所述模型进行初始化处理。
[0041]在一种实现方式中,各个所述集群同步训练所述模型,各个所述集群为异构集群,所述异构集群包括NPU集群和GPU集群。
[0042]第二方面,本专利技术实施例还提供一种基于集群的模型训练方法的装置,其中,所述装置包括如下组成部分:
[0043]模型发送模块,用于将模型发送至各个集群上,所述集群用于为模型提供训练所需要的数据;
[0044]参数接收模块,用于获取所述模型在各个所述集群上依据局部数据进行训练时所对应的各个局部参数,所述局部数据为各个所述集群上的数据;
[0045]目标参数生成模块,用于依据各个所述局部参数,得到所述模型所对应的目标参数,完成对所述模型的训练,训练之后的所述模型用于完成目标任务。
[0046]第三方面,本专利技术实施例还提供一种基于集群的模型训练方法的装置,其中,所述装置包括如下组成部分:
[0047]模型训练模块,用于依据局部数据对模型进行训练,得到所述模型在各个集群上所对应的各个局部参数,所述局部数据位于各个所述集群上;
[0048]参数发送模块,用于将各个所述局部参数发送至全局服务器,所述全本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集群的模型训练方法,其特征在于,包括:将模型发送至各个集群上,所述集群用于为模型提供训练所需要的数据;获取所述模型在各个所述集群上依据局部数据进行训练时所对应的各个局部参数,所述局部数据为各个所述集群上的数据;依据各个所述局部参数,得到所述模型所对应的目标参数,完成对所述模型的训练,训练之后的所述模型用于完成目标任务。2.如权利要求1所述的基于集群的模型训练方法,其特征在于,所述依据各个所述局部参数,得到所述模型所对应的目标参数,完成对所述模型的训练,训练之后的所述模型用于完成目标任务,包括:获取位于各个所述集群上的所述模型在训练时所对应的各个局部梯度;依据各个所述局部梯度和各个所述局部参数,得到所述模型所对应的目标参数,完成对所述模型的训练。3.如权利要求2所述的基于集群的模型训练方法,其特征在于,所述依据各个所述局部梯度和各个所述局部参数,得到所述模型所对应的目标参数,完成对所述模型的训练,包括:对各个所述局部梯度进行聚合,得到与所述模型所匹配的聚合梯度;对各个所述局部参数进行融合,得到所述模型所对应的融合参数;依据所述聚合梯度和所述融合参数,得到所述模型所对应的目标参数。4.如权利要求3所述的基于集群的模型训练方法,其特征在于,所述依据所述聚合梯度和所述融合参数,得到所述模型所对应的目标参数,包括:将所述聚合梯度和所述融合参数发送至各个所述集群上;获取各个所述集群上的所述模型依据所述聚合梯度和所述融合参数以及所述局部数据进行迭代训练至收敛时所对应的局部目标参数;对各个所述局部目标参数进行融合,得到所述模型所对应的目标融合参数;依据依据目标融合参数,得到所述模型所对应的目标参数。5.如权利要求4所述的基于集群的模型训练方法,其特征在于,所述依据依据目标融合参数,得到所述模型所对应的目标参数,包括:获取各个所述集群上的所述模型依据所述聚合梯度和所述融合参数以及所述局部数据进行迭代训练至收敛时所对应的局部目标梯度;对各个所述局部目标梯度进行聚合,得到与所述模型所匹配的目标聚合梯度;依据所述目标聚合梯度,得到与所述目标融合参数所匹配的优化器;依据所述优化器,对所述目标融合参数进行更新,得到所述模型所对应的目标参数。6.一种基于集群的模型训练方法,其特征在于,包括:依据局部数据对模型进行训练,得到所述模型在各个集群上所对应的各个局部参数,所述局部数据位于各个所述集群上;将各个所述局部参数发送至全局服务器,所述全局服务器用于对各个所述局部参数进行融合;依据聚合参数和所述局部数据,得到各个所述集群上的所述模型所对应的各个局部目标参数,所述聚合参数为所述全局服务器对各个所述局部参数进行融合之后的参数;
将各个所述局部目标参数发送至所述全局服务器,所述全局服务器用于对各个所述局部目标参数进行融合,完成对所述模型的训练,训练之后的所述模型用于完成目标任务。7.如权利要求6所述的基于集群的模型训练方法,其特征在于,所述依据局部数据对模型进行训练,得到所述模型在各个集群上所对应的各个局部参数,所述局部数据位于各个所...

【专利技术属性】
技术研发人员:张艳颜达森王进秦爽王晖曾炜
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1