一种面向预训练模型的联邦学习方法、装置及系统制造方法及图纸

技术编号:35925597 阅读:31 留言:0更新日期:2022-12-10 11:17
本申请实施例公开了一种面向预训练模型的联邦学习方法、装置及系统,包括:云端服务器为预训练的自然语言处理模型,生成多个不同的微调训练插件;云端服务器基于预设的所述微调训练插件与端侧设备集群的对应关系,将所述微调训练插件发送给对应的端侧设备集群中的端侧设备,以使所述端侧设备将所述微调训练插件置入所述预训练的自然语言处理模型,进行微调训练,得到微调训练结果;云端服务器将所述微调训练结果聚合后,基于聚合结果更新所述微调训练插件,重新发送给对应的端侧设备集群中的端侧设备进行微调训练,直到所述微调训练结果达到预设准确率阈值为止。这样,在保证模型微调精度及微调数据安全的前提下,提升模型进行微调训练的效率。微调训练的效率。微调训练的效率。

【技术实现步骤摘要】
一种面向预训练模型的联邦学习方法、装置及系统


[0001]本申请涉及人工智能
,特别涉及一种面向预训练模型的联邦学习方法、装置及系统。

技术介绍

[0002]随着诸如BERT模型的预训练的语言表征模型的提出,采用人工智能技术对自然语言处理迎来了一次蓬勃的发展期。大量的端侧自然语言处理应用被部署到用户终端上,比如:信息过滤应用、输入法智能补全应用及个人语音助理应用,辅助用户对自然语言的识别。
[0003]图1为现有技术提供的对自然语言处理模型进行训练的过程示意图。如图所示,常见的自然语言语言处理模型的训练流程分为三个阶段:模型预训练阶段、模型微调阶段及模型部署阶段。其中,模型预训练阶段,由云端服务器完成,云端服务器使用大量的中心化公开数据训练出一个通用的预训练的自然语言处理模型;模型微调阶段是根据用户的不同使用任务场景,对通用的预训练的自然语言处理模型,在诸如各个用户终端或云端设备的端侧设备中进行特质化的模型参数微调,以提升模型在特定任务上的准确率;模型部署阶段是将微调训练后的自然语言处理模型部署到各个用户终端上进行实际任务的执行。
[0004]目前,预训练的自然语言处理模型在进行微调训练时,所使用的微调数据往往是私密的本地数据,且分别部署到各个诸如用户终端或云端设备的端侧设备中处理,这种方法被称为联邦学习方法。但是,采用这种方法对预训练的自然语言处理模型进行微调训练,存在着高额的通信开销问题及受制于端侧设备的计算能力的问题,导致效率低下。

技术实现思路

[0005]有鉴于此,本申请实施例提供一种面向预训练模型的联邦学习方法,该方法在保证模型微调精度及微调数据安全的前提下,提升模型进行微调训练的效率。
[0006]本申请实施例还提供一种面向预训练模型的联邦学习装置,该装置在保证模型微调精度及微调数据安全的前提下,提升模型进行微调训练的效率。
[0007]本申请实施例还提供一种面向预训练模型的联邦学习系统,该系统在保证模型微调精度及微调数据安全的前提下,提升模型进行微调训练的效率。
[0008]本申请的一个实施例中,提供一种面向预训练模型的联邦学习方法,所述方法包括:
[0009]a、对应一预训练的自然语言处理模型,生成至少一微调训练插件;
[0010]b、基于预设的所述微调训练插件与端侧设备集群的对应关系,将所述微调训练插件发送给对应的端侧设备集群中的端侧设备,以使所述端侧设备将所述微调训练插件置入所述预训练的自然语言处理模型,进行微调训练,得到微调训练结果;
[0011]c、将从所述端侧设备集群中的所述端侧设备接收的所述微调训练结果聚合,根据所述聚合的所述微调训练结果,更新所述微调训练插件,返回步骤b继续执行,直到所述微
调训练插件的微调训练结果达到预设准确率阈值为止。
[0012]在上述方法中,所述生成至少一微调训练插件为生成多个微调训练插件;
[0013]所述预设的所述微调训练插件与端侧设备集群的对应关系包括:
[0014]对于每个所述微调训练插件,对应设置一端侧设备集群,在所述端侧设备集群中包括随机选取的多个所述端侧设备。
[0015]在上述方法中,在所述根据所述聚合的所述微调训练结果,更新所述微调训练插件之后,还包括:
[0016]调整预设的所述微调训练插件与端侧设备集群的对应关系,返回执行所述步骤b及所述步骤c。
[0017]在上述方法中,所述根据所述聚合的所述微调训练结果,更新所述微调训练插件包括:
[0018]从所述聚合的多个所述微调训练结果中,获取得到训练效果最优的所述微调训练结果,以所述训练效果最优的所述微调训练结果为基准,更新每个所述微调训练插件。
[0019]在上述方法中,所述微调训练插件包括:单层微调训练插件、单层加宽微调训练插件和多层微调训练插件。
[0020]在上述方法中,所述以使所述端侧设备将所述微调训练插件置入所述预训练的自然语言处理模型中,进行微调训练包括:
[0021]所述端侧设备预先缓存所述预训练的自然语言处理模型及所述预训练的自然语言处理模型的预训练参数;
[0022]所述端侧设备调用所述缓存的所述预训练的自然语言处理模型,将所述微调训练插件置入后,对所述预训练的自然语言处理模型进行微调训练,且保持所述预训练的自然语言处理模型的预训练参数不变。
[0023]本申请的另一实施例中提供一种面向预训练模型的联邦学习装置,所述装置包括:微调训练插件生成单元、分发单元、聚合单元及更新单元,其中,
[0024]所述微调训练插件生成单元,用于对应一预训练的自然语言处理模型,生成至少一微调训练插件;
[0025]所述分发单元,用于基于预设的所述微调训练插件与端侧设备集群的对应关系,将所述微调训练插件发送给对应的端侧设备集群中的端侧设备,以使所述端侧设备将所述微调训练插件置入所述预训练的自然语言处理模型,进行微调训练,得到微调训练结果;
[0026]所述聚合单元,用于将从所述端侧设备集群中的所述端侧设备接收的所述微调训练结果聚合;
[0027]所述更新单元,用于根据所述聚合的所述微调训练结果,更新所述微调训练插件后,控制所述分发单元进行所述微调训练插件的分发,直到所述微调训练插件的微调训练结果达到预设准确率阈值为止。
[0028]本申请的另一实施例中提供一种面向预训练模型的联邦学习系统,包括:云端服务器及端侧设备,其中,
[0029]所述云端服务器,用于对应一预训练的自然语言处理模型,生成至少一微调训练插件;基于预设的所述微调训练插件与端侧设备集群的对应关系,将所述微调训练插件发送给对应的端侧设备集群中的端侧设备;将从所述端侧设备集群中的所述端侧设备接收的
所述微调训练结果聚合,根据所述聚合的所述微调训练结果,更新所述微调训练插件,将所述微调训练插件发送给对应的端侧设备集群中的端侧设备,继续执行,直到所述微调训练插件的微调训练结果达到预设准确率阈值为止;
[0030]所述端侧设备,用于将所述微调训练插件置入所述预训练的自然语言处理模型,进行微调训练,得到微调训练结果,发送给所述云端服务器。
[0031]在上述系统中,所述端侧设备,具有缓存区域,还用于在缓存区域中,缓存所述预训练的自然语言处理模型及所述预训练的自然语言处理模型的预训练参数;从缓存区域中调用所述缓存的所述预训练的自然语言处理模型,将所述微调训练插件置入后,对所述预训练的自然语言处理模型进行微调训练,且保持所述预训练的自然语言处理模型的预训练参数不变。
[0032]本申请的另一实施例中提供一种电子设备,所述电子设备应用于面向预训练模型的联邦学习过程,包括:
[0033]处理器;
[0034]存储器,存储有程序,所述程序配置为在被所述处理器执行时实现上述任一项所述的面向预训练模型的联邦学习方法。
[0035]如上所见,本申请实施例的云端服务器为预训练的自然语言处理模型,生成多个不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向预训练模型的联邦学习方法,其特征在于,所述方法包括:a、对应一预训练的自然语言处理模型,生成至少一微调训练插件;b、基于预设的所述微调训练插件与端侧设备集群的对应关系,将所述微调训练插件发送给对应的端侧设备集群中的端侧设备,以使所述端侧设备将所述微调训练插件置入所述预训练的自然语言处理模型,进行微调训练,得到微调训练结果;c、将从所述端侧设备集群中的所述端侧设备接收的所述微调训练结果聚合,根据所述聚合的所述微调训练结果,更新所述微调训练插件,返回步骤b继续执行,直到所述微调训练插件的微调训练结果达到预设准确率阈值为止。2.如权利要求1所述的方法,其特征在于,所述生成至少一微调训练插件为生成多个微调训练插件;所述预设的所述微调训练插件与端侧设备集群的对应关系包括:对于每个所述微调训练插件,对应设置一端侧设备集群,在所述端侧设备集群中包括随机选取的多个所述端侧设备。3.如权利要求2所述的方法,其特征在于,在所述根据所述聚合的所述微调训练结果,更新所述微调训练插件之后,还包括:调整预设的所述微调训练插件与端侧设备集群的对应关系,返回执行所述步骤b及所述步骤c。4.如权利要求2或3所述的方法,其特征在于,所述根据所述聚合的所述微调训练结果,更新所述微调训练插件包括:从所述聚合的多个所述微调训练结果中,获取得到训练效果最优的所述微调训练结果,以所述训练效果最优的所述微调训练结果为基准,更新每个所述微调训练插件。5.如权利要求4所述的方法,其特征在于,所述微调训练插件包括:单层微调训练插件、单层加宽微调训练插件和多层微调训练插件。6.如权利要求4所述的方法,其特征在于,所述以使所述端侧设备将所述微调训练插件置入所述预训练的自然语言处理模型中,进行微调训练包括:所述端侧设备预先缓存所述预训练的自然语言处理模型及所述预训练的自然语言处理模型的预训练参数;所述端侧设备调用所述缓存的所述预训练的自然语言处理模型,将所述微调训练插件置入后,对所述预训练的自然语言处理模型进行微调训练,且保持所述预训练的自然语言处理模型的预训练参数不变。7.一种面向预训练模型的联邦学习装置,其特征在于,所述装置包括:微调训练插件...

【专利技术属性】
技术研发人员:徐梦炜蔡栋琪周傲马骁王尚广
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1