一种个性化聚合的联邦学习方法技术

技术编号:39289772 阅读:14 留言:0更新日期:2023-11-07 10:58
本发明专利技术公开了一种个性化聚合的联邦学习方法,包括:1)平台侧构造拥有IID数据集的虚拟客户端;2)平台侧初始化全局模型参数;3)平台侧将全局模型参数发送至各客户端及虚拟客户端;4)各客户端及虚拟客户端进行本地训练,此过程确保数据不出本地,训练完成后将更新后的模型参数发送至平台;5)平台接收来自各客户端及虚拟客户端的模型参数,聚合时个性化地为虚拟客户端分配权重,剩余的数个客户端再正常聚合;6)重复所述步骤3至步骤5,直至全局模型收敛。本发明专利技术提出的个性化聚合的联邦学习方法,通过虚拟客户端保留IID数据,在聚合时虚拟客户端个性化参与聚合,可以在保证平台侧不共享数据的前提下,提高模型在Non

【技术实现步骤摘要】
一种个性化聚合的联邦学习方法


[0001]本专利技术涉及一种个性化聚合的联邦学习方法,属于信息安全领域。

技术介绍

[0002]在信息安全领域,联邦学习在过去的几年中发展迅速,作为一种范式,可以在数据不出本地的前提下,完成一些需要联合执行的任务,从而有效保护各方的数据隐私。
[0003]但在实际应用中,仍然存在一些问题,比如大多数企业的数据规模有限、数据质量参差不齐,也就是数据非独立同分布Non

IID问题,会降低联合模型的泛化能力。为了解决Non

IID问题,可以共享一些数据集,从而提高各客户端的数据质量,如FedShare模型。
[0004]在实际应用场景下,多客户端共同完成一个训练任务,此时担任平台角色的也是其中一个客户端,但平台上的数据也是本地的,如果直接共享给其他客户端,会更容易受到恶意攻击,无法保护自己的数据安全。

技术实现思路

[0005]针对联邦学习中的Non

IID数据导致的泛化能力弱的问题,本专利技术的目的是提出一种个性化聚合的联邦学习方法,通过虚拟客户端保留IID数据,在聚合时虚拟客户端个性化参与聚合,可以在保证平台侧不共享数据的前提下,提高模型在Non

IID场景下的精度。
[0006]实现本专利技术目的的具体技术方案是:
[0007]一种个性化聚合的联邦学习方法,该方法包括以下具体步骤:
[0008]1)平台侧构造拥有IID数据集的虚拟客户端;
[0009]2)平台侧初始化全局模型参数;
[0010]3)平台侧将全局模型参数发送至各客户端及虚拟客户端;
[0011]4)各客户端及虚拟客户端进行本地训练;
[0012]5)平台接收来自各客户端及虚拟客户端的模型参数,聚合时个性化地为虚拟客户端分配权重,剩余的数个客户端再正常聚合;
[0013]6)重复所述步骤3)至步骤5),直至全局模型收敛;该方法可以在保证平台侧不共享数据的前提下,提高模型在Non

IID场景下的精度。
[0014]其中,所述平台侧构造拥有IID数据集的虚拟客户端,具体包括,平台侧构造一个虚拟客户端,该虚拟客户端将IID数据集作为本地数据,该数据集保留在平台,不会被共享;该虚拟客户端搭建本地模型,能够接收来自平台的全局模型参数;该虚拟客户端经过本地训练后,将训练后的本地模型参数传回给平台侧。
[0015]所述各客户端及虚拟客户端进行本地训练,具体包括,其中各客户端上拥有自己的数据集,这些数据集不会被共享;各客户端每一轮根据平台返回的全局模型,通过本地数据集进行本地模型训练,再将训练后的模型参数返回给平台;各客户端及虚拟客户端进行本地训练,此过程确保数据不出本地,训练完成后将更新后的模型参数发送至平台。
[0016]所述聚合时个性化地为虚拟客户端分配权重,剩余的数个客户端再正常聚合,具
体包括,
[0017]1)平台根据虚拟客户端本地训练后返回的模型参数分配权重σ;
[0018]2)平台根据各客户端本地训练后返回的模型参数ω1,ω2,...ω
m
,其中m为客户端的数量,这些客户端的聚合结果为分配剩余的1

σ的权重;
[0019]3)平台第t轮的个性化聚合过程,记为此时全局模型参数为ω
t

[0020]所述全局模型收敛,具体包括,模型损失函数降低至某一阈值,即模型参数变化量小于设定的某个数值;或者模型达到最大迭代次数。
[0021]本专利技术的优势在于:
[0022]1)通过为平台的IID数据集构造虚拟客户端,并在聚合过程中个性化为虚拟客户端单独分配权重,在避免平台侧共享数据导致数据泄露和恶意客户端攻击的同时,提高了模型的精度;
[0023]2)解决了联邦学习实际应用时遇到的数据集质量参差不齐,也就是Non

IID导致的泛化能力弱问题。
附图说明
[0024]图1为本专利技术构建的一种个性化聚合的联邦学习方法的流程图;
[0025]图2为本专利技术构建的一种个性化聚合的联邦学习方法图示化的流程图;
[0026]图3为本专利技术构建的一种个性化聚合的联邦学习方法的伪代码算法图。
具体实施方式
[0027]以下结合附图对本专利技术做详细描述。
[0028]本专利技术涉及到的词语其含义为:
[0029]IID:在概率论与统计学中,独立同分布(Independent and identically distributed,缩写为IID)是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。
[0030]Non

IID:非独立同分布,指存在非独立的或者非同分布的情况。
[0031]泛化能力:泛化能力(generalization ability)是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。Non

IID会降低泛化能力。
[0032]参阅图1,本专利技术的一种个性化聚合的联邦学习方法,包括以下具体步骤:
[0033]1)平台侧构造拥有IID数据集的虚拟客户端,该虚拟客户端拥有自己的IID数据集,该数据集保留在平台,不会被共享;该虚拟客户端搭建本地模型,能够接收来自平台的全局模型参数;该虚拟客户端经过本地训练后,将训练后的本地模型参数传回给平台侧。
[0034]2)平台侧初始化全局模型参数;
[0035]3)平台侧将全局模型参数发送至各客户端及虚拟客户端;
[0036]4)各客户端及虚拟客户端进行本地训练,其中各客户端上拥有自己的数据集,这些数据集不会被共享;各客户端每一轮根据平台返回的全局模型,通过本地数据集进行本
地模型训练,再将训练后的模型参数返回给平台;各客户端及虚拟客户端进行本地训练,此过程确保数据不出本地,训练完成后将更新后的模型参数发送至平台。
[0037]5)平台接收来自各客户端及虚拟客户端的模型参数,聚合时个性化地为虚拟客户端单独分配权重,剩余的数个客户端再正常聚合。
[0038]6)重复所述步骤3)至步骤5),直至全局模型收敛,即模型损失函数降低至某一阈值,即模型参数变化量小于设定的某个数值;或者模型达到最大迭代次数。
[0039]参阅图2,本专利技术的一种个性化聚合的联邦学习方法图示化的流程图,包括一个平台,数个客户端,以及一个虚拟客户端。
[0040]其中平台上初始化联邦学习中的全局模型,并负责对各客户端返回的模型参数进行聚合,其中对虚拟客户端的本地模型进行个性化聚合。
[0041]其中数个客户端,客户端1,客户端2,...客户端m,拥有本地数据集,数据集不会被泄露和共享;虚拟客户端上拥有IID数据集,该本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种个性化聚合的联邦学习方法,其特征在于,该方法包括以下具体步骤:1)平台侧构造拥有IID数据集的虚拟客户端;2)平台侧初始化全局模型参数;3)平台侧将全局模型参数发送至各客户端及虚拟客户端;4)各客户端及虚拟客户端进行本地训练;5)平台接收来自各客户端及虚拟客户端的模型参数,聚合时个性化地为虚拟客户端分配权重,剩余的数个客户端再正常聚合;6)重复所述步骤3)至步骤5),直至全局模型收敛。2.根据权利要求1所述的一种个性化聚合的联邦学习方法,其特征在于,所述平台侧构造拥有IID数据集的虚拟客户端,具体包括,平台侧构造一个虚拟客户端,该虚拟客户端将IID数据集作为本地数据,该数据集保留在平台,不会被共享;该虚拟客户端搭建本地模型,能够接收来自平台的全局模型参数;该虚拟客户端经过本地训练后,将训练后的本地模型参数传回给平台侧。3.根据权利要求1所述的个性化聚合的联邦学习方法,其特征在于,所述各客户端及虚拟客户端进行本地训练,具体包括,其中各客户端上拥有自己的数据集,这些数据...

【专利技术属性】
技术研发人员:何道敬朱珊珊杜润萌张民
申请(专利权)人:上海境山科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1