一种基于差分隐私的个性化联邦学习、识别方法及系统技术方案

技术编号:37167167 阅读:21 留言:0更新日期:2023-04-20 22:40
本发明专利技术公开了一种基于差分隐私的个性化联邦学习、识别方法及系统,该方法在非独立同分布数据下,利用Moreau envelope分解联邦学习的优化问题,并行优化各客户端数据对其进行个性化采样训练,有效提高模型性能,减少模型异构造成性能下降的影响;在客户端上传本地模型参数和服务器下发全局参数时,基于局部差分隐私和全局差分隐私,使模型参数在上行和下行信道中能满足差分隐私,并合理分配噪声大小以减小噪声扰动对模型准确率的影响;本发明专利技术所述方法在实现隐私保护的前提下,确保了模型准确率。率。率。

【技术实现步骤摘要】
一种基于差分隐私的个性化联邦学习、识别方法及系统


[0001]本专利技术涉及计算机科学与
,尤其涉及一种基于差分隐私的个性化联邦学习、识别方法及系统。

技术介绍

[0002]随着数据驱动智能应用的快速发展,机器学习在医疗卫生、智能交通和金融管理等众多行业中已被广泛应用,但它也面临着无法为所有用户提供稳健且高效的服务以及数据难以做到充分共享的难题。而联邦学习(Federated Learning,FL)作为一种极具潜力的解决方法应运而生,它是一种数据访问受限的分布式机器学习框架。在联邦学习中,分布式客户端根据自己的私有数据训练机器学习模型,并借助参数服务器仅共享训练得到的梯度,以此协作训练全局联邦模型,整个过程实现了训练数据去中心化。联邦学习体现了集中收集和数据最小化原则,避免用户将自己的数据暴露给企业或其他参与方,可以有效减少传统集中式机器学习带来的许多系统性隐私风险和开销问题。
[0003]虽然联邦学习能解决数据孤岛问题而被广泛应用,但它仍然面临许多挑战。在实际应用场景中,往往存在网络设备的差异使数据分布不均匀造成数据非独立同分布(non

Independent and Identically Distribute,non

IID)的情况,而在这种情况下联邦学习的全局模型很难对每个客户端数据进行较好概括,导致全局模型无法为各客户端任务提供良好的性能。例如,在图像识别应用中,由于每个移动端设备(智能摄像头)收集的数据存在地理差异和时间差异,那么模型对数据预测将会造成偏差,导致对图像识别的准确度降低。目前针对该问题的方法中,通常采用建立了一个个性化的初始元模型,在一个梯度下降步骤后进行有效更新,但联邦学习训练过程需要交换大量中间参数,这些方法缺乏对模型参数的隐私保护,所有参与训练的角色极易获得这些参数,这将会带来严重的隐私泄露风险。
[0004]而在FL隐私保护方面,采集的原始数据通常具有高度的隐私性,这些敏感数据在用户没有授权的前提下,通常被禁止上传。而联邦学习可以做到不获取用户原始数据,但敌手仍然可以根据客户端模型梯度推测出用户数据中的敏感信息,甚至可以逆向推演获得用户隐私数据。目前针对隐私保护的解决方法中,通常引入差分隐私对FL模型训练完成的本地参数进行加噪,或者对模型的目标函数进行扰动,使得本地模型参数无法被攻击者获取,从而造成用户隐私泄露。这类方法虽然在聚合过程中本地参数满足中心化差分隐私需求,但取均值计算全局参数时会稀释本地添加的噪声,导致在下发过程中无法为全局参数提供相同的隐私保护能力。
[0005]综上所述,现有方法主要存在以下不足:1)non

IID数据造成本地模型异构,当数据统计异质性增加时,全局模型泛化误差也会随之增大;2)个性化联邦学习研究中存在直接分享梯度造成隐私泄露的问题;3)在non

IID数据下差分隐私需综合考虑分配隐私预算,并且需要防止服务器聚合后噪声被稀释而导致下发参数无法满足差分隐私需求的问题。

技术实现思路

[0006]本专利技术提供了一种基于差分隐私的个性化联邦学习、识别方法及系统,考虑到服务器全局聚合后可能会弱化差分隐私,利用全局差分隐私对全局参数添加噪声,使服务器在下发全局参数时满足差分隐私需求,以安全地为客户端更新本地模型参数。
[0007]本专利技术提供的技术方案如下:
[0008]一方面,一种基于差分隐私的个性化联邦学习方法,包括:
[0009]步骤1:利用各自拥有的数据对各客户端的本地模型进行个性化训练,获得所述本地模型参数,再采用局部差分隐私对所述本地模型参数进行扰动后并将其上传至服务器;
[0010]在个性化训练时,采用Moreau envelope函数对本地模型双层优化;
[0011]步骤2:服务器接收所有客户端的本地模型参数,执行聚合操作得到全局参数;
[0012]步骤3:采用全局差分隐私对全局参数添加噪声后,向所有客户端下发添加噪声后的全局参数;
[0013]步骤4:所有客户端依据接收到最新的全局参数进行更新各自的本地模型,返回步骤1,重复上述步骤,直到各客户端的本地模型收敛,得到各客户端基于差分隐私的个性化本地模型。
[0014]进一步的,所述采用全局差分隐私对全局参数添加噪声的标准方差如下:
[0015][0016]其中,σ
G
表示采用全局差分隐私对全局参数添加的噪声标准方差,σ
B
表示采用局部差分隐私对所述本地模型参数添加的噪声的标准方差;σ
A
=cTΔs
G
/ε,σ
B
=cRΔs
B
/ε,σ
A
、c为中间变量;
[0017]其中,C表示w
i
边界的裁剪阈值,||w
i
||≤C,为正整数的设定值,w
i
表示第i个客户端上传的模型参数;表示第i个客户端拥有的数据集,p
max
表示最大数据集与总数据集的比值,总数据集为所有客户端数据集的总和,T表示全局迭代次数,R表示客户端的本地模型迭代次数,ε表示隐私预算,一般取值为正整数,取值越小安全性更高,m表示最小数据集的大小,Δs
B
表示上行信道中的局部敏感度,Δs
G
表示全局敏感度,δ表示失败概率,取值较小,如0.01、0.001、0.0001。
[0018]其中,C表示w
i
边界的裁剪阈值,为正整数的设定值;表示第i个客户端拥有的数据集,p
max
表示最大数据集与总数据集的比值,总数据集为所有客户端数据集的总和,T表示全局迭代次数,R表示客户端的本地模型迭代次数,ε表示隐私预算,一般取值为正整数,取值越小安全性更高,m表示最小数据集的大小,Δs
B
表示上行信道中的局部敏感度,Δs
G
表示全局敏感度,δ表示失败概率,取值较小,如0.01、0.001、0.0001。
[0019]全局差分隐私主要是弥补局部差分隐私在全局聚合被弱化导致安全性的不足,所以设置了标准差判断服务器是否要添加差分隐私扰动来提升安全性;
[0020]为满足全局差分隐私,添加额外噪声取决于T、R和最大数据集的大小。因此,T越大将会导致更高的信息泄漏风险,而更大客户端数据集有助于隐藏用户敏感信息。
[0021]进一步的,所述全局敏感度是利用以下两个公式获得:
[0022][0023][0024]其中,表示对第i个客户端的数据进行聚合操作后的输出结果,表示对第i个客户端的数据进行聚合的全局敏感度;w为服务器广播给客户端的聚合参数,p
i
表示第i个客户端数据大小与总数据大小的比值,w
i
表示第i个客户端上传的模型参数,和分别表示对数据集采样训练的模型参数,表示与仅有一条记录不同的相邻数据集,N表示客户端的总数,p<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于差分隐私的个性化联邦学习方法,其特征在于,包括:步骤1:各客户端采用Moreau envelope函数对本地模型进行双层优化,每个客户端的本地模型根据自己所拥有的数据进行个性化采样训练,获得所述本地模型参数,再采用局部差分隐私对所述本地模型参数进行扰动后并将其上传至服务器;步骤2:服务器接收所有客户端的本地模型参数,执行聚合操作得到全局参数;步骤3:采用全局差分隐私对全局参数添加噪声后,向所有客户端下发添加噪声后的全局参数;步骤4:所有客户端依据接收到最新的全局参数进行更新各自的本地模型,返回步骤1,重复上述步骤,直到各客户端的本地模型收敛,得到各客户端基于差分隐私的个性化本地模型。2.根据权利要求1所述的方法,其特征在于,所述采用全局差分隐私对全局参数添加噪声的标准方差如下:其中,σ
G
表示采用全局差分隐私对全局参数添加的噪声标准方差,σ
B
表示采用局部差分隐私对所述本地模型参数添加的噪声的标准方差;σ
A
=cTΔs
G
/ε,σ
B
=cRΔs
B
/ε,σ
A
、c为中间变量;其中,C表示w
i
边界的裁剪阈值,||w
i
||≤C,为正整数的设定值,w
i
表示第i个客户端上传的模型参数;表示第i个客户端拥有的数据集,p
max
表示最大数据集与总数据集的比值,总数据集为所有客户端数据集的总和,T表示全局迭代次数,R表示客户端的本地模型迭代次数,ε表示隐私预算,取值越小安全性更高,m表示最小数据集的大小,Δs
B
表示上行信道中的局部敏感度,Δs
G
表示全局敏感度,δ表示失败概率。3.根据权利要求2所述的方法,其特征在于,所述全局敏感度是利用以下两个公式获得:得:其中,表示对第i个客户端的数据进行聚合操作后的敏感度,w为服务器广播给客户端的聚合参数,p
i
表示第i个客户端数据大小与总数据大小的比值,w
i
表示第i个客户端上传的模型参数,和分别表示客户端i对数据集采样训练的模型参数,表示与仅有一条记录不同的相邻数据集,N表示客户端的总数,p
max
=max(p
i
)。4.根据权利要求1所述的方法,其特征在于,所述步骤2中执行聚合操作是指采用
FedAvg算法进行全局聚合其中,表示第i个客户端在全局迭代第t轮本地迭代第R轮时的模型参数,N表示客户端的总数。5.一种基于差分隐私的个性化联邦学习的识别方法,其特征在于,应用权利要求1

4任一项所述的一种基于差分隐私的个性化联邦学习方法,所有参与的客户端获得更新完成的本地模型,利用所述客户端的本地模型对自身采集的新数据进行识别。6.一种基于差分隐私的个性化联邦学习系统,其特征在于,包括:个性化训练模块:各客户端采用Moreau envelope函数对本地模型...

【专利技术属性】
技术研发人员:张少波张激勇梁伟朱更明
申请(专利权)人:湖南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1