一种针对联合学习中噪声攻击的防御方法技术

技术编号:27272178 阅读:23 留言:0更新日期:2021-02-06 11:37
本发明专利技术公开了一种针对联合学习中噪声攻击的防御方法。该方法为:在聚合端聚合用户上传的参数之前,由服务器预先检验用户的可信度,并据此设置聚合时各个用户的权重,步骤如下:服务器利用已有公共数据产生初始模型,并分发给参与训练的用户端;每个用户端在本地更新模型,然后将结果上传至服务器;从第二轮上传开始,服务器计算每个用户端上传的模型参数与前一次上传参数之间的相关性,并将得到的所有相关性结果进行归一化处理,以此作为聚合时每个用户端的权重,生成新的全局模型;新的全局模型将再次被发送给所有用户端开始新一轮的训练,直到达到系统结束要求。本发明专利技术有效地防御了噪声攻击,提高了训练模型的精度,成本低廉且易于实现。低廉且易于实现。低廉且易于实现。

【技术实现步骤摘要】
一种针对联合学习中噪声攻击的防御方法


[0001]本专利技术属于机器学习中的隐私与安全问题技术,特别是一种针对联合学习中噪声攻击的防御方法。

技术介绍

[0002]机器学习中的隐私与安全问题是大数据时代非常重要的研究领域之一。随着数据挖掘等技术的深入发展,个人隐私通过数据泄露的现象越来越常见,甚至出现了大规模的信息泄露事件。此外,各种机器模型越发成熟且得到广泛应用,包括金融、医疗、国家安全等多种敏感领域,模型的安全性显得愈发重要。因此,在机器学习模型中部署针对可能存在的恶意攻击者的防御算法得到广泛关注(BuczakA,Guven E.A Survey ofData Mining and Machine Learning Methods for Cyber Security Intrusion Detection[J].IEEE Communications Surveys&Tutorials,2017,18(2):1153-1176.)。
[0003]联合学习是将训练数据分布在移动设备上,通过聚集本地计算的更新来学习一个共享的模型(Mcmahan HB,Moore E,Ramage D,et al.Communication-Efficient Learning of Deep Networks from Decentralized Data[J].2016.)。联合学习由谷歌首先提出,主要用于安卓移动端的自然语言处理等问题,是分布式学习的一种。在联合学习架构中,存在一个中央服务器与大量的用户端,服务器会将统一的初始模型分发给所有用户端,各个用户端利用自己的私人数据进行本地训练,再将得到的结果(模型或者梯度等)重新上传到服务器进行聚合;聚合后的结果会作为下一次本地训练的初始模型再一次发送到用户端的手中。服务器会持续这样的流程直至整个训练结束。与传统的分布式学习不同,服务器对用户的数据。在这样的规则下,用户不需要将自己的数据上传也能达到信息交流的效果,既有效的保护的了自己的隐私,也提高了训练模型的泛化性,从而有力的解决了“数据孤岛”问题。
[0004]模型中毒攻击是一种自然而强大的攻击类,其中对手可以控制部分用户端并直接操作对中央服务器的更新(Advances andOpen Problems in Federated Learning[J].2019.)。恶意的用户端可以利用这些有缺陷的上传来改变整个模型的边界,导致它以错误的方向更新。具体地说,模型中毒攻击的目标通常有两个级别:无目标攻击和有目标攻击。无目标攻击者通常以降低系统性能甚至破坏整个模型为目的,而目标攻击者只会在具有特定属性的样本上使模型失效。因此前者往往更具破坏性,而后者更难以检测。在分布式系统中,如果恶意用户端产生任意输出(比如拜占庭式攻击),这将是最糟糕的情况之一,而噪声攻击是常见的无目标模型中毒攻击方式。因此针对联合学习的弹性聚合方式是研究的重点方向。
[0005]在当前的防御算法中,比较流行的是服务器端对每个用户上传的模型进行质量检测(陈晋音,张龙源.基于信用评估的面向联邦学习中毒攻击的防御方法[P].浙江省:CN111598143A,2020-08-28.),服务器利用测试集对用户上传的模型进行测试,并以此结果对用户进行信用评估,从而达到保护系统的目的。然而这种方法要求服务器具备额外的检测数据集,如果使用公共的数据集作测试的话,易被攻击者掌握先验知识而有所准备;如果
自己准备私人数据的话,为了测试的准确性需要制作大量的数据,成本较大;此外,对用户进行逐一的验证也增大了系统的计算开销。

技术实现思路

[0006]本专利技术的目的在于提供一种针对联合学习中噪声攻击的防御方法,有效防御联合学习模型中可能存在的恶意攻击者,从而提高系统性能。
[0007]实现本专利技术目的的技术解决方案为:一种针对联合学习中噪声攻击的防御方法,在聚合端聚合用户上传的参数之前,由服务器预先检验用户的可信度,并根据可信度设置聚合时各个用户的权重,包括以下步骤:
[0008]步骤1、服务器利用已有公共数据产生初始模型,并将该初始模型分发给参与训练的用户端;
[0009]步骤2、每个用户端在本地更新模型,然后将结果上传至服务器;
[0010]步骤3、从第二轮上传开始,服务器计算每个用户端上传的模型参数与前一次上传参数之间的相关性,并将得到的所有相关性结果进行归一化处理,以此作为聚合时每个用户端的权重,生成新的全局模型;
[0011]步骤4、聚合后的全局模型将再次被发送给所有用户端开始新一轮的训练,直到达到系统结束要求。
[0012]进一步地,步骤1中所述服务器利用已有公共数据产生初始模型,并将该初始模型分发给参与训练的用户端,具体为:
[0013]系统确定学习目标以及参与训练的用户端信息,通过有关公共数据生成初始模型,并将该初始模型及任务目标分发给用户端进行训练。
[0014]进一步地,步骤2中所述每个用户端在本地更新模型,然后将结果上传至服务器,具体为:
[0015]用户端利用自己的私有数据对初始模型进行更新,并只将得到的模型参数上传至服务器。
[0016]进一步地,步骤3中所述服务器计算每个用户端上传的模型参数与前一次上传参数之间的相关性,并将得到的所有相关性结果进行归一化处理,以此作为聚合时每个用户端的权重,生成新的全局模型,具体如下:
[0017]采用皮尔森公式计算同一用户端本次上传参数与前一回合上传参数之间的相关性;由于只需要判断二者之间的相关性强弱,因此取所得结果的绝对值,并进行储存;待所有用户完成上传后,将相关性数组作归一化处理,并以此结果为基础对用户的参数进行加权平均,生成新的全局模型。
[0018]进一步地,利用相关性加权聚合用户上传参数,具体为:
[0019](1)联合学习训练
[0020]设联合学习系统中总共有N个用户端参与训练,其中第i个用户端在第k次聚合前上传的模型参数为原始权重为p
i
,聚合后的全局模型为w
k
,则服务器的聚合过程表示为:
[0021][0022]其中p
i
由该用户端的数据量占总数据量的比重决定,如果每个用户的数量相等的话,则p
i
=1/N;
[0023]对于整个联合学习系统来说,训练的目的是在用户的数据基础上得到一个最优学习模型,表示为:
[0024][0025]其中,w
*
代表最优的全局模型,F
i
(w)是第i个用户端的局部目标函数,等价的全局目标函数值为w
*
是能使得F(w)最小的全局模型参数;
[0026](2)皮尔森相关系数
[0027]相关系数是用来度量两个变量之间相关程度的指标,而皮尔森相关系数是衡量线性关联性的程度,几何解释为两个变量的取值根据均值集中后构成的向量之间夹角的余弦,皮尔森相关系数公式为:
[0028][0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对联合学习中噪声攻击的防御方法,其特征在于,在聚合端聚合用户上传的参数之前,由服务器预先检验用户的可信度,并根据可信度设置聚合时各个用户的权重,包括以下步骤:步骤1、服务器利用已有公共数据产生初始模型,并将该初始模型分发给参与训练的用户端;步骤2、每个用户端在本地更新模型,然后将结果上传至服务器;步骤3、从第二轮上传开始,服务器计算每个用户端上传的模型参数与前一次上传参数之间的相关性,并将得到的所有相关性结果进行归一化处理,以此作为聚合时每个用户端的权重,生成新的全局模型;步骤4、聚合后的全局模型将再次被发送给所有用户端开始新一轮的训练,直到达到系统结束要求。2.如权利要求1所述的针对联合学习中噪声攻击的防御方法,其特征在于,步骤1中所述服务器利用已有公共数据产生初始模型,并将该初始模型分发给参与训练的用户端,具体为:系统确定学习目标以及参与训练的用户端信息,通过有关公共数据生成初始模型,并将该初始模型及任务目标分发给用户端进行训练。3.根据权利要求1所述的针对联合学习中噪声攻击的防御方法,其特征在于,步骤2中所述每个用户端在本地更新模型,然后将结果上传至服务器,具体为:用户端利用自己的私有数据对初始模型进行更新,并只将得到的模型参数上传至服务器。4.根据权利要求1、2或3所述的针对联合学习中噪声攻击的防御方法,其特征在于,步骤3中所述服务器计算每个用户端上传的模型参数与前一次上传参数之间的相关性,并将得到的所有相关性结果进行归一化处理,以此作为聚合时每个用户端的权重,生成新的全局模型,具体如下:采用皮尔森公式计算同一用户端本次上传参数与前一回合上传参数之间的相关性;由于只需要判断二者之间的相关性强弱,因此取所得结果的绝对值,并进行储存;待所有用户完成上传后,将相关性数组作归一化处理,并以此结果为基础对用户的参数进行加权平均,生成新的全局模型。5.根据权利要求4所述的针对联合学习中噪声攻击的防御方法,其特征在于,利用相关性加权聚合用户上传参数,具体为:(1)联合学习训练设联合...

【专利技术属性】
技术研发人员:周程安梁腾韦康马川李骏
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1