当前位置: 首页 > 专利查询>浙江大学专利>正文

一种联邦学习中在黑盒场景下基于对抗样本的鲁棒水印遗忘验证方法技术

技术编号:35194384 阅读:17 留言:0更新日期:2022-10-12 18:20
本发明专利技术公开了一种联邦学习中在黑盒场景下基于对抗样本的鲁棒水印遗忘验证方法,通过在遗忘用户本地数据集中随机筛选部分样本,进行数据增广,利用对抗样本生成方法在增广后的数据上微调生成对抗样本。将本地模型在这些对抗样本和原有的本地数据上进行对抗训练,生成更加鲁棒的嵌入水印后的本地模型上传给中心服务器聚合。遗忘用户通过黑盒访问接下来若干个周期的全局模型,根据全局模型在这些对抗样本上的输出提取水印,验证遗忘情况。本发明专利技术方法具有鲁棒性强,验证效果好,对于数据分布依赖小,黑盒访问全局模型避免公平性问题,对于遗忘验证结果提供理论保证等优点,可以有效鉴别遗忘与否,能够广泛应用和部署在各种需要进行遗忘验证的场景中。行遗忘验证的场景中。行遗忘验证的场景中。

【技术实现步骤摘要】
一种联邦学习中在黑盒场景下基于对抗样本的鲁棒水印遗忘验证方法


[0001]本专利技术涉及联邦学习数据遗忘验证领域,具体涉及一种联邦学习中在黑盒场景下基于对抗样本的鲁棒水印遗忘验证方法。

技术介绍

[0002]联邦学习是一种分布式保隐私的新型学习框架,所有参与者可以实现在数据保留在本地的前提下,只需贡献相应的模型更新就可以共同训练一个强大的模型,在一定程度上保护了用户的隐私。但同时,作为一个实时更新,多人参与的学习框架,联邦学习面临着一个严峻的问题,即当之前参与学习的用户提出离开联邦时,应切实删除他们的私人数据,保证不再使用。这种做法可以进一步缓解用户的担忧,提升用户对于联邦学习的信任度。已经有一些数据法案明确规定了用户享有数据遗忘权,例如通用数据保护法规(GDPR)和加州消费者隐私法(CCPA)等。国外的一些大型互联网企业(谷歌和苹果)也在日渐严苛的法律要求下开始落实对于数据遗忘权的保护措施。学术圈已有一些关于主动遗忘的工作,包括重训练等。然而,如何执行具体的遗忘操作不是遗忘用户真正关心的,用户所关心的是是否提供了可以量化的验证手段检查服务器端是否切实执行了一些有效的遗忘方法。然而联邦学习中的遗忘验证不能通过简单的遗忘用户的个人数据上的性能判断,因为联邦学习是一种分布式协作学习框架,个人退出对于大规模联邦学习的影响较小,其他人的贡献使得联邦学习的全局模型依然能在遗忘用户的个人数据上维持较好的性能。同时,考虑到验证遗忘时,需要接触全局模型,而此时的全局模型已经不再是由遗忘用户贡献的,因此遗忘用户不应该再以白盒的方式访问全局模型,这会引发公平性问题。服务器也可能采取一些适应性手段来欺骗遗忘验证方法。因此,如何设计一种安全鲁棒的黑盒场景下的联邦遗忘验证算法以高效可靠可信地验证服务器端的遗忘情况,是目前有效验证数据遗忘权是否被正常提供的一大难题。
[0003]一种有效验证联邦学习中的数据遗忘的可能解决方案是以某种方式标记遗忘用户,并检查该遗忘用户离开后标记是否被清除。潜在的假设是,标记可以有效地唯一标记该遗忘用户。完整的验证过程分为两个阶段:标记和检查。联邦遗忘验证中的标记功能需要一些特定的特征,包括专一性(特定属于离开用户)、持久性(持久验证遗忘)、鲁棒性(针对服务器端采用的一些适应性的试图欺骗遗忘验证方法的手段)等。针对每种标记方法,检查全局模型在标记/验证数据上的性能,评估服务器端是否切实执行了相应的遗忘措施。

技术实现思路

[0004]针对现有联邦学习遗忘验证的匮乏,本专利技术公开了一种联邦学习中在黑盒场景下基于对抗样本的鲁棒水印遗忘验证方法,该方法利用被遗忘的模型在对抗样本上的鲁棒性能来形成特定的水印标记遗忘用户和验证遗忘情况。
[0005]本专利技术的目的是通过以下技术方案来实现的:一种联邦学习中在黑盒场景下基于
对抗样本的鲁棒水印遗忘验证方法,该方法利用被遗忘的模型在对抗样本上的鲁棒性能来形成特定的水印标记遗忘用户和验证遗忘情况,该方法包括数据自动筛选阶段、数据增广阶段、对抗样本生成阶段、对抗训练阶段、以及检查遗忘阶段;
[0006]所述数据自动筛选阶段,随机筛选出遗忘用户本地数据集S中的固定比例的数据集S1;
[0007]所述数据增广阶段,对S1中的数据进行基础的数据增广,包括切换视角、随机模糊、色彩抖动和随机旋转,形成增广后的数据集S2;
[0008]所述对抗样本生成阶段,利用对抗样本生成算法微调S2中的增广数据生成对应的对抗样本,这些对抗样本在人眼看上去与正常样本差别不大,但输入到模型中将得到完全不同的输出;将这些对抗样本和它们正确的类别组合得到验证数据集S3;
[0009]所述对抗训练阶段,将遗忘用户本地模型在对抗样本验证数据集S3和原始的本地数据集S上进行对抗训练,从而将水印嵌入到本地模型中,这里嵌入的水印对应S3中对抗样本上正确的原始类别;嵌入水印后的本地模型上传给中心服务器聚合,生成下一个周期的全局模型;
[0010]所述检查遗忘阶段,遗忘用户通过黑盒访问接下来若干个周期的全局模型提取水印,提取的水印由全局模型在S3中的对抗样本上的输出类别形成,并根据提取出的水印验证遗忘情况。
[0011]进一步地,这种对水印依赖的对抗样本的鲁棒行为是遗忘用户个人私有的,且这种特定的对抗样本和对应的正确标签的组合是唯一属于且能够标记该用户的,并且这种由嵌入水印所带来的模型对于对抗样本的鲁棒性还可以作为一种数据增广的手段,提升全局模型的鲁棒性。
[0012]进一步地,所述数据增广阶段,对S1中的数据进行基础的数据增广形成增广后的数据集S2,这些增广数据直接作为生成水印依赖的对抗样本的初始数据,能够将水印稳定地嵌入模型中并用来验证遗忘情况和提升模型鲁棒性,并且这些增广后的数据能够进一步扩大遗忘用户的数据与其他未增广的参与者的数据的差异,提升遗忘用户数据的唯一性。
[0013]进一步地,所述对抗样本生成阶段具体为,利用已有的对抗样本生成算法微调S2中的增广数据生成相应的对抗样本,这些对抗样本在人眼看上去与正常样本差别不大,但输入到模型中将得到完全不同的输出;将这些对抗样本和它们正确的类别组合得到验证数据集S3;原始的数据集中并不存在这些对抗样本,尤其是基于数据增广后生成的对抗样本,这些对抗样本以较小的概率出现在互不相交的其他参与者的本地数据中,有较高的概率是遗忘用户独有的。
[0014]进一步地,所述对抗训练阶段中,将本地模型在原始的本地数据集S和对抗样本组成的验证数据集S3上进行对抗训练,从而将水印嵌入到本地模型中;这里嵌入的水印对应S3中对抗样本上正确的原始类别;嵌入水印后的本地模型上传给中心服务器聚合,生成下一个周期的全局模型;对抗训练能够提升模型对于靠近模型决策边界的对抗样本的鲁棒性,将它们正确分类到相应的类别,也即将水印成功嵌入到模型中;对抗训练后的模型将在水印依赖的对抗样本验证数据集S3上保持较高的准确率,也即表现出较强的鲁棒性;这是独属于遗忘用户标记过的嵌入水印的模型的特定行为;究其原因,对抗训练修改了模型的决策边界,使得模型能够在决策边界附近的对抗样本上保持一个较高的准确率。
[0015]进一步地,所述检查遗忘阶段中,只有标记后的本地模型在S3上保持较高的准确率,其他用户的模型不足以使全局模型具备这样的性质,所以通过检查全局模型在S3上的准确率来判断是否成功遗忘该用户。具体来说,遗忘用户通过黑盒访问接下来若干个周期的全局模型提取水印,提取的水印由全局模型在S3中的对抗样本上的输出类别形成,根据提取的水印与原始嵌入水印的对比结果,得出联邦遗忘验证结果的可信度。
[0016]具体来说,公式如下:
[0017]我们用零假设H0表示服务器确实执行了遗忘操作,备择假设H
a
表示服务器没有执行遗忘操作。如果服务器执行了遗忘操作,则遗忘后的全局模型将以较小的概率在S3中的对抗样本χ
adv
上输出正确的原始类别y,G
t
代表遗忘用户离开之后由其他参与者贡献的全局模型;将遗忘用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联邦学习中在黑盒场景下基于对抗样本的鲁棒水印遗忘验证方法,其特征在于,该方法包括数据自动筛选阶段、数据增广阶段、对抗样本生成阶段、对抗训练阶段、以及检查遗忘阶段;所述数据自动筛选阶段,随机筛选出遗忘用户本地数据集S中的固定比例的数据集S1;所述数据增广阶段,对S1中的数据进行基础的数据增广,包括切换视角、随机模糊、色彩抖动和随机旋转,形成增广后的数据集S2;所述对抗样本生成阶段,利用对抗样本生成算法微调S2中的增广数据生成对应的对抗样本,这些对抗样本在人眼看上去与正常样本差别不大,但输入到模型中将得到完全不同的输出;将这些对抗样本和它们正确的类别组合得到验证数据集S3;所述对抗训练阶段,将遗忘用户本地模型在对抗样本验证数据集S3和原始的本地数据集S上进行对抗训练,从而将水印嵌入到本地模型中,这里嵌入的水印对应S3中对抗样本上正确的原始类别;嵌入水印后的本地模型上传给中心服务器聚合,生成下一个周期的全局模型;所述检查遗忘阶段,遗忘用户通过黑盒访问接下来若干个周期的全局模型提取水印,提取的水印由全局模型在S3中的对抗样本上的输出类别形成,并根据提取出的水印验证遗忘情况。2.根据权利要求1所述的一种联邦学习中在黑盒场景下基于对抗样本的鲁棒水印遗忘验证方法,其特征在于,这种对水印依赖的对抗样本的鲁棒行为是遗忘用户个人私有的,且这种特定的对抗样本和对应的正确标签的组合是唯一属于且能够标记该用户的,并且这种由嵌入水印所带来的模型对于对抗样本的鲁棒性还可以作为一种数据增广的手段,提升全局模型的鲁棒性。3.根据权利要求1所述的一种联邦学习中在黑盒场景下基于对抗样本的鲁棒水印遗忘验证方法,其特征在于,所述数据增广阶段,对S1中的数据进行基础的数据增广形成增广后的数据集S2,这些增广数据直接作为生成水印依赖的对抗样本的初始数据,能够将水印稳定地嵌入模型中并用来验证遗忘情况和提升模型鲁棒性,并且这些增广后的数据能够进一步扩大遗忘用户的数据与其他未增广的参与者的数据的差异,提升遗忘用户数...

【专利技术属性】
技术研发人员:高向珊王竟亦程鹏陈积明
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1