基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法技术

技术编号:29313837 阅读:11 留言:0更新日期:2021-07-17 02:31
本发明专利技术公开了一种基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法,设有中央服务器和若干个客户端,对若干个客户端的本地模型进行N轮训练并进行添加噪声后上传至中央服务器,对中央服务器的全局模型进行迭代训练。本发明专利技术不仅可以有效防止攻击者从客户端提交的训练模型参数中逆向腿短得到客户端参与者信息,同时还可以解决因为添加噪声导致的数据可用性下降的问题。通过私有化梯度之间的瑞丽距离计算噪声分布下的隐私预算,寻求隐私预算和识别准确率最佳的噪声分布进行添加,以实现隐私与性能的最佳平衡点。隐私与性能的最佳平衡点。隐私与性能的最佳平衡点。

【技术实现步骤摘要】
基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法


[0001]本专利技术涉及数据安全领域,尤其是指基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法。

技术介绍

[0002]联邦学习最早由McMahan等人在2016年提出:“我们之所以将我们的方法称为联邦学习,因为学习任务是通过由中央服务器协调的参与设备的松散联邦来解决的”。在联邦学习中,参与者通过接收当前最新的全局模型并在本地利用自身的数据集对全局模型进行迭代训练。训练完成后,将得到的本地模型参数上传给中央服务器。中央服务器对接收到的模型参数聚合得到新一轮的全局模型参数,因此联邦学习中将整个机器学习流程分解为最小的模块化单元,通过数据最小化为参与的用户提供一定程度上的隐私保护。参与者将训练完成的模型参数提交给中央服务器而不是提交原始数据。这样一来,原始数据保留在参与者本地而不是上传给中央服务器,在最大程度上防止参与者隐私泄露。
[0003]虽然联邦学习通过聚合多方训练模型参数而非原始数据集的方式,在最大程度上保护了用户数据隐私安全,但即便如此,攻击者仍可能通过某些手段可以从联邦学习训练过程中传输的模型参数信息中获取某些敏感信息,攻击者可以通过逆向学习的方式推断部分甚至全部数据。在文献“Deep leakage from gradients”中的研究表明,攻击者可以在无需任何有关训练集的先验知识的前提下从共享的模型参数中推断出标签并恢复原始训练样本,因此直接传输模型参数并不能很好地保护数据隐私,仍需要一种机制对传输的模型参数进行保护。
[0004]目前常见的方法是在模型训练过程中通过对模型参数添加满足差分隐私要求的噪声来实现联邦学习下的数据隐私保护。差分隐私最早由Dwork等人在文献“The algorithmic foundations of differential privacy”提出,其核心是通过对数据添加服从特定分布的扰动以及噪声信息,使这些数据仍保持统计意义,但攻击者无法通过分析数据结果得到用户的准确某一信息。对于任意两个相邻数据集和,给定某种随机化算法F,将其分别作用于相邻数据集和,有以下式子:;其中,S为所有可能输出结果的集合,表示中的数据被推测得到的概率。若满足上述公式,则称随机化算法提供差分隐私保护。称为差分隐私预算,该参数用于衡量差分隐私系统对数据隐私保护的强度。的值越小,两个概率值就越相似,差分隐私的保护效果就越好,但是差分隐私预算越小,也意味着向原始数据添加的噪声越大,影响原始数据的实用性。
[0005]满足该定义的随机化算法F解决了攻击者可能通过分析数据从而得到某个具体信息的问题,因为即使攻击者将某条特定数据抽离,对特定统计结果不会产生过大影响。因此攻击者难以通过构造相邻数据集的方式分析特定信息与数据集中某些信息的关系。在实际使用中,常选择随机噪声作为某种随机化算法F,通常选择的噪声机制有一般的,为了对数据形的值进行隐私保护,引入拉普拉斯的噪声机制和高斯分布分布机制等。通过向原始数据加入噪声的办法,可以保护数据的隐私,但同时也会影响数据可用性数据可用性下降,训练后的模型的准确性大大降低。

技术实现思路

[0006]本专利技术的目的是克服现有技术中的缺陷,提供一种基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法。
[0007]本专利技术的目的是通过下述技术方案予以实现:基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法,设有中央服务器和若干个客户端,对若干个客户端的本地模型进行N轮训练并进行添加噪声后上传至中央服务器,对中央服务器的全局模型进行迭代训练,对于单个客户端的本地模型的某一轮训练,具体包括以下步骤:步骤1,从中央服务器下载全局模型参数作为本地模型参数,本地模型参数为各个损失函数参数,对各个损失函数参数求导得到当前梯度;步骤2,裁剪限定每个当前梯度的敏感度,得到优化梯度值;步骤3,对本地模型进行随机采样得到预选集合,并对预选集合里梯度向量的值进行排序;步骤4,取预选集合里梯度向量前若干个值构成优化梯度向量,寻找预选集合中与优化梯度值余弦距离最近的梯度向量值;步骤5,利用预选集合中与优化梯度值余弦距离最近的梯度向量值对优化梯度值进行编码,计算得到采样率;步骤6,根据采样率对优化梯度值进行编码更新,并对更新后的优化梯度值添加噪声;步骤7,对本地模型参数进行更新;步骤8,通过瑞丽距离计算差分隐私预算;步骤9,通过本地测试数据集对本地模型进行测试得到更新后的本地模型添加噪声分布后的准确率,并计算不同噪声对应的优势值;步骤10,选取优势值最大的噪声分布作为本地模型此轮所添加的噪声,并上传添加该噪声下的本地模型参数至中央服务器。
[0008]本方案中,首先各客户端利用本地数据集结合服务器下载的全局模型参数训练本地模型,然后再本地模型的梯度反向传播过程中对梯度进行编码得到固定维数的私有化梯度,利用私有化梯度之间的瑞丽距离计算任意噪声分布下的差分隐私预算,然后通过计算噪声对应的优势值判别最终最优的噪声分布并实施添加,将添加差分隐私噪声后得到加噪模型传输至中央服务器,中央服务器将各个客户端的加噪模型进行聚合得到全局模型,然后将更新后的全局模型参数下发回各个客户端继续下一轮训练,完成整个联邦学习的过
程。本方案的设计,不仅可以有效防止攻击者从客户端提交的训练模型参数中逆向腿短得到客户端参与者信息,同时还可以解决因为添加噪声导致的数据可用性下降的问题。通过私有化梯度之间的瑞丽距离计算噪声分布下的隐私预算,寻求隐私预算和识别准确率最佳的噪声分布进行添加,以实现隐私与性能的最佳平衡点。
[0009]作为优选,所述的步骤3具体为,通过标准高斯分布中进行随机采样得到n个随机向量,得到预选集合,预选集合中第j个随机向量的维数为k,,对向量各维度的值进行从大到小的排序得到,得到新的集合。
[0010]作为优选,所述的步骤4中,若预选集合里梯度向量的维度数量小于优化梯度向量维度数量,则在预选集合梯度向量从大到小排序后添加0值直到预选集合梯度向量的维度数量与优化梯度向量维度数量相等。
[0011]作为优选,所述的步骤5具体包括以下子步骤:子步骤1,设置变量,初始值为0;子步骤2,遍历优化梯度向量中各变量的值,当遍历某一个变量l时,则执行以下过程:2.1)若则;2.2)若,则编码方式如下:;若,编码方式如下:;其中,为预选集合中与优化梯度值余弦距离最近的梯度向量值,为优化梯度向量;子步骤3,遍历结束后,求出采样率q,。
[0012]作为优选,所述的步骤8具体为:为瑞丽距离中衡量分布距离所使用的范数,是1到的整数, 为第t轮的差分隐私预算;根据差分隐私机制原理,可得到在满足第t轮的差分隐私预算时所使用噪声分布与的对应关系,计算过程如下:。
[0013]作为优选,所述的步骤10具体为选取不同的噪声分布,计算其对应的优势值,选取优势值最大的噪声分布作为添加的噪声分布,以交叉熵作为损失函数,分别计算拉普拉斯
噪声机制和高斯分布机制计算其隐私预算值,以及添加噪声后的模型判别的准确率,若高斯分布噪声对应的值大于拉本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法,其特征是,设有中央服务器和若干个客户端,对若干个客户端的本地模型进行N轮训练并进行添加噪声后上传至中央服务器,对中央服务器的全局模型进行迭代训练,对于单个客户端的本地模型的某一轮训练,具体包括以下步骤:步骤1,从中央服务器下载全局模型参数作为本地模型参数,本地模型参数为各个损失函数参数,对各个损失函数参数求导得到当前梯度;步骤2,裁剪限定每个当前梯度的敏感度,得到优化梯度值;步骤3,对本地模型进行随机采样得到预选集合,并对预选集合里梯度向量的值进行排序;步骤4,取预选集合里梯度向量前若干个值构成优化梯度向量,寻找预选集合中与优化梯度值余弦距离最近的梯度向量值;步骤5,利用预选集合中与优化梯度值余弦距离最近的梯度向量值对优化梯度值进行编码,计算得到采样率;步骤6,根据采样率对优化梯度值进行编码更新,并对更新后的优化梯度值添加噪声;步骤7,对本地模型参数进行更新;步骤8,通过瑞丽距离计算差分隐私预算;步骤9,通过本地测试数据集对本地模型进行测试得到更新后的本地模型添加噪声分布后的准确率,并计算不同噪声对应的优势值;步骤10,选取优势值最大的噪声分布作为本地模型此轮所添加的噪声,并上传添加该噪声下的本地模型参数至中央服务器。2.根据权利要求1所述的基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法,其特征是,所述的步骤3具体为,通过标准高斯分布中进行随机采样得到n个随机向量,得到预选集合,预选集合中第j个随机向量的维数为k,,对向量各维度的值进行从大到小的排序得到,得到新的集合。3.根据权利要求2所述的基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法,其特征是,所述...

【专利技术属性】
技术研发人员:周鹏叶卫王文王政江樱戚伟强郭亚琼王以良陈逍潇张烨华刘若琳陆鑫宋宇波周升邱一川陈超孙嘉赛董科钱经纬徐子超
申请(专利权)人:东南大学国网浙江省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1