System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于核心数据集的分层级隐私保护联邦学习方法技术_技高网

一种基于核心数据集的分层级隐私保护联邦学习方法技术

技术编号:42060964 阅读:5 留言:0更新日期:2024-07-19 16:46
本发明专利技术公开了一种基于核心数据集的分层级隐私保护联邦学习方法,涉及联邦学习安全领域和数据隐私领域,为达到上述目的,本发明专利技术的技术方案首先终端用户根据数据核心度将原始数据划分成核心和非核心数据集。其次,为核心和非核心数据集分别添加不同隐私预算的高斯噪声。然后,合并加噪声后的核心和非核心数据集用于本地模型训练。最后,中心服务器聚集本地模型更新得到全局模型,并下发全局模型给终端用户,迭代以上步骤,直至全局模型收敛。核心数据集中添加相对少的噪声而非核心数据集添加相对多的噪声,以缓解差分隐私机制对模型训练造成的精度损失,进一步量化隐私保护强度并根据模型精度动态调整隐私预算分配,提高模型可用性和收敛性。

【技术实现步骤摘要】

本专利技术涉及一种基于核心数据集的分层级隐私保护联邦学习方法,主要涉及联邦学习安全领域和数据隐私领域。


技术介绍

1、联邦学习是一种分布式的机器学习框架,其核心思想是允许多个分布式终端用户在中心服务器的统一协作下,通过本地训练获得模型参数,中心服务器收集模型参数聚合得到全局模型,并将相应的模型参数返回给参与的终端用户,进行新一轮的模型更新。通过仅在中间过程交换模型参数,不需要直接共享原始数据,达到保护本地数据隐私的目的。

2、然而,联邦学习也存在一些新的隐私泄露问题。第一,不可信的中心服务器可以通过共享的中间参数(如梯度)可以恢复原始的数据集。第二,不可靠的终端用户可以根据中间参数推断出其他用户的模型参数,从而获取其他用户数据。

3、针对这些问题,近年来研究者提出了大量的隐私保护联邦学习方法,这些方法主要是通过差分隐私、同态加密和秘密共享等技术实现隐私保护。这些方法仍然被发现存在一些不足。第一,牺牲了模型的精度。现有的差分隐私保护方法在实现强隐私保护的同时,无法保持高精度的模型训练,即增加隐私保护会降低模型的精度。第二,大部分的差分隐私保护方法主要是采用算法扰动,即在进行模型训练时向迭代算法中的梯度添加噪声,而不是对本地数据集本身添加噪声。

4、事实上,联邦学习中终端设备所采集的原始数据通常包含大量的冗余无效数据,比如图像或者视频数据中变化不明显的部分,这些数据对模型精度的影响是非常有限的。基于此,本专利技术从原始数据集本身出发考虑,将原始数据集划分成核心数据集和非核心数据集。核心数据集对整体模型训练贡献较大,添加相对少的噪声以提高模型训练精度;非核心数据集对整体模型训练贡献较小,即使施加大量输入扰动也不会对模型训练的结果有较多影响。通过划分核心数据集分层级动态调整隐私预算,从而达到提高模型精度,同时保护隐私。

5、基于上述背景,本专利技术提出了一种基于核心数据集的分层级隐私保护联邦学习方法,对数据集本身分层级添加噪声,为联邦学习隐私保护问题的提供新的解决思路。


技术实现思路

1、针对以上现有技术的不足,本专利技术提出一种基于核心数据集的分层级隐私保护联邦学习方法,旨在提供强隐私保护,同时实现模型训练的高精度和快收敛。进一步,量化隐私保护的强度并动态调整隐私预算,从而为不同环境和条件限制下的隐私保护强度与模型精确度之间提供平衡。

2、为达到上述目的,本专利技术的技术方案是:包括以下步骤:

3、步骤s1,构建核心数据集,终端用户根据原始数据集中的数据点间的相似关系和权重计算数据点的核心度,将数据集划分为核心和非核心两个层级的数据集;

4、步骤s2,分层级差分隐私保护,针对核心数据集和非核心数据集,分别设置不同的隐私预算限制加入噪声进行扰动;然后合并扰动后的核心数据集与非核心数据集,得到新数据集;

5、步骤s3,本地模型训练,终端用户在新数据集上进行本地模型训练,并将训练后的模型参数发送给中心服务器;

6、步骤s4,模型聚合,中心服务器收集各终端用户发送的局部模型参数,并加权平均聚合获得全局模型;

7、步骤s5,模型下发,中心服务器下发全局模型,终端用户使用随机梯度下降算法更新本地模型,并开始下一轮迭代;

8、重复步骤s3、s4和s5进行模型训练迭代,直至达到设定的迭代轮数或理想的模型精确度。

9、优选地,所述步骤s1具体包括:

10、步骤s1.1,终端用户计算原始数据集中每个数据点的核心度:

11、

12、其中,si,j表示原始数据集中任意数据点j的核心度;将划分为k个聚类簇cl,在任意的聚类簇cl内部,与数据点j标签相同的数据点集合记为与数据点j标签不相同的数据点集合记为是中所有数据点权重之和,是中所有数据点权重之和,dxi,j是数据点j与中所有数据点的加权距离,是数据点j与中所有数据点的加权距离,ρi,j是数据点j的权重;

13、步骤s1.2,计算原始数据集中所有数据点的核心度的平均值,在原始数据集中核心度超过平均值的数据点组成核心数据集其余的数据点组成非核心数据集

14、优选地,所述步骤s2具体包括:核心数据集的隐私预算是∈c,非核心数据集的隐私预算是∈n,即∈c大于∈n;根据已分配的隐私预算值,对数据集分层加噪,进行输入扰动;然后将核心数据集和非核心数据集合并构成新数据集

15、优选地,所述步骤s2,使用高斯机制,根据设置的隐私预算值生成噪声noise。对于任意的查询函数d为输入的数据集,d'是与d只有一条数据不同的相邻数据集,为函数输出的d维向量,高斯机制的灵敏度满足:δf=maxd,d'||f(d)-f(d')||2,高斯机制是向f的真实输出添加分布为noise(0,σ2)的噪声。对于任意的δ∈(0,1),高斯机制的输出满足:在本方法中,高斯噪声的均值为0,标准差为1/∈。

16、优选地,所述步骤s2具体包括:

17、步骤s2.1,设定隐私预算;核心数据集的隐私预算是∈c,非核心数据集的隐私预算是∈n;

18、步骤s2.2,从高斯分布中采样(0,1/∈c)和(0,1/∈n)分别获取噪声noisec和noisen;

19、步骤s2.3,针对核心数据集和非核心数据集分别加入噪声noisec和noisen,即

20、步骤s2.4,合并加入噪声后的数据集生成新的数据集

21、优选地,所述步骤s3具体包括:各参与的终端用户从中心服务器处下载初始模型,分别使用各自的数据集训练模型,并将模型参数更新发送至中心服务器处。

22、优选地,所述步骤s4使用联邦平均算法聚合各本地模型获得全局模型。

23、优选地,所述步骤s4具体包括:

24、步骤s4.1,收集各终端用户的本地模型参数

25、步骤s4.2,中心服务器将收到的模型参数,选择其中部分进行聚合。即对收到的模型参数使用加权平均:

26、

27、其中,k是选择参与训练终端用户数,是聚合后的全局模型参数,是在新数据集上训练获得的本地模型参数;

28、步骤s4.3,根据全局模型参数可以获得全局模型:

29、优选地,所述步骤s5具体包括:中心服务器下发全局模型,终端用户使用联邦随机梯度下降算法计算更新本地模型。

30、优选地,所述步骤s5具体包括:

31、步骤s5.1,中心服务器将全局模型参数下发至各终端用户;

32、步骤s5.2,终端用户收到更新的全局模型参数后,在本地训练中计算模型参数的梯度:

33、

34、其中,b是本地训练周期中的本地批量b中的一部分,表示在给定的模型参数对b进行预测所得到的损失结果,根据损失函数得到本地数据的梯度η是学习率;

35、步骤s5.3,终端用户更新本地模型参数:

36、

37、第k个终本文档来自技高网...

【技术保护点】

1.本专利技术的技术方法为一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于,包括以下步骤:

2.如权利要求1所述一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于,所述步骤S1具体包括:

3.如权利要求1所述一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于:所述步骤S2具体包括:核心数据集的隐私预算是∈C,非核心数据集的隐私预算是∈N,即∈C大于∈N;根据已分配的隐私预算值,对数据集分层加噪,进行输入扰动;然后将核心数据集和非核心数据集合并构成新数据集

4.如权利要求3所述一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于:所述步骤S2,使用高斯机制,根据设置的隐私预算值生成噪声noise;对于任意的查询函数f:D为输入的数据集,D'是与D只有一条数据不同的相邻数据集,为函数输出的d维向量,高斯机制的灵敏度满足:Δf=maxD,D'||f(D)-f(D')||2,高斯机制是向f的真实输出添加分布为noise(0,σ2)的噪声;对于任意的δ∈(0,1),高斯机制的输出满足:在本方法中,高斯噪声的均值为0,标准差为1/∈。

5.如权利要求4所述一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于:所述步骤S2具体包括:

6.如权利要求1所述一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于:所述步骤S3具体包括:各参与的终端用户从中心服务器处下载初始模型,分别使用各自的数据集训练模型,并将模型参数更新发送至中心服务器处。

7.如权利要求1所述一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于:所述步骤S4使用联邦平均算法聚合各本地模型获得全局模型。

8.如权利要求7所述一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于:所述步骤S4具体包括:

9.如权利要求1所述一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于:所述步骤S5具体包括:中心服务器下发全局模型,终端用户使用联邦随机梯度下降算法计算更新本地模型。

10.如权利要求9所述一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于:所述步骤S5具体包括:

...

【技术特征摘要】

1.本发明的技术方法为一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于,包括以下步骤:

2.如权利要求1所述一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于,所述步骤s1具体包括:

3.如权利要求1所述一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于:所述步骤s2具体包括:核心数据集的隐私预算是∈c,非核心数据集的隐私预算是∈n,即∈c大于∈n;根据已分配的隐私预算值,对数据集分层加噪,进行输入扰动;然后将核心数据集和非核心数据集合并构成新数据集

4.如权利要求3所述一种基于核心数据集的分层级隐私保护联邦学习方法,其特征在于:所述步骤s2,使用高斯机制,根据设置的隐私预算值生成噪声noise;对于任意的查询函数f:d为输入的数据集,d'是与d只有一条数据不同的相邻数据集,为函数输出的d维向量,高斯机制的灵敏度满足:δf=maxd,d'||f(d)-f(d')||2,高斯机制是向f的真实输出添加分布为noise(0,σ2)的噪声;对于任意的δ∈(0,1),高斯机制的输出满足:在本方...

【专利技术属性】
技术研发人员:何凯尹春晓史姣丽胡新荣
申请(专利权)人:武汉纺织大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1