一种联邦学习的数据处理方法、装置、设备、介质及产品制造方法及图纸

技术编号：42814843 阅读：17 留言：0更新日期：2024-09-24 20:55

本申请提供一种联邦学习的数据处理方法、装置、设备、介质及产品。该方法包括：确定目标参与方的本地数据对应的本地类别分布；将所述本地类别分布发送至服务器，以供所述服务器根据各个参与方的本地类别分布，确定全局类别分布，并根据各个参与方的分布相似度和所述全局类别分布，确定各个参与方的贡献度；获取所述服务器发送的目标参与方的贡献度，并根据所述贡献度，对利用本地数据训练得到的本地模型添加噪声，得到加噪后的模型，并将所述加噪后的模型发送给所述服务器，以供所述服务器根据各个参与方发送的加噪后的模型得到聚合模型。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据安全领域，尤其涉及一种联邦学习的数据处理方法、装置、设备、介质及产品。

技术介绍

1、在智慧医疗、工业互联网、数字城市等现实场景下，通过机器学习可以自动挖掘不同场景的数据中蕴藏的信息。传统的机器学习算法需要将数据集中存储，这在实际应用中面临着隐私泄露的风险，因此，为了解决这一问题，联邦学习应运而生。

2、联邦学习算法以保护隐私数据为前提，以“数据不动模型动”的方式，即通过在中央服务器预训练一个模型，然后将该模型分享给每个参与方，参与方利用自身的数据在本地对该模型进行训练，然后将训练好的模型发送至中央服务器，中央服务器接收所有参与方的模型后，将所有参与方的模型进行聚合，得到一个全局模型，然后再将全局模型分享给每个参与方。联邦学习让原始数据不出本地，只共享加密的模型参数，很好地平衡了数据利用与隐私保护。但是，在参与方将模型发送至中央服务器的过程中，攻击者可能会获取到该模型，并利用生成对抗网络，可以根据该模型的参数间接推断出数据，进而造成隐私泄露。

3、现有技术中，为了保护参与方的隐私，利用基于本地化差分隐私的联邦学习算法对模型进行处理，但是，本地化差分隐私的联邦学习算法会破坏模型中的有效信息，导致模型训练效果不佳，因此，如何在避免隐私泄露的基础上提升模型的训练效果，成为亟待解决的问题。

技术实现思路

1、本申请提供一种联邦学习的数据处理方法、装置、设备、介质及产品，用以保护模型中的有效信息，进而提升模型的训练效果。

2、第一方面，本申请

3、确定目标参与方的本地数据对应的本地类别分布；

4、将所述本地类别分布发送至服务器，以供所述服务器根据各个参与方的本地类别分布，确定全局类别分布，并根据各个参与方的分布相似度和所述全局类别分布，确定各个参与方的贡献度；

5、获取所述服务器发送的目标参与方的贡献度，并根据所述贡献度，对利用本地数据训练得到的本地模型添加噪声，得到加噪后的模型，并将所述加噪后的模型发送给所述服务器，以供所述服务器根据各个参与方发送的加噪后的模型得到聚合模型；

6、其中，所述本地类别分布用于表征所述目标参与方的本地数据在多个类别上的分布情况，所述全局类别分布用于表征多个参与方的本地数据在多个类别上的分布情况，任一参与方对应的分布相似度用于表征该参与方的本地数据分布与全局类别分布的相似度。

7、可选地，如上所述的方法，所述根据所述贡献度，对利用本地数据训练得到的本地模型添加噪声，包括：

8、获取所述服务器发送的总贡献度；其中，所述总贡献度是由所述服务器对所述各个参与方的贡献度进行叠加处理确定的；

9、根据所述贡献度、所述总贡献度和预设初始噪声规模，得到与所述贡献度成负相关的噪声规模；

10、根据所述噪声规模，对所述本地模型添加噪声。

11、可选地，如上所述的方法，所述根据所述贡献度、所述总贡献度和所述预设初始噪声规模，得到与所述贡献度成负相关的噪声规模，包括：

12、对所述总贡献度与所述贡献度进行作差处理，获取贡献度差值；

13、对所述贡献度差值与所述总贡献度进行比值处理，获取贡献度比例；

14、对所述贡献度比例与所述预设初始噪声规模作乘积处理，得到噪声规模。

15、可选地，如上所述的方法，所述目标参与方用于对本地模型执行多个轮次的训练；所述根据所述贡献度，对利用本地数据训练得到的本地模型添加噪声，得到加噪后的模型，并将所述加噪后的模型发送给所述服务器，以供所述服务器根据各个参与方发送的加噪后的模型得到聚合模型之前，所述方法还包括：

16、在当前轮次中，确定上一轮次的本地模型和当前的聚合模型的模型相似度，并根据所述模型相似度对所述当前本地模型中的参数进行裁剪处理，以获取裁剪后的模型；

17、则所述根据所述贡献度，对利用本地数据训练得到的本地模型添加噪声，得到加噪后的模型，并将所述加噪后的模型发送给所述服务器，以供所述服务器根据各个参与方发送的加噪后的模型得到聚合模型，包括：

18、根据所述贡献度，对裁剪后的模型添加噪声，得到裁剪加噪模型，并将所述裁剪加噪模型发送给所述服务器，以供所述服务器根据各个参与方发送的裁剪加噪模型得到聚合模型。

19、可选地，如上所述的方法，所述根据所述模型相似度对所述当前本地模型中的参数进行裁剪处理，包括：

20、将所述模型相似度进行归一化处理，得到归一化模型相似度；

21、根据所述归一化模型相似度和预设初始裁剪阈值的乘积，得到裁剪阈值，并根据所述裁剪阈值，对所述当前本地模型中的参数进行裁剪处理。

22、可选地，如上所述的方法，所述聚合模型为用于预测类别的模型，所述多个类别为所述聚合模型可预测的多个类别；所述确定目标参与方的本地数据对应的本地类别分布，包括：

23、获取所述目标参与方的本地数据，并将所述本地数据按照所述多个类别进行分类处理，获取各个类别对应的本地数据；

24、对所述各个类别对应的本地数据进行统计处理，以获取本地类别分布。

25、第二方面，本申请提供一种联邦学习的数据处理方法，应用于服务器，所述方法包括：

26、根据各个参与方发送的本地类别分布，确定全局类别分布，并根据各个参与方的分布相似度和所述全局类别分布，确定各个参与方的贡献度；

27、向各个参与方发送对应的贡献度，以供参与方根据所述贡献度，对利用本地数据训练得到的本地模型添加噪声，得到加噪后的模型；

28、获取各个参与方发送的加噪后的模型，并将所述加噪后的模型进行聚合处理，以获取聚合模型；

29、其中，任一参与方的本地类别分布用于表征该参与方的本地数据在多个类别上的分布情况，所述全局类别分布用于表征多个参与方的本地数据在多个类别上的分布情况，任一参与方对应的分布相似度用于表征该参与方的本地数据分布与全局数据分布的相似度。

30、可选地，如上所述的方法，所述根据各个参与方的分布相似度和所述全局类别分布，确定各个参与方的贡献度，包括：

31、获取所述各个参与方的分布相似度，并确定所述各个参与方的分布相似度是否大于预设相似度阈值；

32、若确定所述各个参与方的分布相似度大于所述预设相似度阈值，则根据所述各个参与方的分布相似度与预设常数的乘积，得到各个参与方的贡献度。

33、第三方面，本申请提供一种联邦学习的数据处理装置，应用于多个参与方中的任一目标参与方，包括：

34、处理模块，用于确定目标参与方的本地数据对应的本地类别分布；

35、收发模块，用于将所述本地类别分布发送至服务器，以供所述服务器根据各个参与方的本地类别分布，确定全局类别分布，并根据各个参与方的分布相似度和所述全局类别分布，确定各个参与方的贡献度；

36、所述收发本文档来自技高网...

【技术保护点】

1.一种联邦学习的数据处理方法，其特征在于，应用于多个参与方中的任一目标参与方，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述贡献度，对利用本地数据训练得到的本地模型添加噪声，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述贡献度、所述总贡献度和预设初始噪声规模，得到与所述贡献度成负相关的噪声规模，包括：

4.根据权利要求1至3任一所述的方法，其特征在于，所述目标参与方用于对本地模型执行多个轮次的训练；所述根据所述贡献度，对利用本地数据训练得到的本地模型添加噪声，得到加噪后的模型，并将所述加噪后的模型发送给所述服务器，以供所述服务器根据各个参与方发送的加噪后的模型得到聚合模型之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述模型相似度对所述当前本地模型中的参数进行裁剪处理，包括：

6.根据权利要求1所述的方法，其特征在于，所述聚合模型为用于预测类别的模型，所述多个类别为所述聚合模型可预测的多个类别；所述确定目标参与方的本地数据对应的本地类别分布，包括：p>

7.一种联邦学习的数据处理方法，其特征在于，应用于服务器，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述根据各个参与方的分布相似度和所述全局类别分布，确定各个参与方的贡献度，包括：

9.一种联邦学习的数据处理装置，其特征在于，应用于多个参与方中的任一目标参与方，包括：

10.一种联邦学习的数据处理装置，其特征在于，应用于服务器，包括：

11.一种电子设备，其特征在于，包括：存储器和处理器；其中，

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的方法。

13.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至8任一项所述的方法。

...

【技术特征摘要】

1.一种联邦学习的数据处理方法，其特征在于，应用于多个参与方中的任一目标参与方，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述贡献度，对利用本地数据训练得到的本地模型添加噪声，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述贡献度、所述总贡献度和预设初始噪声规模，得到与所述贡献度成负相关的噪声规模，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述模型相似度对所述当前本地模型中的参数进行裁剪处理，包括：

6.根据权利要求1所述的方法，其特征在于，所述聚合模型为用于预测类别的模型...

【专利技术属性】
技术研发人员：姜慧，孔祥斌，林敏，张晓东，金赛辉，
申请(专利权)人：中国联合网络通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人