一种基于合同理论激励机制的联邦学习数据共享方法技术

技术编号：41345381 阅读：7 留言：0更新日期：2024-05-20 10:01

一种基于合同理论激励机制的联邦学习数据共享方法。针对联邦学习中的Non‑IID问题，本发明专利技术在联邦学习数据预处理阶段加入了基于合同理论的激励机制，考虑了边缘节点在实际场景中存在理性自私等主观因素，从数据敏感度、数据稀缺度等多重因素衡量节点的隐私成本，通过任务发布平台以本地节点、中心服务器的效用最大化为目标制定最优合同，并将合同下发给节点，采用单数据类型的合同交互方式，排除数据分布对数据质量校验的影响，提高了校验的准确度，校验合格的分发合同类型对应的奖励，激励节点共享出数据样本以构造数据量更多、数据质量更好、数据分布更均匀的全局共享数据集，并下发共享数据集给各节点，以此来缓解Non‑IID问题，提高模型识别精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于联邦学习，具体涉及一种基于合同理论激励机制的联邦学习数据共享方法。

技术介绍

1、近年来，联邦学习作为一种云端协同分布式机器学习框架，通过上传模型参数而非原始数据，缓解了传统以云为中心的集中式机器学习网络资源开销大和数据隐私可能存在大量泄漏的问题，边缘节点和云之间协同训练，消除了数据孤岛的现象，在医疗保健、交通、金融、智能家居等领域被广泛应用。

2、在联邦学习中，数据采集并存储在边缘节点本地，很容易因地理位置、边缘节点习惯、边缘节点亲属关系以及数据采集生产时机差异等原因，造成节点间数据的非独立同分布(non-iid)问题，所以non-iid问题在联邦学习中是一种很常见但非常影响联邦学习模型准确度的现象。

3、数据共享方法是从数据根源出发来缓解non-iid问题的方法之一，相比于其他在联邦学习训练阶段缓解non-iid问题的方法有部署实施简单、模型识别性能提升快、可移植性强等优势。具体是通过从边缘节点抽取少量数据样本来构建全局共享数据集，并将全局共享数据集下发给各边缘节点，以此来平衡边缘节点数据样本的分布不均匀，减小边缘节点间数据的non-iid程度，最终达到提高模型识别准确率的目的。

4、但是传统的数据共享方法未考虑到边缘节点的主观性，边缘节点可能会上传低质量甚至有害数据，同时边缘节点的本地数据样本是消耗了节点本地资源以及包含了节点的隐私成本，在现实场景中，大多用户都是理性自私的，不愿共享出自己本地的数据样本，所以共享出来数据的质量和数量难以保障。并且，平台是不知晓各边缘节点的数

技术实现思路

1、针对现有技术中存在的不足，本专利技术的目的在于提供一种基于合同理论激励机制的联邦学习数据共享方法。考虑了边缘节点的主观能动性，构建了边缘节点和任务发布平台之间的合同激励机制，并采用单类型数据共享的合同交互方式，一定程度上解决了节点不愿共享数据或者共享低质甚至有害数据的问题。并且节点可以根据自身数据情况，选择合适的合同类型，上传合同意愿，平台根据合同意愿并结合对该类型数据的需求进行挑选，解决了因平台不知晓各节点数据的分布而无法在当前情况下构造最优分布的全局共享数据集的问题。

2、本专利技术所采取的技术方案如下：

3、一种基于合同理论激励机制的联邦学习数据共享方法，包括以下步骤：

4、步骤1：任务发布平台基于合同理论，构建边缘节点和任务发布平台之间的合同模型，采用单类型数据共享方式和合同交互方式，同时满足个体理性约束、激励相容约束，以边缘节点、任务发布平台的效用最大化为目标，求解最优合同优化问题，得到不同合同类型对应的奖励，完成合同的制作；

5、所述步骤1的具体过程，包括以下步骤：

6、步骤1.1：设计共享数据合同内容。合同的类型主要通过共享的数据量(g)和共享数据的数据质量(dq)两个维度来衡量，合同类型数值和数据量呈正相关，和数据质量呈正相关。fj代表合同的类型数值，j越小表示fj类型数值越小，合同类型越差，任务发布平台所能提供的奖励值rj(fj)越少。(fj，rj(fj))关系如式(1)所示：

7、

8、步骤1.2：构建边缘节点的效用模型；

9、边缘节点的效用模型分为没有数据共享的边缘节点和有数据共享的边缘节点；具体包括以下步骤：

10、步骤1.2.1：建立没有数据共享的边缘节点其效用函数，如式(2)所示：

11、

12、其中，r′表示没有数据共享只有通过参与联邦学习训练获得的奖励值，即收益。因为合同的内容设计只关注共享数据的数据质量和数据数量，同时也是为了简化最优合同的计算推导，所以将所有参与的边缘节点的计算能力和计算资源都假定为相同的。没有数据共享的边缘节点在联邦学习一轮全局迭代的总能耗均一致，任务发布平台给予的奖励值也均一致为r′。成本函数中μ是能耗的预定义权重参数，是没有数据共享的边缘节点n的一轮全局迭代总能耗。总能耗如式(3)所示：

13、

14、其中，为全局精度固定时，局部迭代次数。εn为本地精度，表示该边缘节点的本地数据质量。当假设εn只与emd变量相关时，εn＝a·arctan(b·emd+c)，a，b，c为在不同模型及不同类型数据集下emd对εn的影响系数。emd是用来衡量边缘节点的数据分布偏度，以此来反映各边缘节点间的non-iid程度。为一次局部训练的计算能耗，为传输模型参数的通信能耗。

15、步骤1.2.2：建立有数据共享并且选择的合同类型为fj的边缘节点的效用函数，如式(4)所示：

16、

17、其中，rj为合同类型fj对应的奖励值，即收益。表示该类型边缘节点的总成本函数。总成本函数如式(5)所示：

18、

19、其中，为选择合同类型为fj节点的一轮全局迭代总能耗。总能耗如式(6)所示：

20、

21、有数据共享节点的一轮全局迭代总能耗与没有数据共享的节点相比，在通信能耗上多了传输共享数据的传输能耗。通信能耗如式(7)所示：

22、

23、其中，表示通信总时间。通信总时间包含传输模型参数的通信时间和传输共享数据的通信时间，p表示节点的传输功率。通信总时间如式(8)所示：

24、

25、其中，δ为模型参数的数据量大小，r为节点的传输速率，σsample·gj表示该节点共享的所有数据的数据量大小。同时，因为在构造效用模型时都是基于在一次全局迭代范围的，而节点的共享数据样本是在联邦学习训练之前进行的，所以除以整个联邦学习的全局迭代次数k，将传输共享数据的通信能耗平均分配到每一次全局迭代的计算中。总成本函数中的隐私成本乜是将数据共享阶段产生的隐私成本平均地分配到每一次的全局迭代计算中。

26、边缘节点的隐私成本pc主要和数据敏感度(ds)、数据稀缺度(dr)、数据的共享量(g)、数据本身的质量(dq)呈正相关，关系如式(9)所示：

27、pcj＝wds·dsj+wdr·dr+wg·gj+wdq·dqj (9)

28、其中，wds，wdr，wg，wdq为隐私成本中不同因素的影响权重。

29、数据敏感度(ds)主要由识别图像的风险领域(v)、风险等级(l)、数据提供者的风险偏好(ra)共同决定。不同风险领域用vm表示，例如：v1表示社交媒体领域，v2表示医疗领域。风险等级用li表示，[0，1]为li的取值范围，其中1≤i≤k，i越大，li的取值越大，风险等级越高。例如，在医疗领域中胸部x光图片比皮肤病变图片包含更多患者身体的详细结构，胸部x光图片的风险等级更高。若胸部x光图片的风险等级为li，皮肤病变图片的风险等级为lj，则1≤j＜i，lj＜li。本文档来自技高网...

【技术保护点】

1.一种基于合同理论激励机制的联邦学习数据共享方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于合同理论激励机制的联邦学习数据共享方法，其特征在于，所述步骤1的具体过程，包括以下步骤:

3.根据权利要求1所述的一种基于合同理论激励机制的联邦学习数据共享方法，其特征在于，所述步骤6的具体过程，包括以下步骤:

4.根据权利要求1所述的一种基于合同理论激励机制的联邦学习数据共享方法，其特征在于，所述步骤7的具体过程，包括以下步骤:

【技术特征摘要】

1.一种基于合同理论激励机制的联邦学习数据共享方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于合同理论激励机制的联邦学习数据共享方法，其特征在于，所述步骤1的具体过程，包括以下步骤:

3.根据权利要...

【专利技术属性】
技术研发人员：曲大鹏，温泽宇，柴琦晟，刘宇铎，程子傲，吴振滨，
申请(专利权)人：辽宁大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人