System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及图数据处理,尤其涉及基于隐私保护的图极限估计的联邦图数据增强方法及系统。
技术介绍
1、在网络社交领域,图神经网络在社交网络图数据建模领域展现出卓越性能。然而,其发展仍面临诸多挑战,其中最突出的是数据隐私问题。由于社交网络图数据往往包含敏感信息,难以集中收集,这为传统的集中式训练方法带来了巨大困难。联邦学习(federatedlearning,fl)作为一种新兴的机器学习范式,允许客户端在中央服务器的协调下协作训练模型,不必要共享原始数据。这种方法显著降低了隐私风险,为数据敏感行业提供了协作训练共享gnn模型的机会,由此衍生出了联邦图学习(federated graph learning,fgl)的概念。
2、尽管fgl提供了有前景的解决方案,但在实际应用中仍面临关键挑战,其中最为突出的是参与节点间数据的非独立同分布(non-independently and identicallydistributed,non-iid)特性。这种特性主要源于数据采集设备规格的不一致性和采集对象的差异性。这些因素导致不同客户端之间的本地数据呈现较大的异质性。特别是当客户端的数据来自不同领域时,可能引发fgl的不稳定、模型性能的严重下降。
3、当前,在fgl领域的核心仍然基于原始数据进行模型训练或参数聚合,未能解决数据异质性问题,而现有解决数据异质性问题的主要思路为引入生成式对抗网络,生成虚拟样本及标签并在节点间共享,平衡节点间的数据分布差异;或者利用共享简单的统计数据,但上述两种方法会导致无法准确反映原始社
技术实现思路
1、本专利技术提供基于隐私保护的图极限估计的联邦图数据增强方法及系统,可以解决现有的社交网络图数据增强无法准确反映原始社交网络图数据的拓扑结构特性的问题,并提高隐私保护的安全性。
2、为实现上述目的,本专利技术提供的一种基于隐私保护的图极限估计的联邦图数据增强方法,包括:
3、多个客户端获取社交网络图,并提取所述社交网络图中的社交节点和社交边组成原始图数据集;
4、根据每个所述客户端的本地标签,利用所述原始图数据集生成所述本地标签对应的图极限估计,并将所述图极限估计进行差分隐私操作后共享至服务器端;
5、所述服务器端计算每个所述客户端共享的图极限估计的成对切割距离,并根据所述成对切割距离生成所述图极限估计的多个最近邻,利用局部距离分布计算每个最近邻的自适应阈值,根据所述自适应阈值通过插值混合更新所述图极限估计得到更新的图极限估计,返回更新的图极限估计至客户端;
6、所述客户端接收更新的图极限估计生成待优化图数据集,并按照客户端的本地标签的原始图数据集数量比例对所述待优化图数据集进行图采样得到图增强数据。
7、可选地,所述提取所述社交网络图中的社交节点和社交边组成原始图数据集,包括:
8、利用所述社交节点和连接所述社交节点的社交边组成数据图,并利用客户端对所述数据图进行打标签操作,得到所述原始图数据集。
9、可选地,所述利用所述原始图数据集生成所述本地标签对应的图极限估计,包括:
10、将每个所述客户端的原始图数据集进行图对齐预处理,得到标准图数据集;
11、对所述标准图数据集进行平均化处理,得到平均图数据集;
12、利用奇异值分解和阈值化对所述平均图数据集进行噪声去除处理,得到目标图数据集;
13、将所述目标图数据集利用预设的阶跃函数进行近似图极限处理,得到所述图极限估计。
14、可选地,所述将每个所述客户端的原始图数据集进行图对齐预处理,得到标准图数据集,包括:
15、对每个所述客户端的原始图数据集进行节点度数计算,并对计算得到的每个所述客户端的原始图数据集的节点度数进行归一化处理,得到同尺度节点度数;
16、利用所述同尺度节点度数对每个所述客户端的原始图数据集中的节点数进行降序排列,并提取降序排列中的最大节点数,并将不大于所述最大节点数的图数据集进行节点填充处理,完成所述节点填充处理后得到所述标准图数据集。
17、可选地,所述服务器端计算每个所述客户端共享的图极限估计的成对切割距离,包括:
18、根据预设的采样维度将每个所述客户端的图极限估计进行离散化采样处理,得到多个图极限估计矩阵;
19、采用优化算法提取每个所述图极限估计矩阵的最优顶点排列,并根据所述最优顶点排列优化每个所述图极限估计矩阵,得到多个优化图极限估计矩阵;
20、并利用近似计算所述多个优化图极限估计矩阵之间的切割范数,得到所述图极限估计的成对切割距离。
21、可选地,所述根据所述自适应阈值通过插值混合更新所述图极限估计得到更新的图极限估计,包括:
22、计算每个客户端共享的图极限估计的局部中位数和中位数绝对偏差,并根据所述局部中位数和中位数绝对偏差计算局部阈值;
23、根据所述局部阈值确定每个客户端共享的图极限估计的邻居集合;
24、根据预设的混合参数以及所述邻居集合对每个客户端共享的图极限估计进行插值混合,得到更新的图极限估计。
25、可选地,所述按照客户端的本地标签的原始图数据集数量比例对所述待优化图数据集进行图采样得到图增强数据,包括:
26、初始化空图集合,根据预设的图采样数量生成均匀分布的图采样矩阵,并根据所述图采样矩阵构建二值化邻接矩阵;
27、根据矩阵的对称性对所述二值化邻接矩阵进行优化,得到优化邻接矩阵,并提取所述待优化图数据集中的非孤立节点组成非孤立节点集合;
28、利用所述非孤立节点集合更新所述优化邻接矩阵,并根据所述优化邻接矩阵构建边集合;
29、利用所述边集合和所述非孤立节点集合构建图实例,并将所述图实例添加至所述空图集合中,得到生成的图数据集合;
30、计算所述原始图数据集的第一节点特征和第一度信息,并计算所述生成的图数据集合中的第二度信息,并根据所述第二度信息与所述第一度信息进行匹配,获取匹配最接近的所述第一度信息对应得第一节点特征,将所述第一节点特征赋给所述第二度信息对应的节点特征中,结合所述原始图数据集和所述生成的图数据集合,得到所述图增强数据。
31、为了解决上述问题,本专利技术还提供一种基于隐私保护的图极限估计的联邦图数据增强方法的系统,包括服务器端,以及与服务器端连接通信的一个以上客户端。
32、可选地,所述客户端和所述服务器端双向通信,所述客户端获取社交网络图,并提取所述社交网络图中的社交节点和社交边组成原始图数据集;根据每个所述客户端的本地标签,利用所述原始图数据集生成所述本地标签对应的图极限估计,并将所述图极限估计进行差分隐私操作后共享至服务器端;以及,所述客户端接收更新的图极限估计生本文档来自技高网...
【技术保护点】
1.基于隐私保护的图极限估计的联邦图数据增强方法,其特征在于,所述方法包括:
2.如权利要求1所述的基于隐私保护的图极限估计的联邦图数据增强方法,其特征在于,所述提取所述社交网络图中的社交节点和社交边组成原始图数据集,包括:
3.如权利要求1或2所述的基于隐私保护的图极限估计的联邦图数据增强方法,其特征在于,所述利用所述原始图数据集生成所述本地标签对应的图极限估计,包括:
4.如权利要求3所述的基于隐私保护的图极限估计的联邦图数据增强方法,其特征在于,所述将每个所述客户端的原始图数据集进行图对齐预处理,得到标准图数据集,包括:
5.如权利要求1或2或4所述的基于隐私保护的图极限估计的联邦图数据增强方法,其特征在于,所述服务器端计算每个所述客户端共享的图极限估计的成对切割距离,包括:
6.如权利要求1或2或4所述的基于隐私保护的图极限估计的联邦图数据增强方法,其特征在于,所述根据所述自适应阈值通过插值混合更新所述图极限估计得到更新的图极限估计,包括:
7.如权利要求1或2或4所述的基于隐私保护的图极限估计的联邦
8.一种基于权利要求1-7之一所述的基于隐私保护的图极限估计的联邦图数据增强方法的系统,其特征在于,包括服务器端,以及与服务器端连接通信的一个以上客户端。
9.如权利要求8所述的基于隐私保护的图极限估计的联邦图数据增强方法的系统,其特征在于,所述客户端和所述服务器端双向通信,所述客户端获取社交网络图,并提取所述社交网络图中的社交节点和社交边组成原始图数据集;根据每个所述客户端的本地标签,利用所述原始图数据集生成所述本地标签对应的图极限估计,并将所述图极限估计进行差分隐私操作后共享至服务器端;以及,所述客户端接收更新的图极限估计生成待优化图数据集,并按照客户端的本地标签的原始图数据集数量比例对所述待优化图数据集进行图采样得到图增强数据。
10.如权利要求8所述的基于隐私保护的图极限估计的联邦图数据增强方法的系统,其特征在于,所述服务器端计算每个所述客户端共享的图极限估计的成对切割距离,并根据所述成对切割距离生成所述图极限估计的多个最近邻,利用局部距离分布计算每个最近邻的自适应阈值,根据所述自适应阈值通过插值混合更新所述图极限估计得到更新的图极限估计,返回更新的图极限估计至客户端。
...【技术特征摘要】
1.基于隐私保护的图极限估计的联邦图数据增强方法,其特征在于,所述方法包括:
2.如权利要求1所述的基于隐私保护的图极限估计的联邦图数据增强方法,其特征在于,所述提取所述社交网络图中的社交节点和社交边组成原始图数据集,包括:
3.如权利要求1或2所述的基于隐私保护的图极限估计的联邦图数据增强方法,其特征在于,所述利用所述原始图数据集生成所述本地标签对应的图极限估计,包括:
4.如权利要求3所述的基于隐私保护的图极限估计的联邦图数据增强方法,其特征在于,所述将每个所述客户端的原始图数据集进行图对齐预处理,得到标准图数据集,包括:
5.如权利要求1或2或4所述的基于隐私保护的图极限估计的联邦图数据增强方法,其特征在于,所述服务器端计算每个所述客户端共享的图极限估计的成对切割距离,包括:
6.如权利要求1或2或4所述的基于隐私保护的图极限估计的联邦图数据增强方法,其特征在于,所述根据所述自适应阈值通过插值混合更新所述图极限估计得到更新的图极限估计,包括:
7.如权利要求1或2或4所述的基于隐私保护的图极限估计的联邦图数据增强方法,其特征在于,所述按照客户端的本地标签的原始图数据集数量比例对所述待...
【专利技术属性】
技术研发人员:胡春强,张程曦,王佳琳,桑军,蔡斌,
申请(专利权)人:重庆大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。