【技术实现步骤摘要】
基于GraphSMOTE的合成少数节点过采样图联邦学习方法
[0001]本专利技术属于图联邦学习
,特别涉及一种基于GraphSMOTE的图数据增强的联邦学习方法,用于解决联邦学习中图数据类别不平衡问题。
技术介绍
[0002]作为一种分布式机器学习框架,联邦学习能在保护数据隐私的前提下联合多方训练神经网络模型,应用前景广阔。图是现实世界最常见的数据结构之一,且节点类别平衡往往无法得到保证,导致分类器不能有效学习决策边界。因此,一种能处理图数据类别不平衡问题的联邦学习方法是业界所亟需的。
[0003]在针对非图数据的联邦学习算法中,类别不平衡问题的解决方案主要有三种。第一种方案由客户在本地实施,采用集成环境下处理样本不平衡的常用手段,包括重采样、设置类别权重和更换模型类别评价指标等,再平衡过程缺少来自全局的信息。第二种方案要求客户上传自己的本地数据分布信息,可信的第三方将基于全局数据分布实现数据增强,并根据客户的数据分布差异重新调度客户的训练过程,但客户上传的数据分布可能对数据隐私造成威胁。第三种方案不需要客户上传本地数据信息,而是通过衡量各客户训练的模型参数的差异来自动监控类别不平衡情况,并设计了一种新的损失函数,为不同类别的样本分配不同权重。此方法的弱点是需要辅助数据集,辅助数据集的质量将直接影响监控和类别平衡效果。
[0004]针对图数据的类别不平衡问题,现有的策略仅考虑了数据集中式场景。在数据侧,直接复制少数类节点的过采样策略容易造成过拟合问题,因而在图数据的表现欠佳。GraphSMOT ...
【技术保护点】
【技术特征摘要】
1.一种基于GraphSMOTE的合成少数节点过采样图联邦学习方法,其特征在于该方法的步骤包括:步骤一,各客户均上传各自训练完成的Embedding GNN模型参数f
()
和Decoder模型参数g
()
;步骤二,服务器根据各客户的数据量对Embedding GNN模型参数和Decoder的模型参数分别做加权平均,得到加权平均结果全局Embedding GNN模型参数f和全局Decoder模型参数g,并广播给各客户;步骤三,各客户中的任一客户i收到步骤二中广播的加权平均结果后,从本地数据中提取少数类节点的中间表示集合为并选取本地距离最近的少数类节点对合成新样本集合并将与上传至服务器,其中,为提取的少数类节点的中间表示集合的平均值;步骤四,服务器收集并向客户分发其他客户的与步骤五,客户i分别计算与其他客户的少数类节点平均值与其他客户的少数类节点平均值之间的距离,设与的距离最近,客户i对和做第二次最近邻节点合成,合成结果记为M为客户的数量;步骤六,客户将添加到自己的训练数据集中,并利用Decoder模型预测新节点之间及连接到原图上的新边,并叠加到客户的原图邻接矩阵,产生一个增强图参与本地训练。2.根据权利要求1所述的一种基于GraphSMOTE的合成少数节点过采样图联邦学习方法,其特征在于:当迭代次数达到上限,或Classifier GNN的分类效果不再进一步提升时,完成基于GraphSMOTE的合成少数过采样图联邦学习。3.根据权利要求1或2所述的一种基于GraphSMOTE的合成少数节点过采样图联邦学习方法,其特征在于:所述的步骤二中,全局Embedding GNN模型参数f的计算公式为:全局Decoder模型参数g的计算公式为:其中,f
(i)
和g
(i)
分别代表客户i的Embedding GNN模型参数和Decoder模型参数;N
(i)
为本地数据集的节点数目。4.根据权利要求3所述的一种基于GraphSMOTE的合成少数节点过采样图联邦学习方法,其特征在于:所述的步骤三中,选取本地距离最近的少数类节点对合成新样本,具体方法如下:
(31)记集合中的任一少数类节点u的中间表示为u,遍历本地其他的同类节点的中间表示,寻找u的最近邻节点少数类节点v的中间表示为v;(32)对少数类节点u和u的最近邻节点进行插值合成新样本集合新样本集合中的元素为ρ
nn(u)
+(1
‑
ρ)u,其中,ρ为0到1之间的随机噪声,新样本集合的类别与节点u相同。5.根据权利要求4所述的一种基于GraphSMOTE的合成少数节点过采样图联邦学习方法,其特征在于:对于各客户利用本地数据合成新样本集合的大小由超参数控...
【专利技术属性】
技术研发人员:毕蓓,张志威,乔鹏鹏,袁野,王国仁,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。