基于GraphSMOTE的合成少数节点过采样图联邦学习方法技术

技术编号:37593323 阅读:13 留言:0更新日期:2023-05-18 11:34
本公开的基于GraphSMOTE的合成少数节点过采样图联邦学习方法,包括步骤一,客户向服务器上传上一轮迭代训练的模型参数;步骤二,服务器对各客户的模型参数做加权平均,将全局模型参数广播给各客户;步骤三,客户利用全局模型参数提取本地少数类节点的中间特征,寻找欧氏距离最近的节点对,引入随机噪声插值生成合成样本;步骤四,服务器收集并分发各客户的平均少数类节点表示与合成样本;步骤五,客户生成跨客户的合成样本,并为所有合成样本预测新边,加入本地数据集参与训练。本方法集中了联邦学习和图数据增强的优点,在保证数据隐私的前提下实现节点和边信息的全局流通,同时通过调节超参数赋予客户对合成样本总量的决定权,降低了通信成本。降低了通信成本。降低了通信成本。

【技术实现步骤摘要】
基于GraphSMOTE的合成少数节点过采样图联邦学习方法


[0001]本专利技术属于图联邦学习
,特别涉及一种基于GraphSMOTE的图数据增强的联邦学习方法,用于解决联邦学习中图数据类别不平衡问题。

技术介绍

[0002]作为一种分布式机器学习框架,联邦学习能在保护数据隐私的前提下联合多方训练神经网络模型,应用前景广阔。图是现实世界最常见的数据结构之一,且节点类别平衡往往无法得到保证,导致分类器不能有效学习决策边界。因此,一种能处理图数据类别不平衡问题的联邦学习方法是业界所亟需的。
[0003]在针对非图数据的联邦学习算法中,类别不平衡问题的解决方案主要有三种。第一种方案由客户在本地实施,采用集成环境下处理样本不平衡的常用手段,包括重采样、设置类别权重和更换模型类别评价指标等,再平衡过程缺少来自全局的信息。第二种方案要求客户上传自己的本地数据分布信息,可信的第三方将基于全局数据分布实现数据增强,并根据客户的数据分布差异重新调度客户的训练过程,但客户上传的数据分布可能对数据隐私造成威胁。第三种方案不需要客户上传本地数据信息,而是通过衡量各客户训练的模型参数的差异来自动监控类别不平衡情况,并设计了一种新的损失函数,为不同类别的样本分配不同权重。此方法的弱点是需要辅助数据集,辅助数据集的质量将直接影响监控和类别平衡效果。
[0004]针对图数据的类别不平衡问题,现有的策略仅考虑了数据集中式场景。在数据侧,直接复制少数类节点的过采样策略容易造成过拟合问题,因而在图数据的表现欠佳。GraphSMOTE算法通过在少数类样本的邻域内执行插值操作来合成新的少数类样本、训练边预测模型为合成样本添加新边,就能有效避免该问题。但在受隐私协议限制的场景下,GraphSMOTE算法无法直接获取各客户的少数类节点的中间表示,故无法直接应用于联邦学习。

技术实现思路

[0005]本专利技术的技术解决问题是:鉴于图联邦学习领域类别不平衡问题的普遍性及相应解决方案的缺失,本专利技术通过改造GraphSMOTE算法,实现各客户对少数类合成样本的共享,一方面能补充客户本地的少数类样本,另一方面还能实现客户间图数据的间接流通,提升分类器效果。
[0006]一种基于GraphSMOTE的合成少数节点过采样图联邦学习方法,所述方法包括:
[0007]步骤一,各客户均上传各自训练完成的Embedding GNN模型参数f
(i)
和Decoder模型参数g
(i)

[0008]步骤二,服务器根据各客户的数据量对Embedding GNN模型参数和Decoder的模型参数分别做加权平均,得到加权平均结果全局Embedding GNN模型参数f和全局Decoder模型参数g,并广播给各客户;
[0009]步骤三,各客户中的任一客户i收到步骤二中广播的加权平均结果后,从本地数据中提取少数类节点的中间表示集合为并选取本地距离最近的少数类节点对合成新样本集合并将与上传至服务器,其中,为提取的少数类节点的中间表示集合的平均值;
[0010]步骤四,服务器收集并向客户分发其他客户的与
[0011]步骤五,客户i分别计算与其他客户的少数类节点平均值与其他客户的少数类节点平均值之间的距离,设与的距离最近,客户i对和做第二次最近邻节点合成,合成结果记为M为客户的数量;
[0012]步骤六,客户将添加到自己的训练数据集中,并利用Decoder模型预测新节点之间及连接到原图上的新边,以权重
ɑ
叠加到客户的原图邻接矩阵,产生一个增强图参与本地训练;
[0013]当迭代次数达到上限,或模型的分类效果不再进一步提升时,完成基于GraphSMOTE的合成少数过采样图联邦学习。
[0014]所述的步骤二中,全局Embedding GNN模型参数f的计算公式为:
[0015][0016]全局Decoder模型参数g的计算公式为:
[0017]其中,f
(i)
和g
(i)
分别代表客户i的Embedding GNN模型参数和Decoder模型参数;即客户i本地数据集的节点数目N
(i)
决定了权重;
[0018]所述的步骤三中,选取本地距离最近的少数类节点对合成新样本,具体方法如下:
[0019](31)记集合中的任一少数类节点u的中间表示为u,遍历本地其他的同类节点的中间表示,寻找u的最近邻节点少数类节点v的中间表示为v;
[0020](32)对少数类节点u和u的最近邻节点进行插值合成新样本集合新样本集合中的元素为ρ
nn(u)
+(1

ρ)
u
,其中,ρ为0到1之间的随机噪声,新样本集合的类别与节点u相同;
[0021]对于各客户利用本地数据合成新样本集合的大小由超参数控制;
[0022]所述的步骤五中,第二次最近邻节点合成过程,具体方法如下:
[0023](51)客户i通过比较与其他客户的之间的距离,锁定最近客户
[0024](52)客户i利用本地少数类样本和客户nc(i)的合成少数类样本集合实现跨客户样本合成,对于中节点u的中间表示h
u
,在中寻找与h
u
距离最近的节点
[0025](53)添加一个0到1之间的随机噪声ρ

,则节点u和节点nn(u)合成的新样本集合中的元素表示为ρ

nn(u)+(1

ρ

)u;
[0026]跨客户样本合成的数量由超参数控制;
[0027]所述的步骤六中,进行本地训练阶时通过损失函数和训练超参数的设置控制真实样本与合成样本的数据分布之间的差异;
[0028]其中,客户本地训练的损失函数不仅要包含分类的交叉熵损失,还包含一个惩罚项,使客户本地真实的少数类别样本和来自其他客户的生成样本的平均值之间的距离尽可能小;
[0029]所述的训练超参数中需要设置客户本地训练的轮数和批尺寸,避免因本地模型更新次数过多导致两种数据分布的差异过大;
[0030]对于各客户利用本地数据合成新样本集合的大小由超参数控制,控制方法为:
[0031]当0<λ<1,即从客户本地的少数类中取出比例为λ的节点执行一次邻域插值,产生同等数量的合成样本,当λ>1,即对本地所有少数类节点进行多轮邻域插值操作,合成节点表示的数量是原节点的λ倍,通过调控超参数λ的大小,就可以调节由单客户生成、全局共享的合成样本数量;
[0032]跨客户样本合成的数量由超参数控制,控制方法为:
[0033]当0<μ
(i)
<1,即从客户i的抽取比例为μ
(i)
的节点中间表示,在客户nc(i)的合成样本中寻找最近邻并执行一次插值操作,产生与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于GraphSMOTE的合成少数节点过采样图联邦学习方法,其特征在于该方法的步骤包括:步骤一,各客户均上传各自训练完成的Embedding GNN模型参数f
()
和Decoder模型参数g
()
;步骤二,服务器根据各客户的数据量对Embedding GNN模型参数和Decoder的模型参数分别做加权平均,得到加权平均结果全局Embedding GNN模型参数f和全局Decoder模型参数g,并广播给各客户;步骤三,各客户中的任一客户i收到步骤二中广播的加权平均结果后,从本地数据中提取少数类节点的中间表示集合为并选取本地距离最近的少数类节点对合成新样本集合并将与上传至服务器,其中,为提取的少数类节点的中间表示集合的平均值;步骤四,服务器收集并向客户分发其他客户的与步骤五,客户i分别计算与其他客户的少数类节点平均值与其他客户的少数类节点平均值之间的距离,设与的距离最近,客户i对和做第二次最近邻节点合成,合成结果记为M为客户的数量;步骤六,客户将添加到自己的训练数据集中,并利用Decoder模型预测新节点之间及连接到原图上的新边,并叠加到客户的原图邻接矩阵,产生一个增强图参与本地训练。2.根据权利要求1所述的一种基于GraphSMOTE的合成少数节点过采样图联邦学习方法,其特征在于:当迭代次数达到上限,或Classifier GNN的分类效果不再进一步提升时,完成基于GraphSMOTE的合成少数过采样图联邦学习。3.根据权利要求1或2所述的一种基于GraphSMOTE的合成少数节点过采样图联邦学习方法,其特征在于:所述的步骤二中,全局Embedding GNN模型参数f的计算公式为:全局Decoder模型参数g的计算公式为:其中,f
(i)
和g
(i)
分别代表客户i的Embedding GNN模型参数和Decoder模型参数;N
(i)
为本地数据集的节点数目。4.根据权利要求3所述的一种基于GraphSMOTE的合成少数节点过采样图联邦学习方法,其特征在于:所述的步骤三中,选取本地距离最近的少数类节点对合成新样本,具体方法如下:
(31)记集合中的任一少数类节点u的中间表示为u,遍历本地其他的同类节点的中间表示,寻找u的最近邻节点少数类节点v的中间表示为v;(32)对少数类节点u和u的最近邻节点进行插值合成新样本集合新样本集合中的元素为ρ
nn(u)
+(1

ρ)u,其中,ρ为0到1之间的随机噪声,新样本集合的类别与节点u相同。5.根据权利要求4所述的一种基于GraphSMOTE的合成少数节点过采样图联邦学习方法,其特征在于:对于各客户利用本地数据合成新样本集合的大小由超参数控...

【专利技术属性】
技术研发人员:毕蓓张志威乔鹏鹏袁野王国仁
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1