基于隐私计算的分布式图卷积网络训练方法技术

技术编号:37073760 阅读:11 留言:0更新日期:2023-03-29 19:50
本发明专利技术公开了基于隐私计算的分布式图卷积网络训练方法,训练方法分为两个阶段:阶段一:采样机将子图发送至主机,主机将不可见节点特征设置为零,进行图神经网络的第一层计算,以生成每个节点的嵌入,并将节点嵌入推送到AS;主机从AS查询不可见节点的嵌入,再从AS接收到不可见节点的嵌入后,主机将第一层的输出输入到图卷积神经网络的第二层继续进行计算;阶段二:主机将本轮循环结束后图卷积神经网络的模型参数发送到AS,AS收集齐所有主机的模型参数,进行加权平均后将结果发送回各主机,形成一轮循环。本发明专利技术通过分布式训练的方式,训练一个统一的图卷积神经网络模型,能够解决精确和高效的学习图中每个节点的语义表达的问题。达的问题。达的问题。

【技术实现步骤摘要】
基于隐私计算的分布式图卷积网络训练方法


[0001]本专利技术涉及隐私计算
,具体为基于隐私计算的分布式图卷积网络训练方法。

技术介绍

[0002]随着网络技术和物联网技术的不断发展,用户隐私问题引发持续关注。大量用户日常数据被收集和分析甚至在网络上被非法上传,在这方面目前主流的技术为:可信执行环境,安全多方计算和联邦学习。在这三种技术中,联邦学习的优点是其较低的实现成本,其核心是利用分布式的数据共同训练一个集中的模型,同时可集成差分隐私、安全多方计算,同态加密等多种加密算法,提供更强的安全性。
[0003]在深度学习中,图卷积神经网络(GCN)已广泛应用于多个领域,如推荐系统,精确分类以及实体间关系预测等,其可以充分利用图中节点的邻接关系,为图中的每个节点学习一个精确的语义表达,提升后续分类或者推荐的准确度。如社交网络可以看成是一个图,其中的每个节点代表一个人,节点可以有自己的特征,如职业,年龄,性别等等,互相认识的两个人之间有一条边连接。但是,如果图中的各个节点分属于不同的组织,考虑到隐私保护问题,我们在做图卷积运算时需要的邻居节点信息由于隐私保护的原因而缺失时,图卷积神经网络为图中每个节点所学习的语义表达的精确度就会显著降低,严重影响了后续任务的准确度。当前基于图神经网络的联邦学习研究,主要还是基于联邦学习框架,对图数据进行分割,重点解决图数据分割的方法与效率问题以及分割图数据中的非独立同分布问题。而由于隐私保护考虑,当一个大图中各个节点的特征数据分属于不同组织或者结构,不能集中起来进行图卷积神经网络训练时,如何提升图卷积神经网络学习效率的问题,尚未被提出,也未有高效的解决方案。

技术实现思路

[0004]本专利技术的目的在于提供基于隐私计算的分布式图卷积网络训练方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:基于隐私计算的分布式图卷积网络训练方法,训练方法分为两个阶段:阶段一:采样机将子图发送至主机,主机将不可见节点特征设置为零,进行图神经网络的第一层计算,以生成每个节点的嵌入,并将节点嵌入推送到AS;主机从AS查询不可见节点的嵌入,再从AS接收到不可见节点的嵌入后,主机将第一层的输出输入到图卷积神经网络的第二层继续进行计算;阶段二:主机将本轮循环结束后图卷积神经网络的模型参数发送到AS,AS收集齐所有主机的模型参数,进行加权平均后将结果发送回各主机,形成一轮循环。
[0006]优选的,训练方法的两个阶段形成一个训练循环,并根据训练结果进行重复循环训练。
[0007]优选的,整个训练过程的主要部件由客户组、主机、采样器和汇聚服务器构成;客
户组用于负责管理和记录所有图数据的信息,保存了图数据每个节点的信息及信息的特征属性,以及主机的归属序号。
[0008]优选的,主机用于分配的子图进行图卷积神经网络训练,对于因隐私保护原因不可见的节点特征,主机都会初始化为零,主机可以与AS通信交换Embedding和模型参数。
[0009]优选的,采样器作为工作分配器,将整个大图划分为子图并将它们分发给每个主机,其应尽可能消除采样偏差,提高训练效率。
[0010]优选的,汇聚服务器用于收集每个主机发来的节点的Embedding信息以及模型参数,并负责模型参数的加权平均计算和反馈给各个主机。
[0011]优选的,图卷积神经网络采用2

3层结构,用于大图数据分割后在多个主机进行分布式训练,通过参数汇聚服务器共享图卷积神经网络第一层输出的解决方案。
[0012]优选的,主机经过大图经采样器后得到多个子图,子图被分配到多个主机进行图卷积神经网络模型训练。
[0013]优选的,在每个训练轮次,主机将图卷积神经网络第一层的输出发送到AS,然后从AS获得由于隐私保护而不可见的节点在AS上的Embedding,然后继续图卷积神经网络第二层以后的计算。
[0014]优选的,每个host上的图卷积神经网络模型参数wi在每轮过后发送到AS进行加权平均,然后将平均后的参数w发回各个host更新本地模型参数。
[0015]与现有技术相比,本专利技术的有益效果是:本专利技术解决了在一个大图中节点分属于不同组织时,各个组织对数据的使用有强烈的隐私保护需求的情况下,通过分布式训练的方式,训练一个统一的图卷积神经网络模型,能够精确和高效的学习图中每个节点的语义表达的问题。
附图说明
[0016]图1为本专利技术的图卷积神经网络训练流程示意图;
[0017]图2为本专利技术的方案总体实现示意图;
[0018]图3为本专利技术的共享嵌入流程示意图;
[0019]图4为本专利技术的共享参数权重流程示意图;
[0020]图5为本专利技术的PPI、Flickr和Reddit执行数据图;
[0021]图6为本专利技术的主机节点设置参数调节数据图。
具体实施方式
[0022]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0023]请参阅图1至图6,本专利技术提供的三种实施例:
[0024]实施例一:
[0025]基于隐私计算的分布式图卷积网络训练方法,训练方法分为两个阶段:阶段一:采样机将子图发送至主机,主机将不可见节点特征设置为零,进行图神经网络的第一层计算,
以生成每个节点的嵌入,并将节点嵌入推送到AS;主机从AS查询不可见节点的嵌入,再从AS接收到不可见节点的嵌入后,主机将第一层的输出输入到图卷积神经网络的第二层继续进行计算;阶段二:主机将本轮循环结束后图卷积神经网络的模型参数发送到AS,AS收集齐所有主机的模型参数,进行加权平均后将结果发送回各主机,形成一轮循环。训练方法的两个阶段形成一个训练循环,并根据训练结果进行重复循环训练。整个训练过程的主要部件由客户组、主机、采样器和汇聚服务器构成;客户组用于负责管理和记录所有图数据的信息,保存了图数据每个节点的信息及信息的特征属性,以及主机的归属序号。主机用于分配的子图进行图卷积神经网络训练,对于因隐私保护原因不可见的节点特征,主机都会初始化为零,主机可以与AS通信交换Embedding和模型参数。采样器作为工作分配器,将整个大图划分为子图并将它们分发给每个主机,其应尽可能消除采样偏差,提高训练效率。汇聚服务器用于收集每个主机发来的节点的Embedding信息以及模型参数,并负责模型参数的加权平均计算和反馈给各个主机。图卷积神经网络采用2

3层结构,用于大图数据分割后在多个主机进行分布式训练,通过参数汇聚服务器共享图卷积神经网络第一层输出的解决方案。经过大图经采样器后得到多个子图,子图被分配到多个主机进行图卷积神经网络模型训练,在每个训练轮次,主机将图卷积神经网络第一层的输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于隐私计算的分布式图卷积网络训练方法,其特征在于:训练方法分为两个阶段:阶段一:采样机将子图发送至主机,主机将不可见节点特征设置为零,进行图神经网络的第一层计算,以生成每个节点的嵌入,并将节点嵌入推送到AS;主机从AS查询不可见节点的嵌入,再从AS接收到不可见节点的犬儒后,主机将第一层的输出输入到图卷积神经网络的第二层继续进行计算;阶段二:主机将本轮循环结束后图卷积神经网络的模型参数发送到AS,AS收集齐所有主机的模型参数,进行加权平均后将结果发送回各主机,形成一轮循环。2.根据权利要求1所述的基于隐私计算的分布式图卷积网络训练方法,其特征在于:训练方法的两个阶段形成一个训练循环,并根据训练结果进行重复循环训练。3.根据权利要求1所述的基于隐私计算的分布式图卷积网络训练方法,其特征在于:整个训练过程的主要部件由客户组、主机、采样器和汇聚服务器构成;客户组用于负责管理和记录所有图数据的信息,保存了图数据每个节点的信息及信息的特征属性,以及主机的归属序号。4.根据权利要求3所述的基于隐私计算的分布式图卷积网络训练方法,其特征在于:主机用于分配的子图进行图卷积神经网络训练,对于因隐私保护原因不可见的节点特征,主机都会初始化为零,主机可以与AS通信交换Embedding和模型参数。5.根据权利要求3所述的基于隐私计算的分布式图卷积网络训练方法,其特征在...

【专利技术属性】
技术研发人员:段刚徐章健汪魏叶楠
申请(专利权)人:上海华期信息技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1