一种面向海量数据解决异质图神经网络数据划分不均衡处理的方法技术

技术编号:38199952 阅读:13 留言:0更新日期:2023-07-21 16:41
本发明专利技术涉及一种面向海量数据解决异质图神经网络数据划分不均衡的处理方法,属于深度学习领域。该方法首先根据边的交互关系将全图数据均分至各类型子图,将全图G根据类型依赖关系拆分成G

【技术实现步骤摘要】
一种面向海量数据解决异质图神经网络数据划分不均衡处理的方法


[0001]本专利技术涉及一种面向海量数据解决异质图神经网络数据划分不均衡的处理方法,属于深度学习领域。

技术介绍

[0002]截至2022年6月,我国网民规模达10.51亿,互联网普及率达74.4%,移动互联网呈现全新的发展趋势。随着互联网的普及,用户数据不断增加,需要更高水平的用户行为分析和用户类别区分。为了提高分类和预测结果,模型参数数量增加,导致训练时间延长,计算资源需求更高。
[0003]图神经网络技术被证明是处理非欧几里得图形数据的有效工具,在搜索、推荐和风险控制等多个领域得到广泛应用。然而,由于图神经网络模型的训练数据规模较大,训练时间较长,分布式训练成为一种很好的选择,可以利用多台机器并行训练,以解决单机无法快速独立训练的问题。
[0004]在分布式图神经网络训练的主要流程,其中首要步骤是将数据划分到各个分区内,以便在不同计算节点上分布图数据的“子图”。进行图划分有助于将大规模图数据集分解为可并行计算的多个子集,从而实现分布式的训练过程。已有的多数研究表明,机器训练过程中由于数据分布不均衡,数据关联度不高等问题,会造成通信量和计算量的失衡。在一方面,由于不均衡的数据分配导致的参数同步等待时间增加,模型的训练时间也会增加。另一方面,数据划分不当还会造成其他影响,比如各个计算节点的模型训练过程中,容易存在训练结果差异大的问题,这会使得参数同步过程中引入更大的误差,进而影响整体模型的精度。因此,在进行图划分时,必须谨慎考虑计算量和通信量,使得两者达到平衡,进一步确保模型训练的高效性和精度。
[0005]目前多数分布式图神经网络框架在划分数据时多采用METIS进行快速图划分。METIS是一种简单的分区算法,它基于多级编码的思想,旨在将大型稀疏矩阵的分区任务分解为一系列更容易解决的多级划分子任务,使其具有较少的空间复杂度。DistDGL对上述的划分方式进行了优化,通过对密集连接的节点进行优化,将高频繁访问的热节点进行唯一分区指定,并将非核心节点但却存在一定频率跨分区访问的顶点进行多次复制,从而确保每个分区的局部顶点的邻居是可访问的。这样在后续训练采样过程中可以减少跨分区的通讯访问,除此以外也减少了低质量边的保留,对高权重边进行了保留,以提高整体性能。通过约束机制支持平衡分区的边和节点使其数量相似。但这种方式针对少量关系的图划分具有较好的表现结果,而在复杂关系的异质图数据集中,节点及边的类型组合方式造成了多种元路径的组合,会导致划分结果不符合预期。
[0006]总体而言,多数用于分布式图神经网络的图划分方法基于同质图进行考虑,而对于异质图的划分却相对较少。在异质图中,由于存在异质的节点,且节点间数量多寡存在差异,采用现有的划分方式往往导致图的划分结果不均衡,由此造成不同计算节点之间的数
据交换更加频繁,进而影响图神经网络的精度和训练效率。对此提出了本文的大规模异质图均衡划分方法,从拆分聚合角度,对大规模的异质图数据进行合理划分,使其具备数据均衡性,提高数据相关性,并降低后续模型的跨分区交互频率。

技术实现思路

[0007]为了克服现有技术的不足,本专利技术提供了一种面向海量数据解决异质图神经网络数据划分不均衡处理的方法。该方法能够对社交网络、学术网络、商品交易网络情景下,面向异质图图神经网络数据,其中,这类数据存在异质节点、异质关系、节点及本身的特征向量。首先根据边的交互关系将全图数据均分至各类型子图,将全图G根据类型依赖关系拆分成G1,G2,

,G
k
;而后使用基于均衡策略的METIS算法进行快速划分,以解决带权的k路图划分问题;接下来,根据划分的各类型子图结果,计算矩阵间最大收益,以得到最佳合并方案;最后,根据合并方案查询原始数据集,以组合节点和边集,最终实现大规模数据的均衡划分,得到相应的划分结果。本专利技术能够在大规模数据划分下进行使用,其划分结果在各个分区内节点数量及类型大致一致,具备较好的负载均衡特性,对于临界节点复制比率不高,并有效的减少了跨分区通讯量,能够较好的支持异质图神经网络模型训练,减少总体训练时间。
[0008]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0009]步骤1:加载异质的图神经网络数据G到内存以进行后续处理,所述图神经网络数据G数据为学术论文数据或社交网络数据或商品交易网络,存在异质节点、异质关系、节点及本身的特征向量。
[0010]步骤2:根据边的交互关系将全图数据均分至各类型子图,将全图G根据类型依赖关系拆分成G1,G2,

,G
k
,用于简化划分难度,减少原始图在初次划分中可能存在的不均衡问题,为后续步骤合并区块提供数据计算的依赖关系;
[0011]步骤2

1:对于属于图G的边类型φ(e
i
),从中获取某类型边φ(e
i
)两侧的节点类型τ(n
j
),τ(n
k
);
[0012]步骤2

2:在全图G中获取由步骤2

1中得到的类型τ(n
j
),τ(n
k
)及其相关边的所有关系边;
[0013]步骤2

3:将全图G类型拆分成多个异质类型拆分图G1,G2,

,G
k
,使得对于任意拆分图G
i
,存在唯一的τ(n
k
)∧φ(n)≠φ(k),并且在所有拆分图中对于任意拆分图G
i
都存在图G
j
,使得两图间存在一种节点类型相同;
[0014]步骤3:使用多约束均衡策略的METIS算法对步骤2中最终得到的G1,G2,

,G
k
单独进行图的划分,针对每个拆分图G
i
,都能获得各分区拆分结果G
i,j
,其中G
i,j
代表第i个拆分图中的第j个划分分区;
[0015]步骤3

1:对图G
i
使用METIS划分方式,设置参数时根据异质数据集特性进行指定,对于异质图而言,建议设置边均衡及点均衡;
[0016]步骤3

2:为减少通信开销,使用DistDGL中的边缘复制方法对边缘节点进行一定比例的复制处理,以保留连通边的其他分区节点信息。
[0017]步骤4:根据步骤3中的各图划分结果,计算最佳异质图合并区间方案;
[0018]步骤4

1:在步骤3中能够得到各分区拆分结果G
i,j
,其中G
i,j
代表第i个拆分图中的
第j个划分分区;
[0019]步骤4

2:根据步骤2

3中的节点间的相关性,对所有拆分图中具有步骤2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向海量数据解决异质图神经网络数据划分不均衡处理的方法,其特征在于,包括如下步骤:步骤1:加载异质的图神经网络数据G到内存以进行后续处理,所述图神经网络数据G数据为学术论文数据或社交网络数据,存在异质节点、异质关系、节点及本身的特征向量。步骤2:根据边的交互关系将全图数据均分至各类型子图,将全图G根据类型依赖关系拆分成G1,G2,...,G
k
,用于简化划分难度,减少原始图在初次划分中可能存在的不均衡问题,为后续步骤合并区块提供数据计算的依赖关系;步骤2

1:对于属于图G的边类型φ(e
i
),从中获取某类型边φ(e
i
)两侧的节点类型τ(n
j
),τ(n
k
);步骤2

2:在全图G中获取由步骤2

1中得到的类型τ(n
j
),τ(n
k
)及其相关边的所有关系边;步骤2

3:将全图G类型拆分成多个异质类型拆分图G1,G2,...,G
k
,使得对于任意拆分图G
i
,存在唯一的τ(n
k
)∧φ(n)≠φ(k),并且在所有拆分图中对于任意拆分图G
i
都存在图G
j
,使得两图间存在一种节点类型相同;步骤3:使用多约束均衡策略的METIS算法对步骤2中最终得到的G1,G2,...,G
k
单独进行图的划分,针对每个拆分图G
i
,都能获得各分区拆分结果G
i,j
,其中G
i,j
代表第i个拆分图中的第j个划分分区;步骤3

1:对图G
i
使用METIS划分方式,设置参数时根据异质数据集特性进行指定,对于异质图而言,建议设置边均衡及点均衡;步骤3

2:为减少通信开销,使用DistDGL中的边缘复制方法对边缘节点进行一定比例的复制处理,以保留连通边的其他分区节点信息。步骤4:根据步骤3中的各图划分结果...

【专利技术属性】
技术研发人员:王柱钱锦麟安粱义常远星赵师瑶郭斌於志文
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1