【技术实现步骤摘要】
一种面向海量数据解决异质图神经网络数据划分不均衡处理的方法
[0001]本专利技术涉及一种面向海量数据解决异质图神经网络数据划分不均衡的处理方法,属于深度学习领域。
技术介绍
[0002]截至2022年6月,我国网民规模达10.51亿,互联网普及率达74.4%,移动互联网呈现全新的发展趋势。随着互联网的普及,用户数据不断增加,需要更高水平的用户行为分析和用户类别区分。为了提高分类和预测结果,模型参数数量增加,导致训练时间延长,计算资源需求更高。
[0003]图神经网络技术被证明是处理非欧几里得图形数据的有效工具,在搜索、推荐和风险控制等多个领域得到广泛应用。然而,由于图神经网络模型的训练数据规模较大,训练时间较长,分布式训练成为一种很好的选择,可以利用多台机器并行训练,以解决单机无法快速独立训练的问题。
[0004]在分布式图神经网络训练的主要流程,其中首要步骤是将数据划分到各个分区内,以便在不同计算节点上分布图数据的“子图”。进行图划分有助于将大规模图数据集分解为可并行计算的多个子集,从而实现分布式的训练过程。已有的多数研究表明,机器训练过程中由于数据分布不均衡,数据关联度不高等问题,会造成通信量和计算量的失衡。在一方面,由于不均衡的数据分配导致的参数同步等待时间增加,模型的训练时间也会增加。另一方面,数据划分不当还会造成其他影响,比如各个计算节点的模型训练过程中,容易存在训练结果差异大的问题,这会使得参数同步过程中引入更大的误差,进而影响整体模型的精度。因此,在进行图划分时,必须谨慎考虑计算量和通 ...
【技术保护点】
【技术特征摘要】
1.一种面向海量数据解决异质图神经网络数据划分不均衡处理的方法,其特征在于,包括如下步骤:步骤1:加载异质的图神经网络数据G到内存以进行后续处理,所述图神经网络数据G数据为学术论文数据或社交网络数据,存在异质节点、异质关系、节点及本身的特征向量。步骤2:根据边的交互关系将全图数据均分至各类型子图,将全图G根据类型依赖关系拆分成G1,G2,...,G
k
,用于简化划分难度,减少原始图在初次划分中可能存在的不均衡问题,为后续步骤合并区块提供数据计算的依赖关系;步骤2
‑
1:对于属于图G的边类型φ(e
i
),从中获取某类型边φ(e
i
)两侧的节点类型τ(n
j
),τ(n
k
);步骤2
‑
2:在全图G中获取由步骤2
‑
1中得到的类型τ(n
j
),τ(n
k
)及其相关边的所有关系边;步骤2
‑
3:将全图G类型拆分成多个异质类型拆分图G1,G2,...,G
k
,使得对于任意拆分图G
i
,存在唯一的τ(n
k
)∧φ(n)≠φ(k),并且在所有拆分图中对于任意拆分图G
i
都存在图G
j
,使得两图间存在一种节点类型相同;步骤3:使用多约束均衡策略的METIS算法对步骤2中最终得到的G1,G2,...,G
k
单独进行图的划分,针对每个拆分图G
i
,都能获得各分区拆分结果G
i,j
,其中G
i,j
代表第i个拆分图中的第j个划分分区;步骤3
‑
1:对图G
i
使用METIS划分方式,设置参数时根据异质数据集特性进行指定,对于异质图而言,建议设置边均衡及点均衡;步骤3
‑
2:为减少通信开销,使用DistDGL中的边缘复制方法对边缘节点进行一定比例的复制处理,以保留连通边的其他分区节点信息。步骤4:根据步骤3中的各图划分结果...
【专利技术属性】
技术研发人员:王柱,钱锦麟,安粱义,常远星,赵师瑶,郭斌,於志文,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。