图特征缓存方法技术

技术编号:38125599 阅读:5 留言:0更新日期:2023-07-08 09:29
本说明书实施例提供图特征缓存方法,其中所述图特征缓存方法包括:获取样本图,其中,样本图基于多个样本节点数据以及各样本节点数据之间的关联关系构建;根据训练平台中计算单元组的数量和样本图中样本节点数据间的关联关系分布,分割样本图,获得多个样本子图,其中,计算单元组包括具有连接关系的至少两个计算单元;基于多个样本子图,确定各计算单元组中计算单元的采样信息;将采样信息对应分发至各计算单元,以使各计算单元基于采样信息对图特征进行采样并缓存,并基于图特征对图处理模型进行训练。通过确定各计算单元对应的采样信息,减少控制单元与计算单元之间的数据传输,进而提升后续对图处理模型的训练效率。进而提升后续对图处理模型的训练效率。进而提升后续对图处理模型的训练效率。

【技术实现步骤摘要】
图特征缓存方法


[0001]本说明书实施例涉及计算机
,特别涉及图特征缓存方法。

技术介绍

[0002]随着计算机技术的不断发展,图神经网络(GNN)被广泛应用于各种场景,例如,商品推荐、意向预测等。
[0003]为了实现对图神经网络的训练,通常需要由CPU到GPU的数据传输,进而由GPU实现对图神经网络的训练;但CPU到GPU的数据传输效率较低,进而会影响对图神经网络的训练效率和效果。
[0004]为了解决上述问题,目前的方案通常是将频繁使用的图特征缓存至GPU中;但在图特征较多的情况下,受到GPU存储上限的限制,无法对所需图特征进行完整存储,进而影响图神经网络的训练。
[0005]因此,如何实现对提升对图神经网络的训练效率成为本领域技术人员亟待解决的技术问题。

技术实现思路

[0006]有鉴于此,本说明书实施例提供了图特征缓存方法。本说明书一个或者多个实施例同时涉及图特征缓存装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0007]根据本说明书实施例的第一方面,提供了一种图特征缓存方法,包括:
[0008]获取样本图,其中,所述样本图基于多个样本节点数据以及各样本节点数据之间的关联关系构建;
[0009]根据训练平台中计算单元组的数量和所述样本图中样本节点数据间的关联关系分布,分割所述样本图,获得多个样本子图,其中,所述计算单元组包括具有连接关系的至少两个计算单元;
[0010]基于所述多个样本子图,确定各计算单元组中计算单元的采样信息;
[0011]将所述采样信息对应分发至各计算单元,以使各计算单元基于采样信息对图特征进行采样并缓存,并基于所述图特征对图处理模型进行训练。
[0012]根据本说明书实施例的第二方面,提供了一种图特征缓存装置,包括:
[0013]获取模块,被配置为获取样本图,其中,所述样本图基于多个样本节点数据以及各样本节点数据之间的关联关系构建;
[0014]分割模块,被配置为根据训练平台中计算单元组的数量和所述样本图中样本节点数据间的关联关系分布,分割所述样本图,获得多个样本子图,其中,所述计算单元组包括具有连接关系的至少两个计算单元;
[0015]确定模块,被配置为基于所述多个样本子图,确定各计算单元组中计算单元的采样信息;
[0016]分发模块,被配置为将所述采样信息对应分发至各计算单元,以使各计算单元基于采样信息对图特征进行采样并缓存,并基于所述图特征对图处理模型进行训练。
[0017]根据本说明书实施例的第三方面,提供了一种图处理模型训练方法,应用于云侧设备的计算单元,包括:
[0018]接收控制单元发送的采样信息,并基于所述采样信息采样并缓存样本图中的图特征,其中,所述样本图携带有标签信息,所述采样信息基于训练平台中计算单元组的数量和所述样本图中样本节点数据间的关联关系分布,分割所述样本图,获得多个样本子图确定;
[0019]响应于模型训练请求,读取所述图特征;
[0020]将所述图特征输入图处理模型,获得预测结果;
[0021]基于所述预测结果和所述标签信息计算损失值;
[0022]根据所述损失值对所述图处理模型进行调整,直至达到模型训练停止条件,获得训练完成的图处理模型。
[0023]根据本说明书实施例的第四方面,提供了一种商品推荐方法,包括:
[0024]获取目标用户信息;
[0025]将所述目标用户信息输入训练得到的商品推荐模型,其中,所述商品推荐模型基于上述模型训练方法训练得到;
[0026]获取所述商品推荐模型输出的商品推荐信息。
[0027]根据本说明书实施例的第五方面,提供了一种训练平台,所述训练平台包含控制单元和至少两个计算单元,其中:
[0028]所述控制单元,被配置为获取样本图,其中,所述样本图基于多个样本节点数据以及各样本节点数据之间的关联关系构建;根据训练平台中计算单元组的数量和所述样本图中样本节点数据间的关联关系分布,分割所述样本图,获得多个样本子图,其中,所述计算单元组包括具有连接关系的至少两个计算单元;基于所述多个样本子图,确定各计算单元组中计算单元的采样信息;将所述采样信息对应分发至各计算单元;
[0029]所述计算单元,被配置为基于采样信息对图特征进行采样并缓存,基于所述图特征对图神经网络进行训练。
[0030]根据本说明书实施例的第六方面,提供了一种计算设备,包括:
[0031]存储器和处理器;
[0032]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图特征缓存方法的步骤。
[0033]根据本说明书实施例的第七方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述图特征缓存方法的步骤。
[0034]根据本说明书实施例的第八方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述图特征缓存方法的步骤。
[0035]本说明书一个实施例实现了获取样本图,其中,所述样本图基于多个样本节点数据以及各样本节点数据之间的关联关系构建;根据训练平台中计算单元组的数量和所述样本图中样本节点数据间的关联关系分布,分割所述样本图,获得多个样本子图,其中,所述计算单元组包括具有连接关系的至少两个计算单元;基于所述多个样本子图,确定各计算单元组中计算单元的采样信息;将所述采样信息对应分发至各计算单元,以使各计算单元
基于采样信息对图特征进行采样并缓存,并基于所述图特征对图处理模型进行训练。
[0036]通过基于计算单元组的数量和样本节点数据间的关联关系分布,将样本图分割为多个样本子图,以便计算单元组中的计算单元对样本图的不同部分进行图特征采样和缓存,从而提升后续计算单元的存储量;基于多个样本子图,确定各计算单元组中计算单元的采样信息,从而确定各计算单元对应的采样信息,使得后续计算单元可以基于采样信息进行采样和缓存,减少控制单元与计算单元之间的数据传输,从而提升对图特征的采样效率,进而提升后续对图处理模型的训练效率。
附图说明
[0037]图1是本说明书一个实施例提供的一种图特征缓存方法的场景示意图;
[0038]图2是本说明书一个实施例提供的一种图特征缓存方法的流程图;
[0039]图3a是本说明书一个实施例提供的样本图的示意图;
[0040]图3b是本说明书一个实施例提供的图特征缓存执行的示意图;
[0041]图4是本说明书一个实施例提供的一种图处理模型训练方法的流程图;
[0042]图5是本说明书一个实施例提供的一种商品推荐方法的流程图;
[0043]图6是本说明书一个实施例提供的一种训练平台的结构示意图;
[0044]图7是本说明书一个实施例提供的一种图特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图特征缓存方法,包括:获取样本图,其中,所述样本图基于多个样本节点数据以及各样本节点数据之间的关联关系构建;根据训练平台中计算单元组的数量和所述样本图中样本节点数据间的关联关系分布,分割所述样本图,获得多个样本子图,其中,所述计算单元组包括具有连接关系的至少两个计算单元;基于所述多个样本子图,确定各计算单元组中计算单元的采样信息;将所述采样信息对应分发至各计算单元,以使各计算单元基于采样信息对图特征进行采样并缓存,并基于所述图特征对图处理模型进行训练。2.如权利要求1所述的方法,根据训练平台中计算单元组的数量和所述样本图中样本节点数据间的关联关系分布,分割所述样本图,获得多个样本子图,包括:获取所述多个样本节点数据间的关联关系;根据所述多个样本节点数据间的关联关系以及训练平台中计算单元组的数量,利用预设的图分割算法,对所述样本图进行分割,获得多个样本子图。3.如权利要求1所述的方法,基于所述多个样本子图,确定各计算单元组中计算单元的采样信息,包括:确定第一计算单元组中的计算单元数量,其中,所述第一计算单元组为任一计算单元组;基于所述计算单元数量,从目标样本子图中确定所述第一计算单元组中各计算单元对应的子分区,其中,所述目标样本子图为所述第一计算单元组对应的样本子图;相应地,将所述采样信息对应分发至各计算单元,包括:将各子分区的信息作为采样信息对应分发给所述第一计算单元组中的各计算单元,以使所述各计算单元基于所述子分区确定采样起始点。4.如权利要求1所述的方法,基于所述多个样本子图,确定各计算单元组中计算单元的采样信息之前,还包括:获取各样本子图的样本节点热度和节点关系热度;基于所述节点关系热度对样本节点数据之间的关联关系进行排序,获得关系排列顺序;基于所述样本节点热度对样本节点数据进行排序,获得节点排列顺序;相应地,基于所述多个样本子图,确定各计算单元组中计算单元的采样信息,包括:确定各计算单元对应的子分区;根据所述子分区、所述节点排列顺序和所述关系排列顺序确定各计算单元的采样信息。5.如权利要求4所述的方法,根据所述子分区、所述节点排列顺序和所述关系排列顺序确定各计算单元的采样信息,包括:确定所述训练平台中各计算单元的任务处理空间;根据所述任务处理空间对所述节点排列顺序和所述关系排列顺序进行调整,获得目标节点排列顺序和目标关系排列顺序;基于所述目标节点排列顺序、所述目标关系排列顺序和所述子分区确定各计算单元对
应的采样信息。6.如权利要求4所述的方法,基于所述多个样本子图,确定各计算单元组中计算单元的采样信息之前,还包括:获取图采样事物总数,其中,所述图采样事物总数基于对所述样本图的预采样获得;基于所述图采样事物总数、所述节点关系热度、所述样本节点热度、所述节点排列顺序和所述关系排列顺序计算各计...

【专利技术属性】
技术研发人员:孙杰沈雯婷王磊于文渊李永周靖人苏立
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1