System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,特别是涉及一种图数据处理方法、装置、计算机设备、存储介质和计算机程序产品。
技术介绍
1、随着计算机技术的发展,出现了图嵌入技术,图嵌入技术已成为大规模图数据挖掘的一种有效技术手段。图嵌入的主要思想是将高维稀疏的原始图数据映射成低维度稠密的特征向量,从而得到图中每个节点与语义相关的嵌入表征。节点的嵌入表征能方便地应用于下游的具体任务,例如应用于下游的聚类、分类、关联分析或可视化任务中。
2、传统技术中,通常是基于消息传递神经网络将图中节点映射为为低维、稠密的嵌入表征,消息传递神经网络通过消息传播、消息聚合、消息更新进行多次迭代,从而将邻接节点的信息聚合到中心节点上,最终得到每个节点的嵌入表征。然而,在大规模的图中进行频繁的消息传播、消息聚合、消息更新的迭代操作往往非常耗时,导致消息传递神经网络的模型复杂度高,难以处理大规模图,存在效率低的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高节点嵌入表征的提取效率的图数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、本申请提供了一种图数据处理方法。所述方法包括:
3、获取训练数据集;所述训练数据集包括训练节点对中的第一节点和第二节点各自对应的节点标识、所述第一节点和所述第二节点各自对应的邻接节点标识集、所述训练节点对所对应的节点关系训练标签;所述训练数据集是基于节点关系图确定的;
4、将所述第一节点对应的节点标识和邻接节点标
5、针对所述第一初始模型和所述第二初始模型中任意的初始模型,通过初始模型,从预设语义嵌入特征集中查询输入的节点标识对应的语义嵌入特征、输入的邻接节点标识集中各个邻接节点标识各自对应的语义嵌入特征,对查询到的各个语义嵌入特征进行特征编码,输出所述节点标识所对应的节点的综合嵌入特征;所述预设语义嵌入特征集包括所述节点关系图中各个节点分别对应的语义嵌入特征;
6、基于所述第一节点和所述第二节点分别对应的综合嵌入特征之间的特征相似度,得到所述训练节点对所对应的节点关系预测标签;
7、基于所述训练节点对所对应的节点关系训练标签和节点关系预测标签之间的差异,调整所述第一初始模型和所述第二初始模型的模型参数,直至满足收敛条件,得到第一目标模型和第二目标模型;所述第一目标模型和所述第二目标模型分别用于对相应节点类型的节点进行语义表征。
8、本申请还提供了一种图数据处理装置。所述装置包括:
9、训练数据确定模块,用于获取训练数据集;所述训练数据集包括训练节点对中的第一节点和第二节点各自对应的节点标识、所述第一节点和所述第二节点各自对应的邻接节点标识集、所述训练节点对所对应的节点关系训练标签;所述训练数据集是基于节点关系图确定的;
10、模型处理模块,用于将所述第一节点对应的节点标识和邻接节点标识集输入第一初始模型,将所述第二节点对应的节点标识和邻接节点标识输入第二初始模型;针对所述第一初始模型和所述第二初始模型中任意的初始模型,通过初始模型,从预设语义嵌入特征集中查询输入的节点标识对应的语义嵌入特征、输入的邻接节点标识集中各个邻接节点标识各自对应的语义嵌入特征,对查询到的各个语义嵌入特征进行特征编码,输出所述节点标识所对应的节点的综合嵌入特征;所述预设语义嵌入特征集包括所述节点关系图中各个节点分别对应的语义嵌入特征;
11、预测标签确定模块,用于基于所述第一节点和所述第二节点分别对应的综合嵌入特征之间的特征相似度,得到所述训练节点对所对应的节点关系预测标签;
12、模型调整模块,用于基于所述训练节点对所对应的节点关系训练标签和节点关系预测标签之间的差异,调整所述第一初始模型和所述第二初始模型的模型参数,直至满足收敛条件,得到第一目标模型和第二目标模型;所述第一目标模型和所述第二目标模型分别用于对相应节点类型的节点进行语义表征。
13、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述图数据处理方法所述的步骤。
14、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述图数据处理方法所述的步骤。
15、一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述图数据处理方法所述的步骤。
16、上述图数据处理方法、装置、计算机设备、存储介质和计算机程序产品,获取训练数据集;训练数据集包括训练节点对中的第一节点和第二节点各自对应的节点标识、第一节点和第二节点各自对应的邻接节点标识集、训练节点对所对应的节点关系训练标签;训练数据集是基于节点关系图确定的;将第一节点对应的节点标识和邻接节点标识集输入第一初始模型,将第二节点对应的节点标识和邻接节点标识输入第二初始模型;针对第一初始模型和第二初始模型中任意的初始模型,通过初始模型,从预设语义嵌入特征集中查询输入的节点标识对应的语义嵌入特征、输入的邻接节点标识集中各个邻接节点标识各自对应的语义嵌入特征,对查询到的各个语义嵌入特征进行特征编码,输出节点标识所对应的节点的综合嵌入特征;预设语义嵌入特征集包括节点关系图中各个节点分别对应的语义嵌入特征;基于第一节点和第二节点分别对应的综合嵌入特征之间的特征相似度,得到训练节点对所对应的节点关系预测标签;基于训练节点对所对应的节点关系训练标签和节点关系预测标签之间的差异,调整第一初始模型和第二初始模型的模型参数,直至满足收敛条件,得到第一目标模型和第二目标模型;第一目标模型和第二目标模型分别用于对相应节点类型的节点进行语义表征。这样,单个模型中包含预设语义嵌入特征集,预设语义嵌入特征集包括针对节点关系图中各个节点预先提取的语义嵌入特征,预设语义嵌入特征集有助于降低模型复杂度、降低模型训练难度,模型将基于节点标识从预设语义嵌入特征集中查询到的单个节点和其邻居节点的语义嵌入特征进行特征编码,即可快速输出单个节点对应的综合嵌入特征。第一初始模型和第二初始模型组成双塔模型,第一初始模型用于处理训练节点对中第一节点的相关数据,第二初始模型用于处理训练节点对中第二节点的相关数据,基于第一初始模型和第二初始模型输出的综合嵌入特征确定训练节点对所对应的节点关系预测标签,基于训练节点对所对应的节点关系训练标签和节点关系预测标签之间的差异,调整双塔模型的模型参数,使得双塔模型提高特征编码能力,使得基于双塔模型输出数据确定的节点关系预测标签接近于节点关系训练标签,最终训练完成的双塔模型可以快速提取到图中各个节点准确的综合嵌入特征。
本文档来自技高网...【技术保护点】
1.一种图数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述获取训练数据集,包括:
4.根据权利要求1所述的方法,其特征在于,所述对查询到的各个语义嵌入特征进行特征编码,输出所述节点标识所对应的节点的综合嵌入特征,包括:
5.根据权利要求1所述的方法,其特征在于,所述初始模型包括用于查询语义嵌入特征的语义嵌入层、用于对所述节点标识对应的语义嵌入特征进行处理的第一处理层、用于对所述各个邻接节点标识对应的语义嵌入特征进行处理的第二处理层、用于对所述第一处理层和所述第二处理层输出的特征进行拼接的特征拼接层、用于对所述特征拼接层输出的特征进行特征交互的特征交互层;
6.根据权利要求1所述的方法,其特征在于,当所述训练数据集中各个训练节点对各自包含的第一节点和第二节点属于同一节点类型时,所述第一初始模型和所述第二初始模型的模型参数是共享的,所述第一目标模型和所述第二目标模型用于对同一节点类型的节点进行语义表征;
7.根据权
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
9.根据权利要求8所述的方法,其特征在于,所述将所述补充节点加入所述节点关系图,得到更新关系图,包括:
10.根据权利要求8所述的方法,其特征在于,所述从所述更新关系图中确定所述补充节点对应的邻接节点标识集,包括:
11.根据权利要求7所述的方法,其特征在于,所述方法还包括:
12.一种图数据处理装置,其特征在于,所述装置包括:
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种图数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述获取训练数据集,包括:
4.根据权利要求1所述的方法,其特征在于,所述对查询到的各个语义嵌入特征进行特征编码,输出所述节点标识所对应的节点的综合嵌入特征,包括:
5.根据权利要求1所述的方法,其特征在于,所述初始模型包括用于查询语义嵌入特征的语义嵌入层、用于对所述节点标识对应的语义嵌入特征进行处理的第一处理层、用于对所述各个邻接节点标识对应的语义嵌入特征进行处理的第二处理层、用于对所述第一处理层和所述第二处理层输出的特征进行拼接的特征拼接层、用于对所述特征拼接层输出的特征进行特征交互的特征交互层;
6.根据权利要求1所述的方法,其特征在于,当所述训练数据集中各个训练节点对各自包含的第一节点和第二节点属于同一节点类型时,所述第一初始模型和所述第二初始模型的模型参数是共享的,所述第一目标模型和所述第二目标模型用于对同一节点类型的节点进行语义表征;
7...
【专利技术属性】
技术研发人员:叶祺,王峰,牛晓蕾,刘正军,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。