System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
本公开总体上涉及图模型训练和评估。更具体地,本公开涉及生成多个合成图数据集、训练多个图模型,以及基于来自经训练的图模型的输出来生成评估数据,该评估数据可用于推断用于将来在未见过的(unseen)数据上使用模型的参数。
技术介绍
1、为特定任务选择图模型可为困难的。此外,了解特定图模型的优势和劣势可为困难的。另外,训练数据集的供应可受到限制。即使对于利用较大训练数据集的评估,结果的报告也可能仅限于输出数据的小的子集。
2、具体地,尽管在图神经网络(gnns)领域取得了进展,但目前只有极少数(~5)数据集用于评估新模型。这可在根本上进行限制,因为任何一个图数据集可对gnn的性能特性提供有限的洞察。此外,有限的评估图集合可主要是为了方便而选择,并且可能不代表网络上可用的图的底层分布。
3、尽管一直致力于改进gnn基准数据集并使其标准化,但随着时间的推移,仅依赖少数图数据集对该领域是不利的,有以下三个原因:泛化不足、增加的过度拟合和不可扩展的开发。由于泛化不足,每个精选的图数据集可表示可与当前特定gnn任务相关联的所有可能数据集的空间中的仅一个点。因此,特定数据集中的图(或多个图)可具有相比于其他gnn模型有利于某些gnn模型的属性;然而,尚未见过的图可具有不同的特性,这些特性可推翻从单一试验中获得的任何洞察。对于增加的过度拟合,gnn任务数据集可跨论文依次重复使用,以准确衡量新架构的增加的改进。这可导致新架构与数据集过度拟合,如可针对nlp任务和计算机视觉任务观察到的。对于不可扩展的开发,可能已经特别关注gnn
技术实现思路
1、本公开的实施例的各方面和优点将部分地在以下描述中阐述,或者可从描述中学习,或者可通过实施例的实践来学习。
2、本公开的一个示例方面涉及一种计算系统。该系统可包括一个或多个处理器以及共同存储指令的一个或多个非暂时性计算机可读介质,所述指令在由一个或多个处理器执行时使计算系统执行操作。操作可以包括由一个或多个生成器生成多个合成图数据集。在一些实现方式中,多个合成图数据集可以包括结构化图数据。操作可以包括利用多个合成图数据集的至少子集训练多个图模型以生成多个经训练的图模型。操作可以包括利用多个经训练的图模型处理来自多个合成图数据集的一个或多个输入以生成多个图输出。在一些实现方式中,操作可以包括基于多个图输出之间的比较来确定多个图模型中的特定图模型,并且存储与特定图模型相关联的数据。
3、在一些实现方式中,操作可以包括基于多个图输出生成与多个图模型相关联的评估表示,并且提供该评估表示以供显示。多个合成图数据集中的每个合成图数据集可以包括参数化概率分布的实现。在一些实现方式中,多个合成图数据集中的每个合成图数据集可以包括一个或多个训练图、一个或多个训练特征和一个或多个训练标签。一个或多个生成器可以包括一个或多个属性图生成器。在一些实现方式中,一个或多个生成器可以包括一个或多个标签生成器。多个图模型中的每个图模型可以包括图神经网络。多个合成图数据集的子集和来自多个合成图数据集的一个或多个输入可以不同。
4、在一些实现方式中,操作可以包括从用户计算装置获得用户输入图模型,并且利用多个合成图数据集中的第一合成图数据集训练用户输入图模型以生成第一经训练的图模型。操作可以包括利用多个合成图数据集中的第二合成图数据集训练用户输入图模型以生成第二经训练的图模型,并且利用第一经训练的图模型处理多个合成图数据集的测试部分以生成多个第一用户模型输出。在一些实现方式中,操作可以包括利用第二经训练的图模型处理多个合成图数据集的测试部分以生成多个第二用户模型输出,并且比较多个第一用户模型输出与多个第二用户模型输出。
5、在一些实现方式中,操作可以包括至少部分地基于多个第一用户模型输出和多个第二用户模型输出生成评估数据并将评估数据提供给用户计算装置。操作可以包括基于多个第一用户模型输出、多个第二用户模型输出和多个图输出生成比较数据,并且将比较数据提供给用户计算装置。
6、在一些实现方式中,操作可以包括获得与特定任务相关联的输入数据。利用多个合成图数据集的至少子集训练多个图模型以生成多个经训练的图模型可以包括训练多个图模型以执行特定任务。可以基于输入数据生成多个合成图数据集,并且多个合成图数据集可以包括与特定任务相关联的多个标签。
7、利用多个合成图数据集的至少子集训练多个图模型以生成多个经训练的图模型可以包括利用多个合成图数据集中的第一合成图数据集训练多个图模型中的第一图模型以生成第一经训练的图模型,并且利用多个合成图数据集中的第二合成图数据集训练多个图模型中的第一图模型以生成第二经训练的图模型。利用多个合成图数据集的至少子集训练多个图模型以生成多个经训练的图模型可以包括利用多个合成图数据集中的第一合成图数据集训练多个图模型中的第二图模型以生成第三经训练的图模型,并且利用多个合成图数据集中的第二合成图数据集训练多个图模型中的第二图模型以生成第四经训练的图模型。在一些实现方式中,多个经训练的图模型可以包括第一经训练的图模型、第二经训练的图模型、第三经训练的图模型和第四经训练的图模型。
8、本公开的另一示例方面涉及一种计算机实现的方法。方法可以包括:由包括一个或多个处理器的计算系统生成多个合成图数据集。在一些实现方式中,多个合成图数据集可以包括结构化图数据。方法可以包括由计算系统利用多个合成图数据集的至少子集训练多个图模型以生成多个经训练的图模型。方法可以包括由计算系统利用多个经训练的图模型处理来自多个合成图数据集的一个或多个输入以生成多个图输出。在一些实现方式中,方法可以包括由计算系统基于多个图输出生成与多个图模型相关联的评估表示,以及由计算系统提供该评估表示以供显示。
9、在一些实现方式中,评估表示可以包括描述多个图模型的节点分类的评估数据。评估表示可以包括描述多个图模型的链接预测的评估数据。
10、本公开的另一示例方面涉及一个或多个非暂时性计算机可读介质,该一个或多个非暂时性计算机可读介质共同存储指令,所述指令在由一个或多个计算装置执行时使一个或多个计算装置执行操作。操作可以包括获得与用户相关联的输入数据。操作可以包括由一个或多个生成器至少部分地基于输入数据生成多个合成图数据集。在一些实现方式中,多个合成图数据集可以包括结构化图数据。操作可以包括利用多个合成图数据集的至少子集训练多个图模型以生成多个经训练的图模型。操作可以包括利用多个经训练的图模型处理来自多个合成图数据集的一个或多个输入以生成多个图输出。在一些实现方式中,操作可以包括基于多个图输出生成与多个图模型相关联的输出表示。操作可以包括提供输出表示以供显示。
11、在一些实现方式中,输出表示可以包括基于与多个图模型相关联的多个图输出的特征中心距离的图形描绘。输出表示可以包括矢量图统计数据和超参数评估数据。本文档来自技高网...
【技术保护点】
1.一种计算系统,所述系统包括:
2.如任一项前述权利要求所述的计算系统,其中所述操作进一步包括:
3.如任一项前述权利要求所述的计算系统,其中所述多个合成图数据集中的每个合成图数据集包括参数化概率分布的实现。
4.如任一项前述权利要求所述的计算系统,其中所述多个合成图数据集中的每个合成图数据集包括一个或多个训练图、一个或多个训练特征和一个或多个训练标签。
5.如任一项前述权利要求所述的计算系统,其中所述一个或多个生成器包括一个或多个属性图生成器。
6.如任一项前述权利要求所述的计算系统,其中所述一个或多个生成器包括一个或多个标签生成器。
7.如任一项前述权利要求所述的计算系统,其中所述多个图模型中的每个图模型包括图神经网络。
8.如任一项前述权利要求所述的计算系统,其中所述多个合成图数据集的所述子集和来自所述多个合成图数据集的所述一个或多个输入不同。
9.如任一项前述权利要求所述的计算系统,其中所述操作进一步包括:
10.如权利要求9所述的计算系统,其中所述操作进一步包括
11.如任一项前述权利要求所述的计算系统,其中所述操作进一步包括:
12.如任一项前述权利要求所述的计算系统,其中所述操作进一步包括:
13.如权利要求12所述的计算系统,其中基于所述输入数据生成所述多个合成图数据集;并且其中所述多个合成图数据集包括与所述特定任务相关联的多个标签。
14.如任一项前述权利要求所述的计算系统,其中利用所述多个合成图数据集的至少所述子集训练所述多个图模型以生成所述多个经训练的图模型包括:
15.一种计算机实现的方法,所述方法包括:
16.如任一项前述权利要求所述的方法,其中所述评估表示包括描述所述多个图模型的节点分类的评估数据。
17.如任一项前述权利要求所述的方法,其中所述评估表示包括描述所述多个图模型的链接预测的评估数据。
18.一种或多种非暂时性计算机可读介质,所述一种或多种非暂时性计算机可读介质共同存储指令,所述指令在由一个或多个计算装置执行时使所述一个或多个计算装置执行操作,所述操作包括:
19.如任一项前述权利要求所述的一种或多种非暂时性计算机可读介质,其中所述输出表示包括基于与所述多个图模型相关联的所述多个图输出的特征中心距离的图形描绘。
20.如任一项前述权利要求所述的一种或多种非暂时性计算机可读介质,其中所述输出表示包括矢量图统计数据和超参数评估数据。
...【技术特征摘要】
【国外来华专利技术】
1.一种计算系统,所述系统包括:
2.如任一项前述权利要求所述的计算系统,其中所述操作进一步包括:
3.如任一项前述权利要求所述的计算系统,其中所述多个合成图数据集中的每个合成图数据集包括参数化概率分布的实现。
4.如任一项前述权利要求所述的计算系统,其中所述多个合成图数据集中的每个合成图数据集包括一个或多个训练图、一个或多个训练特征和一个或多个训练标签。
5.如任一项前述权利要求所述的计算系统,其中所述一个或多个生成器包括一个或多个属性图生成器。
6.如任一项前述权利要求所述的计算系统,其中所述一个或多个生成器包括一个或多个标签生成器。
7.如任一项前述权利要求所述的计算系统,其中所述多个图模型中的每个图模型包括图神经网络。
8.如任一项前述权利要求所述的计算系统,其中所述多个合成图数据集的所述子集和来自所述多个合成图数据集的所述一个或多个输入不同。
9.如任一项前述权利要求所述的计算系统,其中所述操作进一步包括:
10.如权利要求9所述的计算系统,其中所述操作进一步包括:
11.如任一项前述权利要求所述的计算系统,其中所述操作进一步包括:
12.如任一项前述权利要求所...
【专利技术属性】
技术研发人员:A·茨舒琳,B·T·佩洛兹,B·梅尔,J·J·帕洛维奇,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。