一种图数据分析方法、装置及计算机可读存储介质制造方法及图纸

技术编号:28476337 阅读:10 留言:0更新日期:2021-05-15 21:45
本发明专利技术公开了一种图数据分析方法、装置及计算机可读存储介质,将大规模图数据转换为扩展随机样本划分GRSP数据模型;基于GRSP数据模型选择若干GRSP数据块构造图数据子集;基于图数据子集分析拟合原始图数据。通过本发明专利技术的实施,当需要对整个大数据集做数据分析时,可随机选取若干数据块来近似分析整个数据集,有效提高了图数据分析的效率。提高了图数据分析的效率。提高了图数据分析的效率。

【技术实现步骤摘要】
一种图数据分析方法、装置及计算机可读存储介质


[0001]本专利技术涉及分布式计算
,尤其涉及一种图数据分析方法、装置及计算机可读存储介质。

技术介绍

[0002]现实世界中,图数据广泛应用于对复杂对象建模。根据图的大小和数量,图数据的分析任务可以分为两类:第一类是分析一个超大型的图,如互联网入侵数据、Web和社交网络数据等;第二类是分析大量相对较小的图,如化学数据、药物发现数据和电信通话模式数据。两种分析任务通常会采用不同的算法。然而,两类分析任务均面临如下挑战,即当图数据存储占用远远超过计算机系统的内存大小时(如TB级图形数据),诸如图像模式发现、聚类以及分类等算法的执行性能将急剧下降,甚至无法进行。
[0003]业界在大型图分析方向已经展开了广泛的研究,针对图搜索、图查询语言、网络中的社区发现等领域提出许多技术方案和方法。然而,随着数据的不断增长,大多数现有图分析领域都面临巨大的时间和空间开销。为解决上述问题,研究人员开始使用分布式框架处理图形数据,例如GraphX、GraphLab、G

store、GraphFrames等。Cai等人提出的图嵌入方法也是一种有效的图数据分析方法,它将图投影到保留了图信息的低维空间中,然后采用机器学习的方法进行分析。
[0004]与大型图分析不同,包含大量小图的图数据需要不同的图分析方法,如频繁图模式发现、图对象的分类和聚类等。由于图对象的数据通常存储在多个数据表中,因此,必须将数据放入到内存中以图对象形式进行全面分析。当图对象不能完全导入到内存时,分析性能将大大降低甚至无法进行。在这种情况下,使用图对象样本来估计整个图对象集是一种替代方法,该方法通常用于大型交易数据集的频繁项集分析中。但是,如果无法将数据全部载入到内存,从大数据集获取多个随机样本也是一个计算量巨大的任务。

技术实现思路

[0005]本专利技术实施例的主要目的在于提供一种图数据分析方法、装置及计算机可读存储介质,至少能够解决相关技术中所提供的图数据分析方式的分析效率较低的问题。
[0006]为实现上述目的,本专利技术实施例第一方面提供了一种图数据分析方法,该方法包括:
[0007]将大规模图数据转换为扩展随机样本划分GRSP数据模型;其中,所述大规模图数据中包括若干小图;
[0008]基于所述GRSP数据模型选择若干GRSP数据块构造图数据子集;
[0009]基于所述图数据子集分析拟合原始图数据。
[0010]为实现上述目的,本专利技术实施例第二方面提供了一种图数据分析装置,该装置包括:
[0011]转换模块,用于将大规模图数据转换为扩展随机样本划分GRSP数据模型;其中,所
述大规模图数据中包括若干小图;
[0012]构造模块,用于基于所述GRSP数据模型选择若干GRSP数据块构造图数据子集;
[0013]分析模块,用于基于所述图数据子集分析拟合原始图数据。
[0014]为实现上述目的,本专利技术实施例第三方面提供了一种电子装置,该电子装置包括:处理器、存储器和通信总线;
[0015]所述通信总线用于实现所述处理器和存储器之间的连接通信;
[0016]所述处理器用于执行所述存储器中存储的一个或者多个程序,以实现上述任意一种图数据分析方法的步骤。
[0017]为实现上述目的,本专利技术实施例第四方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任意一种图数据分析方法的步骤。
[0018]根据本专利技术实施例提供的图数据分析方法、装置及计算机可读存储介质,将大规模图数据转换为扩展随机样本划分GRSP数据模型;基于GRSP数据模型选择若干GRSP数据块构造图数据子集;基于图数据子集分析拟合原始图数据。通过本专利技术的实施,当需要对整个大数据集做数据分析时,可随机选取若干数据块来近似分析整个数据集,有效提高了图数据分析的效率。
[0019]本专利技术其他特征和相应的效果在说明书的后面部分进行阐述说明,且应当理解,至少部分效果从本专利技术说明书中的记载变的显而易见。
附图说明
[0020]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本专利技术第一实施例提供的图数据分析方法的基本流程示意图;
[0022]图2为本专利技术第一实施例提供的图对象的树状结构模型示意图;
[0023]图3为本专利技术第一实施例提供的基本表的结构示意图;
[0024]图4为本专利技术第一实施例提供的阿里云负载追踪数据中的三种有向无环图;
[0025]图5为本专利技术第一实施例提供的基本表结果示意图;
[0026]图6为本专利技术第一实施例提供的BNF文法规则的示意图;
[0027]图7为本专利技术第一实施例提供的图对象编码算法伪代码示意图;
[0028]图8为本专利技术第一实施例提供的图对象的字符串表达形式示意图;
[0029]图9为本专利技术第一实施例提供的图对象解码算法伪代码示意图;
[0030]图10为本专利技术第一实施例提供的不同数据子集在同一个拓扑特征上的概率密度分布示意图;
[0031]图11为本专利技术第一实施例提供的图对象聚类分布结果示意图;
[0032]图12为本专利技术第二实施例提供的图数据分析装置的程序模块示意图;
[0033]图13为本专利技术第三实施例提供的电子装置的结构示意图。
具体实施方式
[0034]为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0035]第一实施例:
[0036]根据图的大小和数量,当前图数据的分析任务可以分为两类:第一类是分析一个超大型的图,如互联网入侵数据、Web和社交网络数据等;第二类是分析大量相对较小的图,如化学数据、药物发现数据和电信通话模式数据。本实施例主要涉及第二类分析任务。具体的,本实施例使用两个图数据集展开说明,第一个是包含随机生成的一百万个连接图对象的综合数据集,第二个是网络下载的Alibaba data center workload trace data数据集,经过预处理后,本实施例获得了超过300万个图对象,每个图对象代表数据中心云上一个作业的执行轨迹,这些作业均在8天内完成。只包含一个节点的图无法计算拓扑特征,因此,本实施例删除了只有一个节点的图对象,在实践中,应当将它们单独处理。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图数据分析方法,其特征在于,包括:将大规模图数据转换为扩展随机样本划分GRSP数据模型;其中,所述大规模图数据中包括若干小图;基于所述GRSP数据模型选择若干GRSP数据块构造图数据子集;基于所述图数据子集分析拟合原始图数据。2.如权利要求1所述的图数据分析方法,其特征在于,所述将大规模图数据转换为扩展随机样本划分GRSP数据模型的步骤,包括:从目标存储单元抽取大规模图数据的所有图对象,并将所述图对象存储至指定结构表;其中,所述目标存储单元包括图数据文件和/或数据库;将所述结构表中每个图对象转换为文本字符串;将所述文本字符串组成的数据集转换为GRSP数据模型。3.如权利要求2所述的图数据分析方法,其特征在于,所述图对象采用树状结构的根节点表示,所述根节点包括三个子节点,所述三个子节点分别代表节点集、边集和图对象特征集;所述将所述图对象存储至指定结构表的步骤,包括:将所述图对象以及相应图对象特征存储至第一基本表,将所述节点集以及相应节点特征存储至第二基本表,将所述边集以及相应边特征存储至第三基本表。4.如权利要求2所述的图数据分析方法,其特征在于,所述将所述文本字符串组成的数据集转换为GRSP数据模型的步骤,包括:结合第一定义、第二定义以及第三定义,将所述文本字符串组成的数据集转换为GRSP数据模型;所述第一定义表示为:T(G)

>X所述第二定义表示为:T={T1,T2,

,T
n
}T(G)

>X={X1,X2,

,X
n
}所述第三定义表示为:其中,G表示包含N个图对象的数据集,G={G1,G2,

,G
N
},X表示一个所述数据集的特征,函数T(G)具有特定分布P,K表示所述GRSP数据模型的数据块数量,每个数据块均为G的一个随机化样本,当P
i
=P时,表示所述数据集子集G
i
的期望分布P
...

【专利技术属性】
技术研发人员:戴智翔孙旭东龙浩吴胤旭
申请(专利权)人:蓝鲸国数深圳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1