一种图数据分析方法、装置及计算机可读存储介质制造方法及图纸

技术编号：28476337 阅读：10 留言：0更新日期：2021-05-15 21:45

本发明专利技术公开了一种图数据分析方法、装置及计算机可读存储介质，将大规模图数据转换为扩展随机样本划分GRSP数据模型；基于GRSP数据模型选择若干GRSP数据块构造图数据子集；基于图数据子集分析拟合原始图数据。通过本发明专利技术的实施，当需要对整个大数据集做数据分析时，可随机选取若干数据块来近似分析整个数据集，有效提高了图数据分析的效率。提高了图数据分析的效率。提高了图数据分析的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种图数据分析方法、装置及计算机可读存储介质

[0001]本专利技术涉及分布式计算
，尤其涉及一种图数据分析方法、装置及计算机可读存储介质。

技术介绍

[0002]现实世界中，图数据广泛应用于对复杂对象建模。根据图的大小和数量，图数据的分析任务可以分为两类：第一类是分析一个超大型的图，如互联网入侵数据、Web和社交网络数据等；第二类是分析大量相对较小的图，如化学数据、药物发现数据和电信通话模式数据。两种分析任务通常会采用不同的算法。然而，两类分析任务均面临如下挑战，即当图数据存储占用远远超过计算机系统的内存大小时(如TB级图形数据)，诸如图像模式发现、聚类以及分类等算法的执行性能将急剧下降，甚至无法进行。
[0003]业界在大型图分析方向已经展开了广泛的研究，针对图搜索、图查询语言、网络中的社区发现等领域提出许多技术方案和方法。然而，随着数据的不断增长，大多数现有图分析领域都面临巨大的时间和空间开销。为解决上述问题，研究人员开始使用分布式框架处理图形数据，例如GraphX、GraphLab、G
‑
store、GraphFrames等。Cai等人提出的图嵌入方法也是一种有效的图数据分析方法，它将图投影到保留了图信息的低维空间中，然后采用机器学习的方法进行分析。
[0004]与大型图分析不同，包含大量小图的图数据需要不同的图分析方法，如频繁图模式发现、图对象的分类和聚类等。由于图对象的数据通常存储在多个数据表中，因此，必须将数据放入到内存中以图对象形式进行全面分析。当图对象不能完全...

【技术保护点】

【技术特征摘要】
1.一种图数据分析方法，其特征在于，包括：将大规模图数据转换为扩展随机样本划分GRSP数据模型；其中，所述大规模图数据中包括若干小图；基于所述GRSP数据模型选择若干GRSP数据块构造图数据子集；基于所述图数据子集分析拟合原始图数据。2.如权利要求1所述的图数据分析方法，其特征在于，所述将大规模图数据转换为扩展随机样本划分GRSP数据模型的步骤，包括：从目标存储单元抽取大规模图数据的所有图对象，并将所述图对象存储至指定结构表；其中，所述目标存储单元包括图数据文件和/或数据库；将所述结构表中每个图对象转换为文本字符串；将所述文本字符串组成的数据集转换为GRSP数据模型。3.如权利要求2所述的图数据分析方法，其特征在于，所述图对象采用树状结构的根节点表示，所述根节点包括三个子节点，所述三个子节点分别代表节点集、边集和图对象特征集；所述将所述图对象存储至指定结构表的步骤，包括：将所述图对象以及相应图对象特征存储至第一基本表，将所述节点集以及相应节点特征存储至第二基本表，将所述边集以及相应边特征存储至第三基本表。4.如权利要求2所述的图数据分析方法，其特征在于，所述将所述文本字符串组成的数据集转换为GRSP数据模型的步骤，包括：结合第一定义、第二定义以及第三定义，将所述文本字符串组成的数据集转换为GRSP数据模型；所述第一定义表示为：T(G)
‑
＞X所述第二定义表示为：T＝{T1，T2，
…
，T
n
}T(G)
‑
＞X＝{X1，X2，
…
，X
n
}所述第三定义表示为：其中，G表示包含N个图对象的数据集，G＝{G1，G2，
…
，G
N
}，X表示一个所述数据集的特征，函数T(G)具有特定分布P，K表示所述GRSP数据模型的数据块数量，每个数据块均为G的一个随机化样本，当P
i
＝P时，表示所述数据集子集G
i
的期望分布P
...

【专利技术属性】
技术研发人员：戴智翔，孙旭东，龙浩，吴胤旭，
申请(专利权)人：蓝鲸国数深圳科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人