一种图数据库的数据查询优化方法、系统和装置制造方法及图纸

技术编号:36934896 阅读:12 留言:0更新日期:2023-03-22 18:56
本申请涉及一种图数据库的数据查询优化方法、系统和装置,其中,该方法包括:获取图查询语句,根据图查询语句中图数据的连接顺序,得出若干候选执行任务;对图数据进行数据采样统计得出统计结果;根据统计结果,分别计算出各个候选执行任务的中间算子的结果行数;再根据中间算子的结果行数,分别计算出各个候选执行任务的执行代价;从若干候选执行任务中筛选出执行代价最小的候选执行任务,作为最佳执行任务,通过本申请,解决了如何提高图数据库的数据查询性能的问题,实现了对图查询语句中图数据的采样统计,基于该采样统计结果得出各候选执行任务的执行代价,使得代价计算更为准确,进而有效筛选出最佳执行任务,提升了图数据库的查询性能。据库的查询性能。据库的查询性能。

【技术实现步骤摘要】
一种图数据库的数据查询优化方法、系统和装置


[0001]本申请涉及图数据库
,特别是涉及一种图数据库的数据查询优化方法、系统和装置。

技术介绍

[0002]随着大数据和人工智能的迅猛发展,超大规模关系网络逐步在社交推荐、风控、物联网、区块链和安防等领域被广泛使用,分布式图数据库作为所有这些应用的技术基石之一,其需要处理的数据量成几何状增长。要确保图数据库数据处理的及时性、鲁棒性,对于容纳千亿个顶点和万亿条边的图数据库集群而言,要确保图数据查询的高可靠和高实时,需对现有数据查询方案进行优化。
[0003]现有图数据库的图查询过程中,影响查询性能的因素之一为计算引擎对查询语句的数据查询连接顺序的确定,如对于查询语句“MATCH (n:Person)

[e:Create]‑
>(m:App) RETURN n,e,m;”,由于n、e和m三者连接顺序的不同,计算引擎实际执行时对应有着多种候选执行计划,因此,如何为计算引擎确定合适的执行任务关乎到图数据库的整体查询性能。
[0004]目前针对相关技术中如何提高图数据库的数据查询性能,尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种图数据库的数据查询优化方法、系统和装置,以至少解决相关技术中如何提高图数据库的数据查询性能的问题。
[0006]第一方面,本申请实施例提供了一种图数据库的数据查询优化方法,所述方法包括:获取图查询语句,根据所述图查询语句中图数据的连接顺序,得出若干候选执行任务;通过预设统计规则对所述图数据进行数据采样统计,得出统计结果;根据所述统计结果,分别计算出各个候选执行任务的中间算子的结果行数;再根据所述中间算子的结果行数,分别计算出各个候选执行任务的执行代价;从所述若干候选执行任务中,筛选出执行代价最小的候选执行任务,作为最佳执行任务。
[0007]在其中一些实施例中,通过预设统计规则,对所述图数据进行数据采样统计包括:对于单列图数据,采用第一统计规则对所述单列图数据进行数据采样统计;对于多列图数据,分别采用所述第一统计规则和第二统计规则对所述多列图数据进行数据采样统计。
[0008]在其中一些实施例中,对于单列图数据,采用第一统计规则对所述单列图数据进行数据采样统计包括:对于单列图数据,统计所述单列图数据的第一数据特征,其中,所述第一数据特征
包括null值率、非重复率、高频值、直方图和相关系数。
[0009]在其中一些实施例中,对于多列图数据,采用所述第一统计规则第二统计规则对所述多列图数据进行数据采样统计包括:对于多列图数据,统计所述多列图数据的第一数据特征,其中,所述第一数据特征包括null值率、非重复率、高频值、直方图和相关系数;统计所述多列图数据的每两列图数据之间的函数依赖度。
[0010]在其中一些实施例中,根据所述统计结果,分别计算出各个候选执行任务的中间算子的结果行数包括:根据所述统计结果,计算出候选执行任务的中间算子的过滤条件选择率,计算出候选执行任务的中间算子的点边连接选择率,计算出候选执行任务的中间算子的一般等值连接选择率;再根据过滤条件选择率、点边连接选择率和一般等值连接选择率,得出候选执行任务的中间算子的结果行数。
[0011]在其中一些实施例中,根据所述统计结果,计算出候选执行任务的中间算子的过滤条件选择率包括:对于单个过滤约束,根据null值率、高频值和直方图,计算出候选执行任务的中间算子的过滤条件选择率;对于多个过滤约束,根据直方图和函数依赖度,计算出候选执行任务的中间算子的过滤条件选择率。
[0012]在其中一些实施例中,根据所述统计结果,计算出候选执行任务的中间算子的点边连接选择率包括:根据所述统计结果,计算出图数据的点边统计信息;再根据点边统计信息,计算出候选执行任务的中间算子的点边连接选择率,其中,所述点边连接选择率包括点和出边连接选择率、点和入边连接选择率,以及点边多次连接选择率。
[0013]在其中一些实施例中,根据所述统计结果,计算出候选执行任务的中间算子的一般等值连接选择率包括:将候选执行任务的中间算子涉及的数据表进行连接,得到若干连接部分,其中,所述连接部分包括第一连接部分、第二连接部分、第三连接部分和第四连接部分;根据所述统计结果,分别计算出各个连接部分的连接率,进而得出所述候选执行任务的中间算子的一般等值连接选择率。
[0014]第二方面,本申请实施例提供了一种图数据库的数据查询优化系统,所述系统包括预处理模块、数据采样统计模块、执行代价计算模块和执行任务筛选模块;所述预处理模块,用于获取图查询语句,根据所述图查询语句中图数据的连接顺序,得出若干候选执行任务;所述数据采样统计模块,用于通过预设统计规则对所述图数据进行数据采样统计,得出统计结果;所述执行代价计算模块,用于根据所述统计结果,分别计算出各个候选执行任务的中间算子的结果行数;再根据所述中间算子的结果行数,分别计算出各个候选执行任务
的执行代价;所述执行任务筛选模块,用于从所述若干候选执行任务中,筛选出执行代价最小的候选执行任务,作为最佳执行任务。
[0015]第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。
[0016]相比于相关技术,本申请实施例提供的一种图数据库的数据查询优化方法、系统和装置,该方法通过获取图查询语句,根据图查询语句中图数据的连接顺序,得出若干候选执行任务;设置预设统计规则对图数据进行数据采样统计得出统计结果;根据统计结果,分别计算出各个候选执行任务的中间算子的结果行数;再根据中间算子的结果行数,分别计算出各个候选执行任务的执行代价;从若干候选执行任务中筛选出执行代价最小的候选执行任务,作为最佳执行任务,解决了如何提高图数据库的数据查询性能的问题,实现了对图查询语句中图数据的采样统计,基于该采样统计结果得出各候选执行任务的执行代价,使得代价计算更为准确,进而有效筛选出最佳执行任务,提升了图数据库的查询性能。
附图说明
[0017]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1a是根据查询语句一生成的候选执行计划a的示意图;图1b是根据查询语句一生成的候选执行计划b的示意图;图2是根据本申请实施例的图数据库的数据查询优化方法的步骤流程图;图3是根据本申请实施例的图数据库的数据查询优化系统的结构框图;图4是根据本申请实施例的电子设备的内部结构示意图。
[0018]附图说明:31、预处理模块;32、数据采样统计模块;33、执行代价计算模块;34、执行任务筛选模块。
具体实施方式
[0019]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图数据库的数据查询优化方法,其特征在于,所述方法包括:获取图查询语句,根据所述图查询语句中图数据的连接顺序,得出若干候选执行任务;通过预设统计规则对所述图数据进行数据采样统计,得出统计结果;根据所述统计结果,分别计算出各个候选执行任务的中间算子的结果行数;再根据所述中间算子的结果行数,分别计算出各个候选执行任务的执行代价;从所述若干候选执行任务中,筛选出执行代价最小的候选执行任务,作为最佳执行任务。2.根据权利要求1所述的方法,其特征在于,通过预设统计规则,对所述图数据进行数据采样统计包括:对于单列图数据,采用第一统计规则对所述单列图数据进行数据采样统计;对于多列图数据,分别采用所述第一统计规则和第二统计规则对所述多列图数据进行数据采样统计。3.根据权利要求2所述的方法,其特征在于,对于单列图数据,采用第一统计规则对所述单列图数据进行数据采样统计包括:对于单列图数据,统计所述单列图数据的第一数据特征,其中,所述第一数据特征包括null值率、非重复率、高频值、直方图和相关系数。4.根据权利要求2所述的方法,其特征在于,对于多列图数据,采用所述第一统计规则第二统计规则对所述多列图数据进行数据采样统计包括:对于多列图数据,统计所述多列图数据的第一数据特征,其中,所述第一数据特征包括null值率、非重复率、高频值、直方图和相关系数;统计所述多列图数据的每两列图数据之间的函数依赖度。5.根据权利要求1所述的方法,其特征在于,根据所述统计结果,分别计算出各个候选执行任务的中间算子的结果行数包括:根据所述统计结果,计算出候选执行任务的中间算子的过滤条件选择率,计算出候选执行任务的中间算子的点边连接选择率,计算出候选执行任务的中间算子的一般等值连接选择率;再根据过滤条件选择率、点边连接选择率和一般等值连接选择率,得出候选执行任务的中间算子的结果行数。6.根据权利要求5所述的方法,其特征在于,根据所述统计结果,计算出候选执行任务的...

【专利技术属性】
技术研发人员:李文辉王玉珏吴敏叶小萌
申请(专利权)人:杭州悦数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1