当前位置: 首页 > 专利查询>清华大学专利>正文

海量图数据上的路径模式查询系统技术方案

技术编号:9113485 阅读:142 留言:0更新日期:2013-09-05 02:40
本发明专利技术提供的海量图数据上的路径模式查询系统,包括:用于将图数据存储在分布式集群上,并为其他模块提供数据读取功能的数据存储服务模块;用于将更新的日志合并到数据文件中的数据更新服务模块;,用于在计算过程中,协调服务负责机器间状态的同步的协调服务模块;用于对内管理各个成员机器,并进行查询的预处理、查询任务的分发,查询结果的收集的查询管理服务模块;用于实际执行查询的服务的并行计算服务模块。本发明专利技术提供的海量图数据上的路径模式查询系统,极大地方便了用户查询海量图数据,且很大程度上提高海量图数据的查询执行计划。

【技术实现步骤摘要】
海量图数据上的路径模式查询系统
本专利技术涉及海量图数据查询
,尤其是涉及一种海量图数据上的路径模式查询系统。
技术介绍
现代社会中,图的应用越来越广泛,数据的管理技术已被广泛应用于各个领域。其中互联网、社交网络、生物信息学等领域,对海量图数据的高效管理有着很高的需求。如何有效的管理和应用这些大图数据成为当前本领域技术人员所面临的极大挑战。当今随着信息技术的发展和社交网络的兴起,图数据管理技术已成为数据管理领域的研究热点之一。图数据集上的高效查询处理技术,尤其是海量规模图数据上的查询处理,成为解决社交网络分析等大数据时代典型应用的重要基础。许多高效的图查询算法都直接或间接地依赖于两个节点之间特定模式路径的高效计算,例如,GraphGrep子图查询处理算法需要检索所有的长度不大于L的路径;化合物分类算法需要统计带有特定标签的路径;社交网络分析算法中,需要找出边的颜色符合给定正则表达式的路径。这类问题统称为路径模式查询处理,或路径模式匹配,是图数据管理和挖掘中的一项基本操作。正则表达式在文本模式匹配领域有很广泛的应用,其强大的表达能力使之同样适用于定义图的路径模式。它能够在纯文本表达式中表达各种约束和成员的重复模式。因此,本文使用正则表达式定义路径模式,称为图的正则路径模式。现有一些图查询语言虽然支持正则路径查询,但是都存在一定不足。例如,GraphQL只支持有限的正则表达式。SPARQL只支持语义网络数据,难以直接扩展到通用的图数据中。近些年也出现了一些原生图数据库管理系统,如Neo4j、ApacheGiraph,但它们仍然存在一些问题:Neo4j是一个具有强一致性的数据库系统,在大型的分布式环境中性能较差;Giraph不支持高级查询语言,并非一个成熟完整的图数据管理系统。因此,当下需要迫切解决的一个技术问题就是:如何能够提出一种有效的措施,已解决现有技术中存在的问题。
技术实现思路
本专利技术所要解决的技术问题是提供一种海量图数据上的路径模式查询系统,极大地方便了用户查询海量图数据,且很大程度上提高海量图数据的查询执行计划。为了解决上述问题,本专利技术公开了一种海量图数据上的路径模式查询系统,包括数据存储服务模块、数据更新服务模块、协调服务模块、查询管理服务模块和并行计算服务模块,其中,所述数据存储服务模块,用于将图数据存储在分布式集群上,并为其他模块提供数据读取功能;所述数据更新服务模块,将更新的日志合并到数据文件中;所述协调服务模块,用于在计算过程中,协调服务负责机器间状态的同步;所述查询管理服务模块,用于对内管理各个成员机器,并进行查询的预处理、查询任务的分发,查询结果的收集;所述并行计算服务模块,用于实际执行查询的服务。进一步地,所述查询管理服务模块对外是一个集中式的查询接口,用于提供查询接口、数据更新接口以及会话管理的功能。进一步地,所述数据存储服务模块使用HDFS分布式文件系统完成图数据的存储。进一步地,所述数据更新服务模块是基于MapReduce构建将更新的日志合并到数据文件中的。综上,本方案能够高效并行执行G-Path查询,与大多数现有图数据管理系统兼容,极大地方便了用户查询海量图数据,且很大程度上提高海量图数据的查询执行计划。附图说明图1是本专利技术的海量图数据上的路径模式查询系统的结构示意图;图2是本专利技术具体实施方式中所述的错误!未找到引用源。中所示的查询自动机的例子示意图;图3是本专利技术具体实施方式中所述的数据集的一个模型图示意。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图与实例对本专利技术作进一步详细说明。但所举实例不作为对本专利技术的限定。针对以上问题,本文设计并实现了图数据上的一种正则路径查询语言——G-Path,支持传统正则表达式中的各类运算符,例如基本的克莱尼(Kleene)代数运算,和常见的PCRE(Perl-CompatibleRegularExpression,目前最常见的正则表达式语法)中的部分语法。基于整体同步并行(BSP)模型,我们实现了一个分布式算法来处理G-Path查询,并提出了若干优化策略来提高性能。由于整体同步并行模型在图数据处理领域有广泛的应用,G-Path也可以很容易移植到各种现有图数据管理与处理平台上(例如GooglePrege],ApacheGiraph)。同时,基于G-Path,本文开发了一个社交网络搜索应用。该应用可以接受用户搜索关键词,并在交互式用户界面上显示查询结果。它的数据集包含各种不同类型的顶点和边,可以显示G-Path查询的灵活性。本方案提出了G-Path,一个海量图数据上的路径模式查询系统。该系统基于Hadoop分布式框架和整体同步并行计算模型,可以在无预处理或索引的情况下,进行通用的路径模式查询。同时,为了演示该系统,我们还开发了一个图数据搜索应用,支持在DBLP数据集中搜索各类实体和关系。得益于G-Path的灵活性,该应用支持多种不同种类的查询。例如,某些用户需要搜索某人发表的文章,而另一些用户需要查找作者的合作关系。该应用使用一个图形界面交互式的接受用户输入查询和展示查询结果。参见图1,本专利技术所述的一种海量图数据上的路径模式查询系统,包括数据存储服务模块101、数据更新服务模块102、协调服务模块103、查询管理服务模块104和并行计算服务模块105,其中,所述数据存储服务模块,用于将图数据存储在分布式集群上,并为其他模块提供数据读取功能;所述数据更新服务模块,将更新的日志合并到数据文件中;所述协调服务模块,用于在计算过程中,协调服务负责机器间状态的同步;所述查询管理服务模块,用于对内管理各个成员机器,并进行查询的预处理、查询任务的分发,查询结果的收集;所述并行计算服务模块,用于实际执行查询的服务。优选的,所述查询管理服务模块对外是一个集中式的查询接口,用于提供查询接口、数据更新接口以及会话管理的功能。优选的,所述数据存储服务模块使用HDFS分布式文件系统完成图数据的存储。优选的,所述数据更新服务模块是基于MapReduce构建将更新的日志合并到数据文件中的。按照本专利技术所述的方案其主要贡献包括:首先,提出了一个通用的路径模式查询语言,称为G-Path,具有简单、通用的特点。此次,提出了一个基于BSP模型的G-Path查询处理算法,可高效并行执行G-Path查询,并与大多数现有图数据管理系统兼容。再次,开发了一个基于G-Path的社交网络搜索应用,能在社交网络数据集上根据关键字或路径模式进行搜索。该应用使用交互式图形用户界面接受输入并展示搜索结果。以下对本方案做细化介绍,2G-Path查询语言与查询系统本节首先简要介绍G-Path查询语言的定义,接下来介绍该语言的查询处理系统。该查询处理系统支持在图数据集上搜索给定的G-Path路径模式。它由两个重要部分组成:(1)编译,将文本查询转换成一个执行计划并进一步优化该计划。在G-Path查询系统中,执行计划用一个有限状态自动机表示,称之为查询自动机。(2)执行,使用整体同步并行模型对查询自动机进行并行执行。2.1G-Path查询语言G-Path查询语言可用于定义正则路径模式。它有语法简单、通用性强等特点。该语言只有两种基本字符:“.”(点号),“-”(减号)。本文档来自技高网
...
海量图数据上的路径模式查询系统

【技术保护点】
一种海量图数据上的路径模式查询系统,包括数据存储服务模块、数据更新服务模块、协调服务模块、查询管理服务模块和并行计算服务模块,其中,所述数据存储服务模块,用于将图数据存储在分布式集群上,并为其他模块提供数据读取功能;所述数据更新服务模块,将更新的日志合并到数据文件中;所述协调服务模块,用于在计算过程中,协调服务负责机器间状态的同步;所述查询管理服务模块,用于对内管理各个成员机器,并进行查询的预处理、查询任务的分发,查询结果的收集;所述并行计算服务模块,用于实际执行查询的服务。

【技术特征摘要】
2013.05.13 CN 201310175785.11.一种海量图数据上的路径模式查询系统,其特征在于,包括数据存储服务模块、数据更新服务模块、协调服务模块、查询管理服务模块和并行计算服务模块,其中,所述数据存储服务模块使用HDFS分布式文件系统完成图数据的存储,用于将图数据存储在分布式集群上,并为其他模块提供数据读取功能;所述数据更新服务模块基于MapReduce将更新的日志合并到数据文件中;所...

【专利技术属性】
技术研发人员:王朝坤白易元
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1