【技术实现步骤摘要】
本专利技术涉及一种基于SPARKGRAPHX的大规模RDF数据关联路径发现方法,属于计算机软件
技术介绍
语义网是人工智能和Web技术相结合的产物,语义网的内容表达是基于XML(eXtensibleMarkupLangauge)语言和资源描述框架(RDF)来实现的。XML允许使用者以层次结构自定义标记来标注数据,并将其作为标注放置在网页中,以便计算机程序处理网页内容。XML的内容包括XML声明、定义语言语法的DTD(DocumentTypeDeclaration)、描述标记的详细说明及文档本身等。RDF是Web上用于数据交换的标准模型,继承了Web的连接结构,使用统一资源标识符(URI)描述网络上的节点以及节点间的联系,即三元组模型。使用这个简单的模型,允许结构化和半结构化的数据在不同的应用程序间共享。目前广泛用来检索RDF信息以及数据之间的关联路径都是通过拼接有限的SPARQL语句来完成数据关联路径的搜索,但目前的SPARQL只支持RDF数据基本模式的匹配查询,不支持对RDF数据节点间或者单节点周围可能存在的联系路径的查询,不能充分挖掘RDF数据节点间关联的特性,因此很难直接发挥RDF数据模型区别于其它数据模型的优势,而实际应用中不仅需要使用SPARQL对RDF数据进行基本模式匹配的查询,很多时候挖掘RDF数据节点间的联系也十分重要。目前也有一些专利技术和软件是在做RDF数据关联路径发现,例如RELFINDE ...
【技术保护点】
一种大规模RDF数据关联路径发现方法,其步骤为:1)RDF关联数据抽取模块连接每一设定的RDF数据库并抽取RDF数据库中的RDF关联数据,然后将抽取的所有RDF关联数据以三元组形式缓存;其中,该三元组形式为:主语url、谓语url、宾语url;2)关联数据组织模块对每一所述三元组数据中的主语和宾语分别分配一id,生成主语id及其对应url和宾语id及其对应url并存入到一点文档node.txt中;然后将主语id宾语id谓语url存储到一边文档edge.txt中;3)关联数据的存储和管理模块分别建立一边表格edges表和一点表格nodes表,然后将点文档node.txt中的内容存储到nodes表中,将边文档edge.txt中的内容存储到edges表中;4)关联数据构图模块根据nodes表构建出点弹性分布式数据集实例、根据edges表构建出边弹性分布式数据集实例;然后将该点弹性分布式数据集实例、边弹性分布式数据集实例进行实例化,得到一分布式图形数据集合;5)最大连通子图计算模块计算该分布式图形数据集合中数据的所属子图,生成若干个没有关联的最大连通子图;6)关联数据路径搜索模块将同一最大连通 ...
【技术特征摘要】
1.一种大规模RDF数据关联路径发现方法,其步骤为:
1)RDF关联数据抽取模块连接每一设定的RDF数据库并抽取RDF数据库中的RDF关
联数据,然后将抽取的所有RDF关联数据以三元组形式缓存;其中,该三元组形式
为:主语url、谓语url、宾语url;
2)关联数据组织模块对每一所述三元组数据中的主语和宾语分别分配一id,生成主语id
及其对应url和宾语id及其对应url并存入到一点文档node.txt中;然后将主语id宾
语id谓语url存储到一边文档edge.txt中;
3)关联数据的存储和管理模块分别建立一边表格edges表和一点表格nodes表,然后将
点文档node.txt中的内容存储到nodes表中,将边文档edge.txt中的内容存储到edges
表中;
4)关联数据构图模块根据nodes表构建出点弹性分布式数据集实例、根据edges表构建
出边弹性分布式数据集实例;然后将该点弹性分布式数据集实例、边弹性分布式数据
集实例进行实例化,得到一分布式图形数据集合;
5)最大连通子图计算模块计算该分布式图形数据集合中数据的所属子图,生成若干个没
有关联的最大连通子图;
6)关联数据路径搜索模块将同一最大连通子图中的点集合两两组合并计算每一组合中
两点之间的所有关联路径。
2.如权利要求1所述的方法,其特征在于,构建出所述点弹性分布式数据集实例的方法为:
首先从nodes表中获取id和url数据,创建一数组Array,用于存储node实例;然后通过
SparkContext序列化接口接收该数组Array,创建出所述点弹性分布式数据集实例。
3.如权利要求1或2所述的方法,其特征在于,构建出所述边弹性分布式数据集实例的方法
为:首先从edge表获取ididurl数据创建一数组Array,用于存储edge实例;然后通过
Sp...
【专利技术属性】
技术研发人员:高玥,黎建辉,周园春,侯艳飞,韩岳岐,
申请(专利权)人:中国科学院计算机网络信息中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。