本发明专利技术公开了一种基于本体库内容的SPARQL查询语句生成系统,其基于d3.js的可视化技术以及对本体库的URI进行索引检索的思想,通过用户在前台使用系统提供的图形绘制部件构建出查询图,并对每一个部件赋予自然语言的标签,由后台实时响应每一个新构建的部件,并在已经索引的URI中检索出Top-K个匹配部件标签的URI,交由用户选择最符合自己查询意图的URI,同时提供用户定制的查询限制,最终自动生成SPARQL查询语句对RDF数据库进行查询,极大地方便了对本体库的Schema不熟悉,或者不了解SPARQL语法的用户对数据库进行查询。
【技术实现步骤摘要】
一种基于本体库内容的SPARQL查询语句生成系统
本专利技术属于数据查询
,具体涉及一种基于本体库内容的SPARQL(SimpleProtocolandRDFQueryLanguage,RDF查询语言协议)查询语句生成系统。
技术介绍
随着科学技术的发展,信息爆炸式的增长使得按照传统方式获取所需知识变得异常困难,用户往往需要反复浏览重复的信息或者垃圾信息才能够得到满意的答案,语义网络作为一种描述概念与概念之间语义关联的知识表现形式,能够提供让机器理解的语义关联,从而使得机器能够代替人工,进行简单而繁复的知识提取以及便于理解的可视化展示。当前的语义网络技术正在蓬勃发展,W3C(万维网联盟)工作组已经针对语义网络技术制定了大量的协议规范,其中就包括目前广泛使用的RDF(ResourceDescriptionFramework,资源描述框架)资源描述框架,以及针对RDF数据库进行规范化查询的语法定义SPARQL。目前,已经有很多国外的开发者社区、公司以及政府机构构建了大量基于RDF资源描述框架的三元组知识库,比如基于维基百科半结构化内容构建的DBpedia、基于众包技术构建起来的大规模知识库FreeBase以及通过权威手工编辑的Cyc知识库等等,LinkedofData网站上汇聚了目前已经公开发布的数百个三元组知识库,这些知识库都可以通过统一的SPARQL接口进行查询访问。然而,随着新三元组的不断增加,单个知识库的内容日渐庞大,根据SPARQL语法的特性,用户在查询某一个知识点的时候不得不记住复杂的URI(UniformResourceIdentifier,统一资源描述符)以及本体schema(公理系统)来对知识库进行查询,往往当用户拼写错误一个URI符号时,会直接导致获取不到任何结果;另外一方面,在当前技术条件下,用户若想查询RDF数据库,也不得不首先要了解SPARQL语句构建的语法。因此如何方便用户查询,使得用户在使用规模巨大的知识库时不必要记住大量URI拼写,同时也不用考虑本体属性、类型得设计而直接通过自然语言的关键词来进行查询就成了一项具有挑战的工作。传统的搜索引擎检索文档的方案在一定程度上启发了我们寻找解决上述问题的方案。如我们所知,传统搜索引擎能够高效地在亿万级别数量规模的文档集上进行索引,同时快速地响应用户提供的查询词检索,然而问题在于搜索引擎的检索过程同样是基于字符串的完全匹配,同时检索的文档具有大量的内容,这一场景又区别于需要模糊字符串匹配以及URI字符串大多短小的当前困境。不过近年来,搜索引擎技术的进一步发展,推出了查询词推荐以及纠错这一用户友好的关键技术。充分利用统计规律以及字符串改写技术,加上预先对本体schema的处理,以及d3.js(用于网页作图、生成互动图形的JavaScript函数库)等可视化手段,使得构建出一个对用户友好、并能高效利用SPARQL查询RDF知识库的系统成为可能。
技术实现思路
针对现有技术所存在的上述技术问题,本专利技术提供了一种基于本体库内容的SPARQL查询语句生成系统,能够方便对本体库的Schema不熟悉或者不了解SPARQL语法的用户对数据库进行查询。一种基于本体库内容的SPARQL查询语句生成系统,包括在线模块和离线模块;其中:所述的在线模块用于为用户提供查询编辑界面和结果展示界面,实时生成SPARQL查询语句,并展示最终的查询结果;所述的离线模块用于更新服务内容,对本体库中的部分URI字符串进行索引。所述的离线模块对本体库中的部分URI字符串进行索引的具体实现过程如下:1.1准备好符合规范的RDF三元组数据;1.2读取所述的RDF三元组数据,从中提取需要索引的URI字符串,对URI字符串进行数据清洗;1.3将步骤1.1中的RDF三元组数据存储到提供SPARQL查询端点的图数据库中,将步骤1.2中清洗保留下来的URI字符串分类别进行切片截取以得到URI字符串切片后的倒排索引,并进一步为倒排索引的URI字符串提供检索接口;1.4根据步骤1.2中清洗保留下来的URI字符串创建字符串转换规则库,进一步提供字符串转换规则库的自定义转换接口。所述的步骤1.2中提取关于label、type、property、sameAs这四类URI字符串,并对这四类URI字符串进行数据清洗。所述的步骤1.3中切片截取的具体实现方式为:将清洗保留下来的URI字符串分类别按照n-gram滑动窗口截取之后利用Trie树数据结构创建倒排索引。所述的步骤1.4中创建字符串转换规则库的具体实现方式为:利用步骤1.2清洗过程中得到的sameAs信息直接进行哈希存储,另外利用所述的自定义转换接口为开发者输入特定的转换规则。所述的在线模块为用户提供查询编辑界面,实时生成SPARQL查询语句并展示最终查询结果的具体实现过程如下:2.1采用d3.js可视化控件创建用户编辑的图形化界面,该图形化界面提供节点编辑、连接节点的边编辑以及对节点和边加入自然语言标签的编辑;其中节点或边的自然语言标签有以下两种模式,这两种模式与SPARQL的两种绑定对应一致:a.查询模式,代表要查询节点的信息,对应SPARQL的未知变量;b.绑定URI模式,用以描述节点或边,对应SPARQL查询中的已知URI;2.2后台的检索接口用于响应b模式的字符串检索;应用所述的字符串转换规则库的转换规则,将用户编辑的自然语言标签转换成URI字符串,进一步对自然语言标签及其转换后URI字符串的切片,利用所述的倒排索引进行检索,得到对应的URI列表并进行合并,统计URI字符串的出现次数,然后将在合并后列表中出现次数为top-K的URI字符串返回给前台图形化界面以进行展示,K为大于1的自然数;2.3在前台图形化界面上用户对于每一个b模式的自然语言标签从top-K中选择一个最为合适的URI字符串之后点击查询,后台响应前台传输的用户编辑图中的节点-边描述集合,通过结合部分filter信息,生成最终的SPARQL查询语句,进一步与图数据库交互,查询到结果返回。本专利技术与现有技术相比,具有以下有益技术效果:(1)本专利技术降低了RDF数据库查询难度,用户可以不必要了解具体的数据库中具体内容,不必要知道原始数据的本体设计,从而通过自然语言的标签来获取具体的URI;(2)本专利技术便于用户描述查询意图以及方便用户设计查询,用户不需要了解具体的查询语句语法(适用于但不仅限于SPARQL),仅仅是通过编辑图形,进而查询RDF数据库;(3)本专利技术将图数据库的使用者与图数据库的建设者隔离,减少图数据库的建设者在建设图数据库的过程中需要考虑的诸多因素;(4)本专利技术的B/S架构设计可以作为进一步设计分布式的应用的基础,便于扩展。附图说明图1为本专利技术SPARQL查询语句生成系统的系统架构图。图2为本专利技术SPARQL查询语句生成系统的工作流程示意图。具体实施方式为了更为具体地描述本专利技术,下面结合附图及具体实施方式对本专利技术的技术方案进行详细说明。如图1所示,本专利技术基于本体库内容的SPARQL查询语句生成的系统,包括在线响应模块和离线预处理模块,其中在线模块由客户端使用界面和服务器分析、生成查询接口组成,离线预处理模块主要有数据清洗组件和字符串检索组件;客户端是采用d3.j本文档来自技高网...
【技术保护点】
一种基于本体库内容的SPARQL查询语句生成系统,包括在线模块和离线模块;其特征在于:所述的在线模块用于为用户提供查询编辑界面和结果展示界面,实时生成SPARQL查询语句,并展示最终的查询结果;所述的离线模块用于更新服务内容,对本体库中的部分URI字符串进行索引。
【技术特征摘要】
1.一种基于本体库内容的SPARQL查询语句生成系统,包括在线模块和离线模块;其特征在于:所述的在线模块用于为用户提供查询编辑界面和结果展示界面,实时生成SPARQL查询语句,并展示最终的查询结果;所述的离线模块用于更新服务内容,对本体库中的部分URI字符串进行索引;所述的离线模块对本体库中的部分URI字符串进行索引的具体实现过程如下:1.1准备好符合规范的RDF三元组数据;1.2读取所述的RDF三元组数据,从中提取需要索引的URI字符串,对URI字符串进行数据清洗;1.3将步骤1.1中的RDF三元组数据存储到提供SPARQL查询端点的图数据库中,将步骤1.2中清洗保留下来的URI字符串分类别进行切片截取以得到URI字符串切片后的倒排索引,并进一步为倒排索引的URI字符串提供检索接口;1.4根据步骤1.2中清洗保留下来的URI字符串创建字符串转换规则库,进一步提供字符串转换规则库的自定义转换接口;所述的在线模块为用户提供查询编辑界面,实时生成SPARQL查询语句并展示最终查询结果的具体实现过程如下:2.1采用d3.js可视化控件创建用户编辑的图形化界面,该图形化界面提供节点编辑、连接节点的边编辑以及对节点和边加入自然语言标签的编辑;其中节点或边的自然语言标签有以下两种模式,这两种模式与SPARQL的两种绑定对应一致;a.查询模式,代表要查询节点的信息,对应SPARQL的未知变量;b.绑定URI模式,用以描述节点或边,对应SPARQL查询中的已知URI;2.2后台...
【专利技术属性】
技术研发人员:王东辉,熊逵,李亚南,蔺越檀,孙欢,黄鹏程,洪高峰,徐灿,梁建增,庄越挺,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。