当前位置: 首页 > 专利查询>清华大学专利>正文

将可扩展标记语言文档树转化为紧凑查询树的方法技术

技术编号:2841888 阅读:177 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种将可扩展标记语言文档树转化为紧凑查询树的方法,属于网络数据处理技术领域。首先根据用户给定的关键字集合遍历可扩展标记语言文档树,删除树中不包含用户给定关键字的内容结点和孤立结点,得到可扩展标记语言文档查询树;遍历上述可扩展标记语言文档查询树,删除其中只有一个孩子结点的结构结点,并保持该结构结点的孩子结点与该结构结点的父亲结点之间的连接路径。利用本发明专利技术方法得到的紧凑查询树是可扩展标记语言文档查询树的子树,结构简单、明了、紧凑,包含的结点数量少,更加容易操作。而且不包含任何连接结点,用于关键字搜索时,不仅可以得到紧凑的连接树,而且查询结果更加有意义,满足用户的需求。

【技术实现步骤摘要】

本专利技术涉及一种,属于网络数据处理

技术介绍
传统的关系数据库和可扩展标记语言(eXtensible Markup Language,以下简称XML)文档数据库的查询处理方法主要是利用结构化查询语言(Structured Query Language,以下简称SQL)和XML查询语言(以下简称XQuery)进行查询。首先,对非专业的数据库用户来说,这些语言很难理解和掌握;第二,这些查询语言都需要复杂的数据库模式的支持。因此,传统的数据库查询方法虽然强大,但是对大多数用户来说并不友好。随着大量可扩展标记语言文档数据的出现,可扩展标记语言不再单纯的是为了增强应用程序对从网络上获得的文档的解释和操作能力,它已经逐步成为网上数据交换和数据表示的事实标准,而如何有效地存储和查询这些可扩展标记语言文档数据成为数据库界研究的一个热点问题。当前,关键字搜索已被广泛用于文本文档查询和万维网上的数据检索,数据库研究人员已经注意到了关键字搜索的便利之处,而且已经在关系数据库和可扩展标记语言文档数据库中引入了关键字搜索技术。目前,解决可扩展标记语言文档数据关键字搜索的有效方法之一就是在可扩展标记语言文档树中找出相关关键字的全部的最小共同祖先(Lowest Common Ancestor,简称LCA)。文献“L.Guo,F.Shao,C.Botev,and J.Shanmugasundaram.XRANKRanked KeywordSearch over XML Documents.In Proceedings of the 2003 ACM SIGMOD InternationalConference on Management of Data,San Diego,California,USA,2003.pp.16-27”首先提出了最小共同祖先的概念,并利用这个概念完成可扩展标记语言文档数据的关键字搜索。虽然该方法返回了一些子树作为关键字搜索的结果,但是它不能返回连接树来解释所有的关键字之间是如何相互连接的。
技术实现思路
本专利技术的目的是针对已有技术中基于最小共同祖先的关键字搜索方法存在的问题,提出一种,以适合半结构化数据的关键字搜索的数据结构,解决基于最小共同祖先的关键字搜索方法不能得到所有关键字的连接树的问题。本专利技术提出的,包括以下步骤(1)根据用户给定的关键字集合遍历可扩展标记语言文档树,删除树中不包含用户给定关键字的内容结点和孤立结点,得到可扩展标记语言文档查询树;(2)遍历上述可扩展标记语言文档查询树,删除其中只有一个孩子结点的结构结点,并保持该结构结点的孩子结点与该结构结点的父亲结点之间的连接路径。利用本专利技术方法得到紧凑查询树是可扩展标记语言文档查询树的子树,它包含所有相关的内容结点和它们的祖先结点,而不包含任何无关的结点。因此紧凑查询树的结构简单、明了、紧凑,包含的结点数量少,比可扩展标记语言文档树的规模要小,且更加容易操作。而且紧凑查询树不包含任何连接结点,用于关键字搜索时,不仅可以得到紧凑的连接树,而且查询结果更加有意义,满足用户的需求。附图说明图1是用于搜索关键字{T1,T3}的可扩展标记语言文档树示例。图2是用于搜索关键字{T1,T3}的可扩展标记语言文档查询树示例。图3是用于搜索关键字{T1,T3}的紧凑查询树示例。具体实施例方式首先根据用户给定的关键字集合遍历可扩展标记语言文档树,删除树中不包含用户给定关键字的内容结点及其孤立结点,内容结点是包含文本数据的叶结点,而孤立结点是删除内容结点后形成的不包含关键字的叶结点,这样就得到了可扩展标记语言文档查询树。接着遍历可扩展标记语言文档查询树,检查其中的结构结点,结构结点是可扩展标记语言文档查询树中除了内容结点以外的其他所有结点,将只有一个孩子结点的结构结点(又称连接结点)删除,并保持其父亲结点和孩子结点之间的路径连接,这样就得到了最终的用于关键字搜索的紧凑查询树。以下结合附图详细介绍本专利技术方法的一个实施例假设用户给定的关键字集合是{T1,T3},将如图1所示的可扩展标记语言文档树转换成紧凑查询树的详细过程如下(1)遍历如图1所示的可扩展标记语言文档树,删除其中所有的T2和T4结点。T2和T4结点的删除,导致结构结点N4也要被删除。最终得到如图2所示的适合于关键字集合{T1,T3}搜索的可扩展标记语言文档查询树。(2)遍历如图2所示的可扩展标记语言文档查询树,删除其中的连接结点N3和N5,并保持N3的父亲结点N1与N3的孩子结点T1之间的路径连接,保持N5的父亲结点N2与N5的孩子结点T3之间的路径连接。最终得到如图3所示的适合于关键字集合{T1,T3}搜索的紧凑查询树。本文档来自技高网
...

【技术保护点】
一种将可扩展标记语言文档树转化为紧凑查询树的方法,其特征在于该方法包括以下步骤:(1)根据用户给定的关键字集合遍历可扩展标记语言文档树,删除树中不包含用户给定关键字的内容结点和孤立结点,得到可扩展标记语言文档查询树;(2)遍 历上述可扩展标记语言文档查询树,删除其中只有一个孩子结点的结构结点,并保持该结构结点的孩子结点与该结构结点的父亲结点之间的连接路径。

【技术特征摘要】
1.一种将可扩展标记语言文档树转化为紧凑查询树的方法,其特征在于该方法包括以下步骤(1)根据用户给定的关键字集合遍历可扩展标记语言文档树,删除树中不包含用户给定关键字的内容结点和...

【专利技术属性】
技术研发人员:李国良冯建华王建勇塔娜周立柱
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1