一种XML数据的查询方法技术

技术编号：9519297 阅读：149 留言：0更新日期：2014-01-01 16:57

本发明专利技术提供一种XML数据的查询方法，其步骤包括：1）采用Native?XML方式存储XML数据，其存储结构包括：内节点层，存储XML树的节点，XML元素采用DDE编码方式进行编码；叶节点层，存储XML树叶节点的文本数据；倒排层，存储内节点层的倒排索引；2）根据输入的XPath查询语句，从所述倒排层中取出与所述XPath的节点对应的元素序列，并采用败者树进行归并排序；3）对归并排序后的XML元素按顺序进行入栈和出栈操作，从缓冲区得到查询结果。本发明专利技术能够处理带有关键字“OR”和通配符“*”的XPath，并具有很高的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种XML数据的查询方法
本专利技术属于数据库
，涉及半结构化数据XML的存储与查询方法，具体涉及一种能有效支持XML查询语言XPath的XML数据查询方法。
技术介绍
由于越来越多的应用系统采用XML作为标准格式来发布和交换数据，XML数据的规模急剧扩大，在IDC（互联网数据中心）最近发布的一份报告显示，500家受访企业的IT部门中有29%正在大量使用XML文档和XML数据库。如何有效管理XML数据成为迫切需要解决的问题。快速准确查找XPath在XML数据库中的所有匹配元素，是XML查询处理的核心操作。例如，一个XPath表达式：book[title=‘XML’]//author[fn=‘Jane’ANDln=‘Doe’]，这个表达式匹配的节点author需要满足：1）有一个子节点fn，它的内容是’Jane’；2）有一个子节点ln，它的内容是’Doe’；3）是book节点的后代，且book节点有一个内容为’XML’的title子节点。XML模式匹配方法中较典型的有DB2开发的针对XML数据流的TurboXPath算法和2002年学术界提出的TwigStack算法。TwigStack算法中，XPath上的每个节点q都对应着一个Tq和Sq。Tq代表元素序列，q是XPath上的标签名字，Tq是XML文档中与q名字匹配的所有元素，而且Tq中的元素按照文档序排列。Sq代表元素栈，存储与q名字匹配的元素，当算法正在处理的元素已经越过栈中元素的闭标签时，栈中元素要出栈。算法只对Tq中元素操作，跳过无关的XML元素，所以算法的IO效率很高。但是TwigStack算...
一种XML数据的查询方法

【技术保护点】
一种XML数据的查询方法，其步骤包括：1）采用Native?XML方式存储XML数据，其存储结构包括：内节点层，存储按照文档序排列的XML树的节点，其中XML元素采用DDE编码方式进行编码；叶节点层，存储XML树叶节点的文本数据；倒排层，存储内节点层的倒排索引，每个索引项是标签名字相同的元素按照文档序排列成的序列；2）根据输入的XPath查询语句，从所述倒排层中取出与所述XPath的节点对应的元素序列，并采用败者树进行归并排序；3）对归并排序后的XML元素按顺序进行入栈和出栈操作，并从缓冲区得到查询结果。

【技术特征摘要】
1.一种XML数据的查询方法，其步骤包括：1)采用NativeXML方式存储XML数据，其存储结构包括：内节点层，存储按照文档序排列的XML树的节点，其中XML元素采用DDE编码方式进行编码；叶节点层，存储XML树叶节点的文本数据；倒排层，存储内节点层的倒排索引，每个索引项是标签名字相同的元素按照文档序排列成的序列；2)根据输入的XPath查询语句，从所述倒排层中取出与所述XPath的节点对应的元素序列，并采用败者树进行归并排序；所述采用败者树进行归并排序，是对两个元素的DDE编码进行比较，得到所述两个元素的前后关系，并设定在前的元素为胜者，在后的元素为败者；当XPath中出现通配符“*”时，引申出三种新轴：祖父子轴、绝对祖先后代轴、特殊祖先后代轴，采用所述三种新轴对含有通配符“*”的XPath进行等值改写；3)对归并排序后的XML元素按顺序进行入栈和出栈操作，并从缓冲区得到查询结果。2.如权利要求1所述的方法，其特征在于，所述内节点层中每条记录的信息包括：...

【专利技术属性】
技术研发人员：郭少松，包小源，陈薇，王腾蛟，杨冬青，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人