一种基于路径信息的可扩展标记语言祖先后代索引方法技术

技术编号：6700584 阅读：304 留言：0更新日期：2012-04-11 18:40

一种基于路径信息的可扩展标记语言祖先后代索引方法，包括以下步骤：步骤一：解析XML文档；步骤二：建立B+树索引；步骤三：使用B+树索引进行祖先后代关系查询。本发明专利技术是一个实用的索引，基于计算机数据库领域内的B+树结构，该结构保证了在绝大多数情况下，采用索引都会比不采用索引查询效率有很大的提高，该索引无论对于基于关系数据库的XML数据库管理系统还是基于Native存储的XML数据库管理系统，都易于实现；该结构实现简单，只需要进行一次节点扫描，对于文档的数据是否有数据倾斜状况，都有很好的性能；还可以很好的处理A1//A2//…//An这类复杂的路径查询，避免了把长路径分成若干个祖先后代对的做法，有效的实现了对索引节点一次扫描即可得到查询结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机数据库
，特别涉及一种XML(可扩展标记语言， Extensible Markup Language)数据索引方法，具体涉及一种基于路径信息来实现XML祖先后代结构关系的数据索引方法。
技术介绍
随着网络数据的海量增长，网络数据的格式越来越多样，由于XML具有良好的可扩展性以及自描述性，因此在当前hternet上，XML已经成为事实上的数据表示和数据交换标准。在具体应用中，越来越多的应用系统采用XML标准格式来发表和交换数据。对于 XML查询，现在已经有了标准的XML查询语言XPath和XQuery，为了加速XPath和XQuery 查询，需要对XML数据建立索引。XML文档是一个树形结构的文档，在XPath和XQuery查询中，一个比较困难的问题就是解决XML文档中祖先后代关系的结构查询。如下面的查询表达式book//editor直观的办法是对于book标签节点和editor标签节点分别建立对应的一个链表，然后对这两个链表中的元素进行嵌套循环一一匹配，这样的算法的复杂度为0(N2)。一个更为精巧和典型的解决办法是采用Siurug Al-Khalifa等人提出的 Structural Joins (结构连接)办法来完成。结构连接算法对每一个XML元素进行编码，其编码形式为(Docld, StartPos, EndPos, LevelNum)。对于两个元素节点 Elementl (DocId 1, StartPos 1, EndPos 1, LevelNum 1)禾口 Element2 (Docld 2, Star...

【技术保护点】
一种基于路径信息的可扩展标记语言祖先后代索引方法，其特征在于包括以下步骤：步骤一：解析ＸＭＬ文档采用ＳＡＸ解析，使用一个栈结构，在ＳＡＸ解析中会产生以下类型事件：①文档开始；②遇到元素节点开始标签；③遇到元素节点结束标签；④文档结束；每当遇到元素节点开始标签，即判断是否对该标签进行字典映射，如需要进行映射变换，则将标签的字符流转化成对应的数字ＩＤ，并存储到系统的数据字典中，然后把该数字ＩＤ入栈；如不需要进行映射变换，直接把该数字入栈，并且对该节点形成（Ｋｅｙ，Ｖａｌｕｅ）对；每当遇到元素节点的结束标签，即判断该标签与栈顶元素是否是同一元素节点，如果相同，则把栈顶元素弹出，否则不操作；在文档结束的时候，文档所有元素节点解析完毕，每个元素节点都形成了（Ｋｅｙ，Ｖａｌｕｅ）对；步骤二：建立Ｂ＋树索引存储步骤一解析出来的每个（Ｋｅｙ，Ｖａｌｕｅ）对，若该方法应用于关系数据库环境，则将（Ｋｅｙ，Ｖａｌｕｅ）对变成关系数据库系统中的表结构，该表有三个字段，其模式为（ＣｕｒｒｅｎｔＮｏｄｅ，Ｐａｔｈ，ＸＰｏｉｎｔｅｒ），ＣｕｒｒｅｎｔＮｏｄｅ字段对应于（Ｋｅｙ，Ｖａｌｕｅ）对中的Ｋｅｙ，ＰａｔｈＩｎ...

【技术特征摘要】

【专利技术属性】
技术研发人员：张恩德，赵相国，刘辉林，孙永佼，
申请(专利权)人：东北大学，
类型：发明
国别省市：89

全部详细技术资料下载我是这个专利的主人