一种ＸＭＬ文档树实例查询方法技术

技术编号：5446823 阅读：249 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种ＸＭＬ文档树实例查询方法，属于模糊查询领域。本方法为：１）将数据库中的ＸＭＬ文档和待查询ＸＭＬ文档分别转化为文档树；２）根据待查询ＸＭＬ文档树在ＸＭＬ文档树数据库中选取节点数在设定范围内的ＸＭＬ文档树，得到一待计算数据集；３）计算待查询ＸＭＬ文档树与待计算数据集中每一ＸＭＬ文档树之间的相似度，得到一候选查询结果集；４）计算待查询ＸＭＬ文档树与候选查询结果集中ＸＭＬ文档树的编辑距离；５）根据４）计算的编辑距离对候选查询结果集中ＸＭＬ文档树进行排序，得到查询结果。与现有技术相比，本方法大大提高了查询效率，同时在一定程度上容忍目标数据与输入的错误。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术与数据库管理系统相关，涉及模糊查询领域，是一种与树编辑距离相关的大规模XML文档树实例近似查询方法。
技术介绍
模糊查询是指在不了解XML数据的具体结构或不明确DTD所定义的元素名称下所进行的查询。对XML数据进行模糊查询的需求驱动表现为内容信息(Tag名或Text)不准确或用户所知信息不足；以及XML树结构的多样化——同一组元素可能构成不同结构的树等。因此，在针对大量XML数据时，快速有效地基于用户提交的查询——一个XML树实例，返回按照相似程度排列的结果集具有重要意义。模糊查询方法一般通过比对树的相似度来实现的，利用树的编辑距离衡量树相似度是使用较为广泛的方法。树编辑距离，即把一棵树转化为另一棵树所需要的插入、删除和替换的最少次数。目前与树编辑距离算法相关的成果较多，其中比较经典的有^iang和Dermis Shasha 在文献 “Simple fast algorithms for the editing distance between trees and related problems. SIAM Journal of Computing，18 (6) : 1245-1262，December 1989，，中提出的算法，其主要特征是用动态规划的方法解决树编辑距离计算问题，时间复杂度为 0(n4)o Philip N. Klein 在文献Computing the Edit-Distance Between Unrooted Ordered Trees. G. Bilardi et al. (Eds.) :ESA' ...

【技术保护点】
一种ＸＭＬ文档树实例查询方法，其步骤为：１）利用ＸＭＬ解析器将数据库中的ＸＭＬ文档转化为ＸＭＬ文档树，将输入的待查询ＸＭＬ文档转化为待查询ＸＭＬ文档树；２）根据待查询ＸＭＬ文档树的节点数量ｎ和所选取的编辑距离Ｌ，在ＸＭＬ文档树数据库中选取节点数在设定范围内的ＸＭＬ文档树，得到一待计算数据集；其中，ｎ、Ｌ为自然数；３）利用ＸＭＬ文档树近似编辑距离过滤法计算待查询ＸＭＬ文档树与待计算数据集中每一ＸＭＬ文档树之间的相似度，将相似度大于设定阈值的ＸＭＬ树组成一候选查询结果集；４）利用树编辑距离算法计算待查询ＸＭＬ文档树与候选查询结果集中ＸＭＬ文档树的编辑距离；５）根据４）计算的编辑距离对候选查询结果集中ＸＭＬ文档树进行排序，得到查询结果。

【技术特征摘要】
1.一种XML文档树实例查询方法，其步骤为1)利用XML解析器将数据库中的XML文档转化为XML文档树，将输入的待查询XML文档转化为待查询XML文档树；2)根据待查询XML文档树的节点数量η和所选取的编辑距离L，在XML文档树数据库中选取节点数在设定范围内的XML文档树，得到一待计算数据集；其中，n、L为自然数；3)利用XML文档树近似编辑距离过滤法计算待查询XML文档树与待计算数据集中每一 XML文档树之间的相似度，将相似度大于设定阈值的XML树组成一候选查询结果集；4)利用树编辑距离算法计算待查询XML文档树与候选查询结果集中XML文档树的编辑距离；5)根据4)计算的编辑距离对候选查询结果集中XML文档树进行排序，得到查询结果。2.如权利要求1所述的方法，其特征在于所述XML文档树近似编辑距离过滤法为1)分别计算待查询XML文档树与待计算数据集中每一XML文档树的后序周游序列；2)计算待查询XML文档树的后序周游序列与...

【专利技术属性】
技术研发人员：包小源，李树节，王腾蛟，杨冬青，
申请(专利权)人：北京大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人