本发明专利技术公开了一种基于模式图的关键字查询改进方法,它包括以下步骤:步骤1.IR引擎模块借助于索引从数据库表导出需要的元组集,候选模块生成器把导出的元组集中的非空元组集和数据库模式图作为输入,生成一组候选网络,并把候选网络作为输出;步骤2.查询日志挖掘模块使用已有的树挖掘算法来对用户的查询日志进行挖掘,以获取用户偏好的频繁模式树;步骤3.利用树编辑距离来定义步骤1生成的候选网络与步骤2挖掘得到的频繁模式树的相似度,生成频繁模式树的相似度;步骤4.跟据步骤1生成的候选网络与步骤3生成的频繁子树的相似度对生成的候选网络进行排序并优先求解排位靠前的候选网络,以此来改进查询的质量和效率。
【技术实现步骤摘要】
本专利技术涉及数据库上的关键字查询,属于计算机应用领域,尤其涉及一种。
技术介绍
数据库系统是用来组织、存储和管理数据的仓库,它在企业、部门乃至个人的日常生产生活等诸多领域都得到了广泛的应用。随着现代互联网的迅速发展,信息呈现爆炸式增长,数据库系统存储的信息不断增多,用户搜索这些信息 的需求也日益激增。传统的数据库访问方式需要用户掌握结构化的查询语言,了解并且熟悉底层的数据模式,而这对于大多数的普通用户来说是非常复杂的。受到关键字查询在Web搜索引擎上获得巨大成功的影响,近些年来在数据库支持关键字查询得到了来自数据库领域和信息检索领域研究人员的广泛关注并且成为新兴的研究热点。不同于传统的数据库查询方式,数据库上的关键字查询简单易用,查询没有固定的格式限制,极大地减轻了用户学习和记忆的压力。但是这也给如何开发一个高效健壮的关键字查询系统带来了巨大挑战。具体表现如下BI.传统的数据库查询的结果是一组孤立的元组,而关键字查询则需要从数据库的不同表中组合与关键字匹配的元组来形成最终结果,这会导致查询的搜索空间急剧膨胀。一般来讲,关键字查询的搜索空间与查询中的关键字数目成指数型关系。2、关键字查询经常是脏的,用户的查询中经常包含一些不相关或者不正确的词,而通常这些脏查询会对随后的查询处理的效率和准确性产生负面的影响。
技术实现思路
本专利技术的目的就是为了解决上述问题,提供了一种。为了实现上述目的,本专利技术采用如下技术方案,包括以下步骤步骤I. IR引擎模块借助于IR索引从数据库导出需要的元组集,候选模块生成器把导出的元组集中的非空元组集和数据库模式图作为输入,生成一组候选网络并用自由树的形式表不,并把表不后的候选网络作为输出;步骤2.查询日志挖掘模块使用已有的树挖掘算法来对用户的查询日志进行挖掘,以获取用户偏好的频繁模式树;步骤3.利用树编辑距离来定义步骤I输出的候选网络与步骤2挖掘得到的频繁模式树的相似度,生成频繁模式树的相似度;步骤4、根据步骤I输出的候选网络与步骤3生成的频繁子树的相似度对生成的候选网络进行排序并优先求解排位靠前的候选网络,以此来改进查询的质量和效率。所述步骤I中的候选网络的生成具体包括以下步骤(1-1) IR引擎模块从数据库表导出需要的元组集,候选模块生成器调用候选网络生成算法,生成候选网络;(1-2)用自由树的形式表示步骤(1-1)中生成的候选网络,这里的自由树是指连通的且无环的无向图;(1-3)将经过以上步骤(1-2)处理过的候选网络传送到下一个模块,进行数据挖掘,发现其中的频繁模式。步骤I所述的IR索引是一个倒排索引,它记录所有的关键字和关键字在数据库中的出现位置。步骤(1-1)所述的候选网络生成算法最早由DISCOVER提出,然后把它由AND语义扩展到OR语义。所述步骤2中获取用户偏好的频繁模式树具体包括以下步骤(2-1)用户对数据库中的最小支持度进行定义,其中模式的支持度(support)是指数据库中支持的事务所占的比例;(2-2)在步骤I输出的候选网络数据库中,枚举所有频繁的2个节点子树,合并一对频繁I节点子树生成一棵频繁2子树的候选,合并的频繁一个节点子树仅有一个叶节点不同而其他部分全部相同;扫描数据库计算候选的支持度并核实生成的候选是否频繁的,即支持度是否大于或者等于用户指定的最小支持度;若子树的支持度大于或等于用户指定 的最小支持度,该子树则为频繁的,否则不进行选择;(2-3)重复步骤(2-2),合并一对频繁k_l子树生成一棵频繁k子树的候选,观察到合并的频繁k-Ι子树仅有一个叶节点不同而其他部分全部相同,对每棵频繁k子树,扫描数据库计算候选的支持度并核实生成的候选是否频繁的;选择出所有的频繁子树;所述的k表示节点数;(2-4)获得所有频繁子树后对不符合条件的频繁子树进行过滤;符合条件的频繁子树是指模式树的叶节点的标签都是关键字关系;如果模式树的任何一个叶节点标签不是关键字关系,则这样的频繁子树被过滤掉。所述步骤3中生成频繁模式树的相似度具体包括以下步骤(3-1)计算候选网络与频繁模式树的编辑距离;( 3-2 )获得频繁模式树在查询日志中的支持度;(3-3)根据公式计算候选网络与频繁模式树的相似度;公式如下sin (CW,) = nim {-- * sup ^ jI/ PYjeFT + (HsnCNnFTj)J其中Clist(CNpFTj)指的是候选网络与频繁模式之间的编辑距离。Sup(FTj)指的是频繁模式在查询日志的支持度,它的取值范围在 ;CN= ICN1, CN2,......,CNJ指的是一组候选网络,CNi e CN, i的取值范围 ;FT = (FT1, FT2,......,FTj指的是一组频繁模式,FTj e FT, j的取值范围是,其中η为自然数;这个公式反映我们更偏好与支持度较大的频繁模式相似的候选网络。其中第(3-1)步还可以细分成以下步骤 a把自由标签树转化成有序树。预先规定标签间的顺序关系,这样就可以把无序树转化为有序树。b把无根树转化为有根树。我们使用穷举法来解决这个问题,即把每个节点当作根计算与另一棵树的距离取最小值。c根据步骤a和步骤b,将自由树转换为有序有根的标签树,调用已有的KaizhongZhang和Dennis ShaSh提出计算有序标签树(rooted ordered labeled tree)编辑距离的算法来计算自由树之间的编辑距离。所述步骤4中候选网络排序具体包括以下步骤(4-1)根据步骤3,根据候选网络与频繁子树的相似度对生成的候选网络进行排序; (4-2)优先求解排位靠前的候选网络。步骤4所述的候选网络排序即基于以上操作,对生成的候选网络进行排序并优先求解排位靠前的候选网络,以此来改进查询的质量和效率。本专利技术的有益效果I、不同于传统的数据库查询方式,数据库上的关键字查询简单易用,查询没有固定的格式限制,极大地减轻了用户学习和记忆的压力。2、通过使用查询日志来进一步改进传统的基于模式图的查询方法。改进查询的质量和效率。附图说明图I为一种扩展的基于模式图的关键字查询系统的基本架构;图2为候选网络的生成流程;图3为获取用户偏好的频繁模式树流程;图4为频繁模式树的相似度的生成流程;图5为候选网络与频繁模式树的编辑距离的计算流程;图6为候选网络排序流程;图7为用于测试的几类模式字符串;图8为在原始的discover系统和我们改进的discover++系统上的进行实例检验的实验结果。具体实施例方式下面结合附图与实施例对本专利技术作进一步说明。图I中,一种扩展的基于模式图的关键字查询系统的基本架构。它包括以下步骤步骤I. IR引擎模块借助于IR索引从数据库表导出需要的元组集,候选模块生成器把导出的元组集中的非空元组集和数据库模式图作为输入,生成一组候选网络并用自由树的形式表不,并把表不后的候选网络作为输出;步骤2.查询日志挖掘模块使用已有的树挖掘算法来对用户的查询日志进行挖掘,以获取用户偏好的频繁模式树;步骤3.利用树编辑距离来定义步骤I生成的候选网络与步骤2挖掘得到的频繁模式树的相似度,生成频繁模式树的相似度;步骤4、根据步骤I生成的候选网络与步骤3生成的频繁子树的相似度对生成的候选网络进行排序并优先求解排位靠前的候选网络,以本文档来自技高网...
【技术保护点】
基于模式图的关键字查询改进方法,其特征是,它包括以下步骤:步骤1.IR引擎模块借助于IR索引从数据库导出需要的元组集,候选模块生成器把导出的元组集中的非空元组集和数据库模式图作为输入,生成一组候选网络并用自由树的形式表示,并把表示后的候选网络作为输出;步骤2.查询日志挖掘模块使用已有的树挖掘算法来对用户的查询日志进行挖掘,以获取用户偏好的频繁模式树;步骤3.利用树编辑距离来定义步骤1输出的候选网络与步骤2挖掘得到的频繁模式树的相似度,生成频繁模式树的相似度;步骤4、跟据步骤1输出的候选网络与步骤3生成的频繁子树的相似度对生成的候选网络进行排序并优先求解排位靠前的候选网络。
【技术特征摘要】
【专利技术属性】
技术研发人员:禹晓辉,高磊,彭朝晖,闫中敏,杨敏,
申请(专利权)人:山东大学,山东英佰德信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。