一种数据库模糊检索方法和系统技术方案

技术编号:13623828 阅读:104 留言:0更新日期:2016-09-01 14:52
本发明专利技术公开了一种数据库模糊检索方法和系统,该方法包括:对对象图的检索以及利用模糊推理的方法计算相关性分数;对对象图的检索是根据对象图中各个对象之间边的最小权重使用宽度优先算法来找到最适合的对象目标;根据各个对象之间联系的重要性来确定各个对象之间具体的权重值的大小;模糊索引构建,分为关键词模糊索引和对象模糊索引;关键词索引包括两部分内容;用户根据自己想查询的内容输入具体数据;通过输入的检索关键词,利用反向扩展算法和宽度搜索算法搜索对象图,得到不同的对象连接树,这些对象连接树表示不同的检索结果,利用评分机制计算不同对象连接树的IR分数,将最相关的检索结果反馈给用户。很好地改善数据库结构对搜索的影响。

【技术实现步骤摘要】

本专利技术涉及基于体育健身服务平台管理与设计背景下的一种数据库模糊检索方法,属于计算机

技术介绍
随着物联网地进一步发展,可以展望,物物相连的物联网技术必将产生大量的数据。传统上,关系数据库存储的结构化数据可以使用SQL语言查询,以XML格式存储的半结构化数据可以使用Xquery语言查询,而存储在文件系统和文档数据库中的非结构化数据则使用关键词查询。近年来,在应用需求的推动下,数据库信息检索技术(Database InformationRetrieval,DBIR)的研究得到快速发展。DBIR只需用户输入检索关键词就可以从关系数据库中获取信息,这一技术使得用户既不需要了解底层的数据库模式也不需要掌握SQL语言。DBIR技术极大地提高了数据库的可用性。但是,很多普通用户对于数据库中存储的具体数据名称可能不能够准确掌握,让用户使用数据库数据很不方便。在信息管理系统中,许多信息的表示具有二义性,使用者在查询有关信息时可能因为信息表示的不同而找不到所需的数据,给系统使用者带来不便。如“计算机”、“电子计算机”与“电脑”同义等。但计算机是讲究精确的机器,若数据库中保存着的是“计算机”,而你却按“电脑来进行查询,这是不可能得到结果的。而本专利技术能够解决上面的问题。现有技术大多是对于SATR算法的实现,而STAR算法在解决上述问题时存在明显的缺点。具体表现在STAR算法简单地采用随机赋值的方式。在STAR算法的迭代优化过程中,主要是依据路径值的大小也就是路径中边的权重值,进行路径替换的,随机赋值的方式使得最终检索结果所包含的内容并不一定具有关联性。专利技术内容本专利技术目的在于解决了上述现有技术的问题,提出了一种数据库模糊检索方法,该方法实现了对STAR算法的改进,给出基于模糊逻辑的相关性评分机制,主要采用模糊推理方法对对象进行最终的评分,提高了检索效果,在检索过程中通过构建索引以加快检索效率。本专利技术解决其技术问题所采用的技术方案是:一种数据库模糊检索方法,该方法针对一个对象级别的检索,基于模糊逻辑的对象级别检索。对象级别检索算法是对
STAR算法的改进,主要实现对对象图的检索以及利用模糊推理的方法计算相关性分数,同时DOFSTAR算法还考虑了数据库结构对关键词检索的影响。方法流程:步骤1:对对象图的检索以及利用模糊推理的方法计算相关性分数;对对象图的检索是根据对象图中各个对象之间边的最小权重使用宽度优先算法来找到最适合的对象目标。根据各个对象之间联系的重要性来确定各个对象之间具体的权重值的大小。比如,可以根据各个对象具体关键词属性的字符串符合程度或者语义符合程度来确定关键词的具体值。步骤2:模糊索引构建,分为关键词模糊索引和对象模糊索引;关键词索引主要包括两部分内容,即一个是关键词模糊索引,主要用于记录关键词的IR分数及所属对象;另一个是对象模糊索引,主要用于记录对象所包含的元组和属性及其各种对象之间的重要性。步骤3:用户根据自己想查询的内容输入具体数据;步骤4:通过输入的检索关键词,利用反向扩展算法和宽度搜索算法搜索对象图,可以得到不同的对象连接树,这些对象连接树表示了不同的检索结果,利用评分机制计算不同对象连接树的IR分数,可以将最相关的检索结果反馈给用户。进一步的,本专利技术基于模糊逻辑的对象级别检索算法;所述的对象级别检索算法是对STAR算法的改进,实现对对象图的检索以及利用模糊推理的方法计算相关性分数,同时DOFSTAR算法还考虑了数据库结构对关键词检索的影响。实现对对象图的检索主要通过反向扩展算法和宽度优先搜索算法来实现。进一步的,本专利技术数据库模糊检索方法能够实现用户数据的多种转义存储,以及检索时的提供相关数据的任意别名查询。进一步的,本专利技术STAR算法就是利用Steiner树的近似算法解决关系数据图的关键词检索问题。STAR算法主要分为两部分:第一部分尽可能找到包含全部查询关键词的树,采用的是反向扩展搜索策略。第二部分是查找图中低权重的路径替换树中原有的路径,通过迭代优化树直到找到最小Steiner树,主要采用的是宽度优先搜索策略。进一步的,本专利技术包括两个索引,即:一个是关键词模糊索引,主要用于记录关键词的IR分数及所属对象;另一个是对象模糊索引,主要用于记录对象所包含的元组和属性及其各种的重要性。进一步的,本专利技术记录关键词的IR分数,对象的IR分数的计算从对象的组成结构进行考虑,即需要分别考虑关键词在对象主题域和对象描述域中的IR分数。本专利技术提供了一种数据库模糊检索系统,该系统包括数据库存储模块、算法模块、用户查询模块。数据库存储模块:用于存储各种转义数据以及存储关键词索引信息。当用户输入关键词后,可以根据关键词索引来查询所属对象,然后定位到相应对象后,使用本算法来实现相近对象的查询。算法模块:实现搜索算法。对于用户输入的关键词,本模块向数据库查询模块查询关键词所属对象,然后经过本专利技术上述方法的各个步骤查询出关键词所属对象的相近对象。用户查询模块:主要用于接收用户输入的数据,对于各种不符合格式的数据进行相应反馈,以及根据算法模块的响应返回给用户相应数据。有益效果:1、本专利技术实现了对输入关键词的转义查询,即对一个客观事物的多种别名之间在数据库中相当于等义结果。2、本专利技术实现了对象级别的模糊查询。使用对象之间的IR分数的大小,代表对象之间关联的紧密程度。从而,可以使用本算法找到输入关键词对象对象的各个最相近对象。3、本专利技术改进了STAR算法,考虑了检索结点彼此之间的语义相关性,而不是像STAR算法一样简单地采用随机赋值的方式。在STAR算法的迭代优化过程中,主要是依据路径值的大小也就是路径中边的权重值,进行路径替换的,随机赋值的方式使得最终检索结果所包含的内容并不一定具有关联性。4、本专利技术能够很好地改善数据库结构对搜索的影响。附图说明图1为本专利技术的方法流程图。图2为本专利技术的对象示意图。图3为本专利技术的反向扩展搜索结果图。图4为本专利技术的关键词模糊索引。图5为本专利技术的系统架构图。具体实施方式下面结合说明书附图对本专利技术作进一步的详细说明。如图1所示,用户输入一个精确的输入值即关键词输入,本专利技术根据关键词在数据库中索引对应的记录定位到关键词所属对象,即进行了关键词的模糊化,然后根据此对象在数据库记录中的IR分数反向扩展搜索得到对象优化后的连接数,即进行了模糊推理。根据得到的连接数,取出最小路径的一条最有路径得到最符合输入关键词的精确输出结果进行输出。如图2所示,是DBLP对象图的一部分,输入查询关键词k1=object、k2=retrievaK、k3=database,利用反向扩展搜索得到图3所示的搜索结果,再进行迭代优化即可得到图2所示的对象连接树a/T,这是下面本专利技术方法的设计的前提。本专利技术方法流程由以下六步组成,包括:(1)根据对象图的结构计算每条边的权重(即对象联系的重要性);(2)依据关键词模糊索引定位对象在对象图中的位置,同时计算这些对象的IR分数;(3)利用反向扩展搜索算法搜索对象图,得到对象连接树;(4)利用对象图中低权重的路径来替换对象连接树中的路径,直到得到的对象连接树不能再被优化为止;(5)根据包含关键词的对象的IR分数计算对象连接树中未包含关键词的对象的IR分数;本文档来自技高网
...

【技术保护点】
一种数据库模糊检索方法,其特征在于,所述方法包括如下步骤:步骤1:对对象图的检索以及利用模糊推理的方法计算相关性分数;对对象图的检索是根据对象图中各个对象之间边的最小权重使用宽度优先算法来找到最适合的对象目标;根据各个对象之间联系的重要性来确定各个对象之间具体的权重值的大小,即根据各个对象具体关键词属性的字符串符合程度或者语义符合程度来确定关键词的具体值;步骤2:模糊索引构建,分为关键词模糊索引和对象模糊索引;关键词索引包括两部分内容,即一个是关键词模糊索引,用于记录关键词的IR分数及所属对象;另一个是对象模糊索引,用于记录对象所包含的元组和属性及其各种对象之间的重要性;步骤3:用户根据自己想查询的内容输入具体数据;步骤4:通过输入的检索关键词,利用反向扩展算法和宽度搜索算法搜索对象图,可以得到不同的对象连接树,这些对象连接树表示了不同的检索结果,利用评分机制计算不同对象连接树的IR分数,将最相关的检索结果反馈给用户。

【技术特征摘要】
1.一种数据库模糊检索方法,其特征在于,所述方法包括如下步骤:步骤1:对对象图的检索以及利用模糊推理的方法计算相关性分数;对对象图的检索是根据对象图中各个对象之间边的最小权重使用宽度优先算法来找到最适合的对象目标;根据各个对象之间联系的重要性来确定各个对象之间具体的权重值的大小,即根据各个对象具体关键词属性的字符串符合程度或者语义符合程度来确定关键词的具体值;步骤2:模糊索引构建,分为关键词模糊索引和对象模糊索引;关键词索引包括两部分内容,即一个是关键词模糊索引,用于记录关键词的IR分数及所属对象;另一个是对象模糊索引,用于记录对象所包含的元组和属性及其各种对象之间的重要性;步骤3:用户根据自己想查询的内容输入具体数据;步骤4:通过输入的检索关键词,利用反向扩展算法和宽度搜索算法搜索对象图,可以得到不同的对象连接树,这些对象连接树表示了不同的检索结果,利用评分机制计算不同对象连接树的IR分数,将最相关的检索结果反馈给用户。2.根据权利要求1所述的一种数据库模糊检索方法,其特征在于:所述方法基于模糊逻辑的对象级别检索算法;所述的对象级别检索算法是对STAR算法的改进,实现对对象图的检索以及利用模糊推理的方法计算相关性分数,同时DOFSTAR算法还考虑了数据库结构对关键词检索的影响,采用对对象图的检索通过反向扩展算法和宽度优先搜索算法。3.根据权利要求2所述的实现对对象图的检索,其实现方法在于通过反向扩展算法和宽度优先搜索算法来找到和输入关键词相关联对象的关联对象,形成关系树。4.根据权利要求1所述的一种模糊逻辑的对象级别检索方法,其特征在于:所述数据库模糊检索是对用户数据的多种转义存储,以及检索时的提供相关数据的任意别名查询。5.根据权利要求4所述的一种模糊逻辑的对象级别检索方法,其特征在于,所述数据库模糊检索实现过程是:将已知客观事物的多种...

【专利技术属性】
技术研发人员:朱洪波武吉涛李国防郭永安
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1