一种模糊检索的方法及装置制造方法及图纸

技术编号:7595204 阅读:277 留言:0更新日期:2012-07-21 17:30
本发明专利技术公开了一种模糊检索的方法,允许目标文档只包含部分检索分词,相较于用户输入的检索关键词划分得到的检索分词,目标文档中最终包含的检索分词之间保持顺序的一致,而位置差可以不局限于原始用户检索请求中包含的各检索分词的位置差,这样,最终的模糊检索的命中结果集合中包含精确检索的命中结果集合和间隔检索的命中结果集合。从而可以选中更多的与检索请求相关的目标文档,提高了检索查全率。

【技术实现步骤摘要】

本专利技术涉及检索技术,特别涉及一种模糊检索的方法及装置
技术介绍
目前,检索技术已经得到了广泛的使用,逐渐成为生活、工作中不可或缺的一部分。在全文检索系统的使用过程中,经常遇到以词组、短句等方式提交的检索请求,这些检索请求会被划分为多个分词,然后在索引中进行检索,以查找同时包含这些分词的检索词, 以及检索词在文档中的位置关系满足要求的文档,这样的检索请求被称为短语检索。短语检索分为两类,精确短语检索和间隔短语检索。所谓精确短语检索,是要求检索词之间的位置关系与原始检索请求中一致,包括相互之间的顺序一致,以及位置差一致; 而所谓间隔短语检索,则是在精确短语检索基础上放松对位置差的要求,只要求相互之间的顺序一致,而位置差可以大于原始检索请求中的位置差。间隔短语检索的命中结果集合包含了精确短语检索的命中结果集合。然而,现有的这两种短语检索方式都存在一个相同的缺陷,即要求命中文档中要包含全部的检索词,从而实现完整地匹配。在检索较短的短语时,上述两种短语检索方式均可以得到相应的命中结果,然而,在检索较长短语时,采用上述两种短语检索方式就会存在以下问题相关文档中可能仅命中了部分检索词,而其他部分的检索词存在一定差异,那么该文档将被认为不相关而被排除,这样,便降低了短语检索的查全率。
技术实现思路
本专利技术实施例提供一种模糊检索的方法及装置,用于提高短语检索的查全率。本专利技术实施例提供的具体技术方案如下一种模糊检索的方法,包括对用户输入的检索关键词进行分词划分,确定所述检索关键词中包含的各检索分词;确定预设的单位文档包含检索分词数目门限值K,并根据获得的各检索分词以及 K的取值,获取包含不相同的检索分词的数目大于等于检索分词数目门限值K的候选文档;分别针对获得的各候选文档进行检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档。一种用于模糊检索的装置,包括划分单元,用于对用户输入的检索关键词进行分词划分,确定所述检索关键词中包含的各检索分词;第一处理单元,用于获取包含不相同的检索分词的数目大于等于检索分词数目门限值K的候选文档;用于确定预设的单位文档包含检索分词数目门限值K,并根据获得的各检索分词以及K的取值,获取包含不同检索分词数目大于等于K的候选文档;第二处理单元,用于分别针对获得的各候选文档进行检索分词位置匹配检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档。本专利技术实施例中,提供了一种模糊检索方法,允许目标文档只包含部分检索分词, 相较于用户输入的检索关键词划分得到的检索分词,目标文档中最终包含的检索分词之间保持顺序的一致,而位置差可以不局限于原始用户检索请求中包含的各检索分词的位置差,这样可以选中更多的与检索请求相关的目标文档,从而提高了检索查全率。附图说明图1为本专利技术实施例中检索装置功能结构示意图;图2为本专利技术实施例中模糊检索流程示意流程图;图3为本专利技术实施例中模糊检索流程中DocID匹配流程示意图;图4为本专利技术实施例中模糊检索流程中位置匹配流程示意图。具体实施例方式本专利技术实施例中,为了提高短语检索时的查全率,设计了一种模糊检索的方法,即将用户输入的检索关键词进行分词划分后,针对得到的各检索分词,只要某文档包含的检索分词数量超过预设的门限值K,且位置关系满足要求,就视该文档为目标文档,算作一次命中,这样,可以有效提高检索查全率。下面结合附图对本专利技术优选的实施方式进行详细说明。参阅图1所示,本专利技术实施例中,用于进行模糊短语检索的装置(以下称为检索装置)包括划分单元10、第一处理单元11和第二处理单元12,其中,划分单元10,用于对用户输入的检索关键词进行分词划分,确定所述检索关键词中包含的各检索分词;第一处理单元11,用于获取包含不相同的检索分词的数目大于等于K的候选文档;此操作称为DocID匹配操作,具体实现方式在后续流程中进行详细介绍。第二处理单元12,用于分别针对获得的各候选文档进行检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档;此操作称为位置匹配操作,具体实现方式在后续流程中进行详细介绍。如图1所示,上述第二处理单元12中进一步包括计算单元13,用于计算各目标文档的命中指数以及相关度,具体实现方式在后续流程中进行详细介绍。参阅图2所示,本专利技术实施例中,模糊检索的总体流程如下步骤200 对用户输入的检索关键词进行分词划分,确定该检索关键词包含的各检索分词。实际应用中,可以采用分词算法将用户输入的检索关键词划分为若干检索分词。 进一步地,在获得若干检索分词的同时,还需要确定各检索分词之间的位置关系,所谓位置关系包含分词顺序以及分词位置差两种,分词位置差以相对于检索关键词开头字符的字数来表不。例如,用户输入的检索关键词为“国际青年旅行社”,将其进行分词划分后,得到的各检索分词分别为“国际”、“青年”、“旅行社”,各检索分词的分词顺序为“国际”-> “青年”-> “旅行社”,各检索分词的分词位置差(以“国际”为开头字符)分别为“0”、“2”和 “4”。步骤210 确定检索分词数目门限值K。本实施例中,确定K的取值时,可以采用但不限于以下方式采用公式K = max (min (Ν*Ρ,Μ),2),计算获得K的取值,其中,P为预设的模糊检索需要命中的检索分词数目占检索分词总数目的比例,M为预设的最小命中数目,N为检索分词总数目。例如,P取值为0.5,M取值为5,N取值为3,那么,采用上述公式计算获得K的取值为2,即最终检索到的文档中,每个文档最少需要包括2个检索分词。步骤220 根据获得的各检索分词以及K的取值,获取包含不相同的检索分词的数目大于等于K的候选文档。步骤230 将获得的每一个候选文档的进行检索分词之间的位置匹配,简称位置匹配,将符合位置匹配条件的候选文档确定为目标文档。本实施例中,在执行步骤220和步骤230时,可以在步骤220中每获得一个候选文档,便执行步骤230进行位置匹配操作以确定是否为目标文档,也可以在步骤220中筛选出所有候选文档后,再执行步骤230进行位置匹配操作以确定各候选文档是否为目标文档, 以下实施例中,以前一种情况为例进行说明。本实施例中,参阅图3所示,在执行步骤220时,包含以下步骤步骤2200 根据获得的各检索分词,分别检索得到包含相应检索分词的候选文档集合 ο本实施例中,使用候选文档ID (即DocID)来标识各候选文档,DocID是全局统一编号的,由于候选文档中可以包含一个或多个检索分词,因此,各检索分词对应的候选文档集合中有可能包含重复的DocID。例如,参阅表1所示,上述实施例中提到的检索分词中,“国际”对应的候选文档集合1内包含的DocID为1、2、3、4、5 ;“青年”对应的候选文档集合2中包含的DocID为3、 4、5、6 ;“旅行社”对应的候选文档集合3中包含的DocID为2、3、4、5、6、7、8、9、10。表 权利要求1.一种模糊检索的方法,其特征在于,包括对用户输入的检索关键词进行分词划分,确定所述检索关键词中包含的各检索分词;获取包含不相同的检索分词的数目大于等于检索分词数目门限值K的候选文档;分别针对获得的各候选文档进行检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:童征宇闫进兵徐剑波
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术