文档检索方法和装置制造方法及图纸

技术编号:7527739 阅读:246 留言:0更新日期:2012-07-12 08:00
本发明专利技术实施例公开了一种文档检索方法和装置,涉及计算机信息处理领域,用于解决无法检索到检索分词在设定位置出现的文档的问题。本发明专利技术中,接收到包含检索关键词的检索请求后,确定所述检索关键词所包含的检索分词及检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件,查找包含确定的检索分词并且特定检索分词所在的位置满足所述条件的文档,对查找到的文档进行排序,并按照排序结果将查找到的文档的信息作为检索结果返回。可见,采用本发明专利技术,能够检索到检索分词在一定位置出现的文档。

【技术实现步骤摘要】

本专利技术涉及计算机信息处理领域,尤其涉及ー种文档检索方法和装置
技术介绍
全文检索是指全文检索系统通过扫描文档中的每ー个词,对每ー个词建立ー个索引项,指明该词在文档中出现的次数和位置,当用户提交检索请求吋,全文检索系统就根据事先建立的索引文件进行查找,将查找的结果按照某种排序方式返回给用户的检索方式。 实际应用中,全文检索系统处理的一个文档可能包含多个字段,如标题、作者、正文等。具体的,在用户提交检索请求后,全文检索系统分析确定检索请求中的检索关键词包含的检索分词,检索分词是指对检索关键词进行字符划分后形成的分词,具体如何将检索关键词进行字符划分,根据不同的算法具有不同的划分方式,例如,可以将检索关键词中的每个字符划分为ー个检索分词,也可以将检索关键词中的每两个字符划分为ー个检索分词,等等;然后,在索引文件中查找包含所有检索分词的文档,并将该文档的信息作为检索结果提供给用户。在短语检索即检索关键词中包含多个检索分词的情况下,在查找包含所有检索分词的文档后,还需要进ー步对该文档中的多个检索分词的位置关系进行匹配, 以确定该多个检索分词的位置关系是否与检索请求中包含的多个检索分词的位置关系ー 致,若匹配一致,则将该文档的信息作为检索结果提供给用户,否则,不将该文档作为检索結果。例如,检索关键词中包含的检索分词包括“分词”和“规则”,并且这两个检索分词的位置关系为相邻,即这两个检索分词之间不包含其它字符,在查找到包含“分词”和“规则” 的文档后,对该文档中“分词”和“规则”的位置关系进行匹配,若该文档中“分词”和“规则” 相邻,即该文档中包含“分词规则”,则将该文档的信息作为检索结果提供给用户,否则,不将该文档作为检索結果。在查找得到多个检索结果后,需要将多个检索结果按照一定规则进行排序,最后按照排序顺序将多个检索结果提供给用户。对于各种全文检索系统,检索结果的排序是否符合用户的需求是评价其优劣的关键因素。目前,全文检索系统普遍使用向量空间模型对检索结果进行排序,具体的,该模型根据词频(Team Frequency,TF) /倒排文档频率Qnvert Document Frequency, IDF),计算检索分词在文档中的量化权重值,根据计算得到的每个文档的量化权重值对各文档进行排序。TF是指ー个检索分词在文档中出现的频率,它描述该检索分词在ー篇特定文档中的重要性;IDF是倒排文档频率,它描述的是检索分词在所有文档中出现的频率,即该检索分词的普遍重要性,如“我”,“什么”这些词几乎在所有的文档中都会出现,所以这些词即使在ー篇特定的文档中出现的频率很高,也不是很重要。总的来说就是,ー篇特定文档的优先级,与检索分词的TF成正比,与IDF成反比。在实现本专利技术的过程中,专利技术人发现现有技术中存在以下技术问题现有的检索方式中,只能检索到包含所有检索分词并且检索分词的位置关系与检索关键词中包含的检索分词的位置关系一致的文档,如何检索到检索分词在设定位置出现的文档,目前还没有具体的实现方案。
技术实现思路
本专利技术实施例提供ー种文档检索方法和装置,用于解决无法检索到检索分词在设定位置出现的文档的问题。ー种文档检索方法,该方法包括接收包含检索关键词的检索请求;确定所述检索关键词所包含的检索分词以及该检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件;查找包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档;将查找到的文档的信息作为检索结果返回。ー种文档检索装置,该装置包括请求接收单元,用于接收包含检索关键词的检索请求;条件分析単元,用于确定所述检索关键词所包含的检索分词以及该检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件;文档查找単元,用于查找包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档;结果返回単元,用于将查找到的文档的信息作为检索结果返回。本方案中,接收到包含检索关键词的检索请求后,确定所述检索关键词所包含的检索分词以及该检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件,查找包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档,并将查找到的文档的信息作为检索结果返回。可见,采用本专利技术能够检索到检索分词的位置满足ー 定条件的文档,也即能够检索到检索分词在一定位置出现的文档,进而使得检索结果更加精确,更好的满足用户需求。附图说明图1为本专利技术实施例提供的方法流程示意图;图2为本专利技术实施例提供的另一方法流程示意图;图3为本专利技术实施例提供的文档检索装置结构示意图;图4为本专利技术实施例提供的另一文档检索装置结构示意图。具体实施例方式为了能够检索到检索分词在设定位置出现的文档,本专利技术实施例提供ー种文档检索方法,本方法中,在接收到检索请求后,需要确定检索请求中的检索关键词所包含的ー个或多个检索分词(即特定检索分词)在目标文档中所处的位置需要满足的条件,然后查找包含确定的全部检索分词并且特定检索分词所在的位置满足该条件的文档,最后将查找到的文档的信息作为检索结果返回。參见图1,本专利技术实施例提供的文档检索方法,具体包括以下步骤步骤10 接收包含检索关键词的检索请求;这里,检索关键词是指外界(例如用户)输入的用于检索的关键词;步骤11 确定所述检索关键词所包含的检索分词以及该检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件;步骤12 查找包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档;步骤13 将查找到的文档的信息作为检索结果返回。步骤11中,在所述特定检索分词包括检索关键词所包含的第一个检索分词时,确定该第一个检索分词在目标文档中所处的位置需要满足的条件,其具体实现可以如下根据检索关键词的格式,确定检索关键词所包含的第一个检索分词在目标文档中的位置与目标文档的起始位置所需要满足的第一位置关系,将该第一位置关系作为检索关键词所包含的第一个检索分词在目标文档中所处的位置需要满足的条件。具体的,上述确定第一位置关系的具体实现可以如下首先,确定在检索关键词中第一个检索分词之前是否具有通配符;在确定为是吋, 根据预先设定的通配符类型与距离值范围的对应关系,确定第一个检索分词之前的通配符对应的位置距离值,并确定所述第一位置关系为在目标文档中所述第一个检索分词与目标文档的起始字符之间的距离值在所述距离值范围内;在确定为否时,确定所述第一位置关系为第一个检索分词位于目标文档的起始位置。当然,上述根据检索关键词的格式确定第一位置关系的实现并不局限于上述通配符的方式,任何其他根据检索关键词的格式确定第一位置关系的方式均在本专利技术的保护范围内。步骤11中,在所述特定检索分词包括检索关键词所包含的最后ー个检索分词时, 确定该最后ー个检索分词在目标文档中所处的位置需要满足的条件,其具体实现可以如下根据检索关键词的格式,确定检索关键词所包含的最后ー个检索分词在目标文档中的位置与目标文档的结束位置所需要满足的第二位置关系,将该第二位置关系作为检索关键词所包含的最后ー个检索分词在目标文档中所处的位置需要满足的条件。具体的,上述确定第二位置关系的具体实现可以如下确定在检索关键词中最后ー个检索分词之后是否具有通配符;在确定为是吋,根据预先设定的通配符类本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:童征宇徐剑波
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术