当前位置: 首页 > 专利查询>咕果公司专利>正文

信息检索系统中基于短语的搜索技术方案

技术编号:6803962 阅读:229 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及信息检索系统中基于短语的搜索。本发明专利技术涉及一种信息检索系统,其使用短语来编制索引、检索、组织并描述文献。识别预测文献中存在其它短语的短语。根据文献中所包括的短语来对文献编制索引。同时识别相关短语与扩展短语。识别并使用查询中的短语来检索文献并对文献分等级。同时使用短语来群集搜索结果中的文献、创建文献说明并从搜索结果与索引中去除重复文献。

【技术实现步骤摘要】

本专利技术涉及一种用于对诸如互联网(Internet)的大规模语料库中的文献编制索引、搜索与分类的信息检索系统。
技术介绍
信息检索系统通常称作搜索引擎,如今它们是一种用于在诸如互联网的大规模、 多样化并不断增长的语料库中寻找信息的基本工具。一般来说,搜索引擎创建索引以使文献(或“页”)与各文献中存在的个别字相关。响应一含有多个查询项的查询来检索文献, 此通常是基于在文献中存在一定数量的查询项而实现的。根据诸如查询项出现的频率、主域、链接分析等其它统计度量来对检索到的文献分等级。然后,通常按分等级后的次序将检索到的文献呈现给用户,而不进行任何其他分组或强制分级。在某些状况下,仅呈现文献文本的选定部分以便使用户能够粗略了解所述文献的内容。查询项的直接“布尔(Boolean)”匹配具有多个熟知的限制,并且尤其无法识别那些不具有查询项但具有相关字的文献。举例来说,在典型的布尔系统中,搜索“Australian Shepherds (澳大利亚牧羊犬)”时将不会返回不具有确切查询项的关于其它herding dogs (牧羊犬)(例如,Border Collies (博得牧羊犬))的文献。反而,所述系统通常可能同时检索到关于Australia(澳大利亚)(并且与dogs (狗)无关)的文献与关于"shepherds (牧羊犬),,的文献,并且将这些文献排在较高等级。这里的问题是传统的系统是根据个别项而不是概念来编制文献索引。概念通常以短语表示,如"Australian Sh印herd (澳大利亚牧羊犬)”、"President of the United Mates (美国总统)”或者“Sundance Film Festival (圣丹斯电影节)”等。某些现有系统最多是就预定且非常有限的“已知”短语集合来编制文献索引,这些“已知”短语一般是由人工操作员选择的。因为察觉到识别由(比如)三个、四个或五个或更多个字组成的所有可能的短语需要计算与存储器,所以一般会避免对短语编制索引。举例来说,如果假定任意五个字可构成一个短语并且一个大的语料库将具有至少200,000个唯一项,那么将存在约3. 2*1026个可能短语,此明显超出任何现有系统能够存储于存储器中的量或者其可另外编程操纵的量。另一个问题是短语不断输入并会超出其在词典中的用法,此比专利技术新的个别字频繁得多。新短语总是从诸如技术、艺术、世界事件与法律等来源中产生。其它短语将随时间降低使用。某些现有信息检索系统试图通过使用个别字同时出现的模式来提供概念检索。在这些系统中,搜索一个字,例如“President (总统)”,将同时检索到具有频繁地与 "President (总统)”一起出现的其它字(如“White (白色)”及“House (房子)”)的文献。 尽管这种方法可能产生具有在个别字水平上概念性地相关的文献的搜索结果,但其一般无法俘获在同时出现的短语之间存在的主题关系。因此,需要一种信息检索系统与方法,其能够全面地识别大规模语料库中的短语、 根据短语编制文献索引、根据其短语搜索文献并将文献分等级、并提供关于所述文献的另外的群集与说明性信息。
技术实现思路
本专利技术涉及一种信息检索系统与方法,其使用短语来对文献库中的文献编制索弓丨、进行搜索、分等级及说明。所述系统适合于识别那些在文献库中具有足够频繁及/或独特用法的短语以指示其为“有效”或“好”短语。以此方式,可识别多字短语,例如由四个、 五个或更多项组成的短语。这就避免了必须识别由给定数量的字的所有可能序列所产生的每个可能的短语并对其编制索引的问题。该系统还适合于根据短语预测文献中存在其它短语的能力来识别彼此相关的短语。更具体地说,利用使两个短语的实际同时出现率与这两个短语的预期同时出现率相关的预测度量。一种此类预测度量是信息增益,即实际同时出现率与预期同时出现率的比率。 在预测度量超过一预定阈值时,两个短语相关。在那种状况下,第二短语相对于第一短语具有显著的信息增益。语义上,相关短语将是那些共同用来讨论或描述一给定主题或概念的短语,如 “President of the United Mates (美国总统)”与 “White House (白宫)”。对于一给定短语,相关短语可根据其相关性或有效性基于其各自的预测度量来定序。信息检索系统通过有效或好短语来对文献库中的文献编制索引。对于每一个短语,一个记入列表识别那些含有所述短语的文献。此外,对于一给定短语,使用第二列表、向量或其它结构来存储指示在含有所述给定短语的每一文献中还存在给定短语的哪些相关短语的数据。以此方式,所述系统不仅能够响应搜索查询而轻易地识别出哪些文献含有哪些短语,而且能够识别出哪些文献还含有与查询短语相关、并且因此更可能特定地关于查询短语所表示的主题或概念的短语。使用短语与相关短语还创建并使用了相关短语的群集,其在语义上代表短语的有意义的分组。从在群集中的所有短语之间具有非常高的预测度量的相关短语来识别群集。 群集可用来组织搜索结果,包括选择搜索结果中包括哪些文献及其次序,以及从搜索结果去除文献。信息检索系统还适合于在响应查询而搜索文献时使用短语。处理查询以便识别在查询中存在的任何短语,从而检索查询短语的相伴记入列表与相关短语信息。此外,在有些情况下,用户可以在搜索查询中输入不完整的短语,如“!Resident of the (……总统)”。 可以识别象这样的不完整短语并且用扩展短语来代替,如“!Resident of the United Mates (美国总统)”。这有助于确保实际执行用户最有可能的搜索。系统也可使用相关短语信息来识别或选择搜索结果中包括哪些文献。对于一给定短语与一给定文献,相关短语信息指出在所述给定文献中存在所述给定短语的哪些相关短语。因此,对于一含有两个查询短语的查询来说,先处理第一查询短语的记入列表以识别含有第一查询短语的文献,接着处理相关短语信息以识别这些文献中哪些文献还含有第二查询短语。接着,将后面这些文献包括在搜索结果中。这就不需要系统接着单独处理第二查询短语的记入列表,由此提供更快的搜索时间。当然,此方法也可以扩展到查询中有任意数量的短语,从而能够显著节约计算与时间。系统还可适合于使用短语与相关短语信息来对一组搜索结果中的文献分等级。一给定短语的相关短语信息较佳以诸如位向量的格式存储,其表示每一相关短语相对于所述给定短语的有效性。举例来说,一个相关短语位向量对于给定短语的每一个相关短语均具有一个位,这些位根据相关短语的预测度量(例如,信息增益)来定序。相关短语位向量的最有效的位与具有最高预测度量的相关短语相关,并且最低有效位与具有最低预测度量的相关短语相关。以此方式,对于一给定文献与一给定短语,相关短语信息可用来对文献计分。位向量本身(作为一个值)的值可用作文献分数,以此方式,含有查询短语的高级相关短语的文献比具有低级相关短语的文献更可能在主题上与查询相关。位向量值也可用作更复杂的计分函数中的一个分量,并且还可以加权。接着,可以根据文献分数来对文献分等级。短语信息也可以用在信息检索系统中以使用户的搜索个性化。将用户模拟为一个从(例如)所述用户曾经访问过(例如,在屏幕上看、打印、存储等等)的文献所获得的短语本文档来自技高网
...

【技术保护点】
1.一种用于响应查询而对包括在搜索结果中的文献分等级的方法,所述查询包含至少一个查询短语,所述方法包含:针对所述搜索结果中的每一个文献:存取所述查询的短语的相关短语位向量,其中所述位向量中的每一位指示所述查询短语的相关短语是否存在;对用于指示所述查询短语的相关短语是否存在的每一位,将与所述位相关联的预定点数添加到所述文献的分数中;及使用对应于所述文献的文献分数对所述搜索结果中的所述文献排序。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:安娜·林恩·帕特森
申请(专利权)人:咕果公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1