使用词汇关联增强搜索引擎查询性能的方法和系统技术方案

技术编号:2847362 阅读:314 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及基于计算机的电子信息检索(IR)。本发明专利技术尤其涉及电子信息检索(IR)方法,其中爬行预定搜索文档库(因特网等),并且其文档通过例如所谓“反向索引”的数据结构来建立索引,该数据结构包括由潜在搜索项和相关登记表组成的索引,该登记表含有给出在哪一文档中找到所述搜索项的文档标识信息以及与有关所述搜索项在相应文档内的出现位置的进一步信息。为了加速查询性能,提出在建立索引时执行如下步骤:a)生成扩展反向索引(32)结构,该扩展反向索引结构包括:aa)词汇关联(42)对(LA),其中每对(42)涉及相应两个搜索项(22)之间的特定词汇关联,以及bb)针对每个所述LA对的相应登记表(24),以及b)通过使用所述扩展索引(32)对搜索的文档分级。

【技术实现步骤摘要】

本专利技术涉及基于计算机的电子信息检索(IR)。本专利技术尤其涉及具有索引器模块的电子信息检索(IR)方法和系统,该索引器模块具有包括潜在搜索项和相关登记表(posting list)的反向索引(inverted index)。
技术介绍
现有技术的IR系统的基本结构和功能在图1中示出。该系统除对于本专利技术而言不太相关的其他单元之外还包含搜索引擎,该搜索引擎包括web爬行器(crawler)模块10、解析器或标记识别器(tokenizer)模块12、索引器模块14、索引存储器16,该索引存储器根据逻辑模式来存储包括上述搜索项的数据;该系统进一步包括分级模块18、搜索模块20,最后包含发出查询和接收来自IR系统的结果的客户机。具体来说,独立于用户查询地爬行(crawl)搜索文档库(因特网等),并且按照例如前述“反向索引”的数据结构来索引所爬行的文档,该数据结构在每行中包括索引条目,该索引条目由潜在搜索项,和含有文档标识信息的相关登记表组成,该信息表示在哪个文档中找到搜索项并且可选地包括有关在相应文档中所述搜索项出现的位置的进一步信息。图2描绘了在前述反向索引数据结构内的两个单条目上的“剖面”视图。左列定义了所谓词汇表,并且包括可能的搜索项22,例如“IBM”或“服务器(SERVER)”。右列被称为登记表24。一个搜索项的登记表条目26包括a)文档标识信息,例如编号或URL,以及可选地类似于b)相对相应文档的开始处的偏移的进一步信息。例如对于“IBM”,登记表中的第一条目涉及文档ID 0003,其第52页第13行。图2中描绘的其它参考和登记表中的条目的解释与上述类似。对于本专利技术的具体侧重点,如上所述的现有技术的信息检索(IR)系统的一般问题是它们的数据结构,例如词典或“词汇表”条目,即图2中的左列的大小。当其数据项太大时,系统存在数据高速缓存命中率低,和系统存储器与CPU之间I/O业务量高的缺点,从而形成众所周知的性能瓶颈。在最坏情况下,形成更长更窄瓶颈的一部分的第三阶段从而是盘输入和输出(I/O),因为数据项的计数和大小可能超过可用的硬件侧的存储器。IR系统和搜索引擎用来计算数目巨大的特定数据项,如词典条目、登记表条目以及与之有关的统计信息。因此,伴随着在如图1中描绘的查询执行期间对这一瓶颈越来越多的使用,其性能无法忍受地减缓。因此,基本上,将资源消耗从存储器和IO子系统转移到CPU以避免密集瓶颈使用的每种方案都是受欢迎的,因为CPU速度正以比存储器或I/O子系统带宽更高的速率增加。一种这样的现有技术方案包括通过在数据项写入到盘之前压缩数据项来减少盘I/O的一般思路,参见I.H.Written,A.Moffat,T.C.BellManaging GigabytesCompressing and Indexing Documents and Images,Second Edition,Morgan Kaufmann,Inc.1999。但是这一方案受困于数据必须读回到存储器以便解压缩的缺点。这就要求附加的存储器和CPU周期。这至少部分抵消了盘I/O的节省。因此,这对于上述瓶颈问题实际上并不是令人满意的解决方案。
技术实现思路
因此本专利技术的目的是缓解现有技术的上述不足。本专利技术的这一目的是通过在所附独立权利要求中记载的特征来实现的。本专利技术的进一步有利方案和实施例在各从属权利要求中阐述。这里引用了所附权利要求。术语信息资源的“搜索库”旨在包含例如实际的纯文本文档,但是也包括现存的查询日志以及文档的“锚标(anchor)存储”,该存储包括针对该文档的链接,因为它们常常包括简短的内容信息。本专利技术的如下特征步骤在建立索引时执行a)生成扩展反向索引结构,该扩展反向索引结构包括aa)词汇关联(lexical affinity)(LA)对,其中每对涉及相应两个搜索项之间的特定词汇关联,以及bb)针对每个所述LA对的相应登记表,以及b)通过使用所述扩展索引对搜索的文档分级。词汇关联(LA)表示在一个文档中一起出现的词的相关性,并且通过查看发现彼此具有紧邻关系,例如在3词窗口、4词或5词直至10词窗口中的若干词来识别;为了简单,这里将讨论分别限制为词或搜索项的对。窗口大小基本上可加以自由选择。在现有技术的噪声过滤之后识别LA,优选地通过对最好具有实质意义的文本项在相应语义区域中的出现进行计数。通过将搜索项从单词出现扩展到多词,优选为两个词的出现,来扩展能够识别内容相关单词搜索项的基本现有技术方案。例如,“IBM”是单个搜索项,而“服务器”是另一单个搜索项。现有技术的方法规定对任一项在文本中的出现进行计数。在本专利技术的方法的进一步步骤中,基于对于这一对在文档中的出现次数的计数来定义相关度。如果很相关(能够单独设置),并且正如现有技术的方法所评价的,将单个搜索项的松散耦合对(LA对)直接作为分立条目包含于词汇表中,参见图2(现有技术)的或者图4(本专利技术)的左列。对于上述瓶颈问题,LA对的使用显著地减少了瓶颈的使用,因为整个LA对在查询期间一般常驻于存储器中,并且对于从硬盘检索LA对的登记表而言,仅要求少量的盘I/O处理和较少的CPU使用。后面会给出具体实例。在本专利技术的方法中,进一步分析有意义搜索项的文本环境,优选为在前向和/或后向方向上滑动扫描窗口以经过文档。这一窗口的大小能够改变。例如,五个相继的词能够定义一个文本扫描窗口。在这一文档扫描过程期间,标识有意义词对,所述词对反复地出现在窄的(例如仅五个词)文本距离内,由此形成某种“词汇关联”,因为它们描述了语义上下文。这可以用来改进查询结果的分级,使得更松散耦合的搜索项出现由于较高的等级分而包含于结果列表中。这与现有技术的方法形成对比,后者仅提供定义文字文本串“XX YY”的选项,或者分别搜索“XX”,接着搜索“YY”的选项。然而当出现类似于“XX ZZ YY”的文本串时,XX和YY被一些字符或一些词分离,在现有技术中就找不到命中。ZZ能够在从单个字符到若干词,例如3个词或5个词甚或是10个词,或者其间的任何数目的整个“文本距离”范围上加以定义。也能够使用更大距离,但是距离越大,则在建立索引时必须花费越多的计算资源。对于词汇关联(LA)对的说明性实例是-IBM服务器-因为有IBM提供的大量服务器,例如邮件服务器,文件服务器、备份服务器等等。与在许多文本中一样,常常以描述性的形容词添加进一步的属性,例如“高性能(high-performance)”或“高端(high-end)”,或者插入一些产品类型,比如“IBM zSeries服务器”等等,通过本专利技术的方法找到所有这些出现。另一实例是-狂欢节RIO-由此找到的典型出现可以表现为“在Rio的狂欢节(carnival inRio)”或“在Rio或其附近的狂欢节聚会(carnival parties in and aroundRio)”、“在美丽的Rio的狂欢节上层聚会(carnival high-life in beautifulRio)”等等。正如本领域的技术人员可以理解的,这在搜索期间是主要的性能和质量增益,因为这样的LA对能够相对高地进行分级。此外,这些本专利技术的步骤增强了分级过程,因此提供了更高质量的分级结果。本专利技术的优选可选特征本文档来自技高网
...

【技术保护点】
一种电子信息检索(IR)方法,其中爬行预定信息源库,并且通过包括索引的数据结构来索引其文档,该索引由潜在搜索项和相关登记表组成,该登记表包含有关含有该搜索项的文档的文档标识信息,以及有关相应文档内所述搜索项出现的位置的进一步信息,该方法的特征在于在建立索引时执行的如下步骤:a)生成(310,330,340)扩展反向索引(32)结构,该扩展反向索引结构包括:aa)词汇关联(42)(LA),其中每个词汇关联(42)涉及相应两个搜索项(22),以及bb)针对每个所述词汇关联(42)的相应登记表(24),b)通过使用所述扩展索引(32)对搜索的文档分级(350,355,370)。

【技术特征摘要】
EP 2005-5-10 05103880.01.一种电子信息检索(IR)方法,其中爬行预定信息源库,并且通过包括索引的数据结构来索引其文档,该索引由潜在搜索项和相关登记表组成,该登记表包含有关含有该搜索项的文档的文档标识信息,以及有关相应文档内所述搜索项出现的位置的进一步信息,该方法的特征在于在建立索引时执行的如下步骤a)生成(310,330,340)扩展反向索引(32)结构,该扩展反向索引结构包括aa)词汇关联(42)(LA),其中每个词汇关联(42)涉及相应两个搜索项(22),以及bb)针对每个所述词汇关联(42)的相应登记表(24),b)通过使用所述扩展索引(32)对搜索的文档分级(350,355,370)。2.根据权利要求1的方法,其中查询日志被用作信息源。3.根据权利要求1的方法,其中锚标存储被用作信息源。4.根据权利要求1的方法,其中概率计数方法被用于在所述建立索引时对所述文档库中词汇关联(42)的出现进行计数。5.一种电子信息检索(IR)方法,其中爬行预定文档库(因特网等等),并且通过包括索引的数据结构来索引其文档,该索引由潜在搜索项(22)和相关登记表(24)组成,该登记表(24)包含文档标识信息,以及有关相应文档中所述搜索项(22)出现的位置的进一步信息,其特征在于将概率计数(PC)方法用于建立索引时对文档中词汇关联(42)(LA)的出现进行计数。6.一种用于在信息检索系统中计算统计数据的方法,其特征在于将概率计数(P...

【专利技术属性】
技术研发人员:皮特阿尔特沃格马库斯F方图拉贾森Y齐恩
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1