使用词汇关联增强搜索引擎查询性能的方法和系统技术方案

技术编号：2847362 阅读：326 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及基于计算机的电子信息检索（ＩＲ）。本发明专利技术尤其涉及电子信息检索（ＩＲ）方法，其中爬行预定搜索文档库（因特网等），并且其文档通过例如所谓“反向索引”的数据结构来建立索引，该数据结构包括由潜在搜索项和相关登记表组成的索引，该登记表含有给出在哪一文档中找到所述搜索项的文档标识信息以及与有关所述搜索项在相应文档内的出现位置的进一步信息。为了加速查询性能，提出在建立索引时执行如下步骤：ａ）生成扩展反向索引（３２）结构，该扩展反向索引结构包括：ａａ）词汇关联（４２）对（ＬＡ），其中每对（４２）涉及相应两个搜索项（２２）之间的特定词汇关联，以及ｂｂ）针对每个所述ＬＡ对的相应登记表（２４），以及ｂ）通过使用所述扩展索引（３２）对搜索的文档分级。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及基于计算机的电子信息检索(IR)。本专利技术尤其涉及具有索引器模块的电子信息检索(IR)方法和系统，该索引器模块具有包括潜在搜索项和相关登记表(posting list)的反向索引(inverted index)。
技术介绍
现有技术的IR系统的基本结构和功能在图1中示出。该系统除对于本专利技术而言不太相关的其他单元之外还包含搜索引擎，该搜索引擎包括web爬行器(crawler)模块10、解析器或标记识别器(tokenizer)模块12、索引器模块14、索引存储器16，该索引存储器根据逻辑模式来存储包括上述搜索项的数据；该系统进一步包括分级模块18、搜索模块20，最后包含发出查询和接收来自IR系统的结果的客户机。具体来说，独立于用户查询地爬行(crawl)搜索文档库(因特网等)，并且按照例如前述“反向索引”的数据结构来索引所爬行的文档，该数据结构在每行中包括索引条目，该索引条目由潜在搜索项，和含有文档标识信息的相关登记表组成，该信息表示在哪个文档中找到搜索项并且可选地包括有关在相应文档中所述搜索项出现的位置的进一步信息。图2描绘了在前述反向索引数据结构内的两个单条目上的“剖面”视图。左列定义了所谓词汇表，并且包括可能的搜索项22，例如“IBM”或“服务器(SERVER)”。右列被称为登记表24。一个搜索项的登记表条目26包括a)文档标识信息，例如编号或URL，以及可选地类似于b)相对相应文档的开始处的偏移的进一步信息。例如对于“IBM”，登记表中的第一条目涉及文档ID 0003，其第52页第13行。图2中描绘的其它参考和登记表中的条目的解...

【技术保护点】
一种电子信息检索（ＩＲ）方法，其中爬行预定信息源库，并且通过包括索引的数据结构来索引其文档，该索引由潜在搜索项和相关登记表组成，该登记表包含有关含有该搜索项的文档的文档标识信息，以及有关相应文档内所述搜索项出现的位置的进一步信息，该方法的特征在于在建立索引时执行的如下步骤：ａ）生成（３１０，３３０，３４０）扩展反向索引（３２）结构，该扩展反向索引结构包括：ａａ）词汇关联（４２）（ＬＡ），其中每个词汇关联（４２）涉及相应两个搜索项（２２），以及ｂｂ）针对每个所述词汇关联（４２）的相应登记表（２４），ｂ）通过使用所述扩展索引（３２）对搜索的文档分级（３５０，３５５，３７０）。

【技术特征摘要】
EP 2005-5-10 05103880.01.一种电子信息检索(IR)方法，其中爬行预定信息源库，并且通过包括索引的数据结构来索引其文档，该索引由潜在搜索项和相关登记表组成，该登记表包含有关含有该搜索项的文档的文档标识信息，以及有关相应文档内所述搜索项出现的位置的进一步信息，该方法的特征在于在建立索引时执行的如下步骤a)生成(310，330，340)扩展反向索引(32)结构，该扩展反向索引结构包括aa)词汇关联(42)(LA)，其中每个词汇关联(42)涉及相应两个搜索项(22)，以及bb)针对每个所述词汇关联(42)的相应登记表(24)，b)通过使用所述扩展索引(32)对搜索的文档分级(350，355，370)。2.根据权利要求1的方法，其中查询日志被用作信息源。3.根据权利要求1的方法，其中锚标存储被用作信息源。4.根据权利要求1的方法，其中概率计数方法被用于在所述建立索引时对所述文档库中词汇关联(42)的出现进行计数。5.一种电子信息检索(IR)方法，其中爬行预定文档库(因特网等等)，并且通过包括索引的数据结构来索引其文档，该索引由潜在搜索项(22)和相关登记表(24)组成，该登记表(24)包含文档标识信息，以及有关相应文档中所述搜索项(22)出现的位置的进一步信息，其特征在于将概率计数(PC)方法用于建立索引时对文档中词汇关联(42)(LA)的出现进行计数。6.一种用于在信息检索系统中计算统计数据的方法，其特征在于将概率计数(P...

【专利技术属性】
技术研发人员：皮特阿尔特沃格，马库斯F方图拉，贾森Y齐恩，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人