一种面向实时搜索的缓存方法技术

技术编号：7821986 阅读：230 留言：0更新日期：2012-09-28 22:08

一种面向实时搜索的缓存方法，属于计算机程序技术领域缓存当前检索结果和后台索引库最大docID，通过仅向后台服务器检索增量部分的数据，缓存检索结果的Top-K结果集及文档最大的docID值。在不造成检索结果延迟的情况下，采用本缓存方法提升了检索结果缓存的命中率，在缓存命中时极大的降低检索过程中的计算量，提升了整个系统的性能和吞吐量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及，属于计算机程序

技术介绍
互联网规模的急剧膨胀，基于Web的电子信息以爆炸式的速度增长。普通用户想在纷繁复杂的海量数据中找到所需的内容如同大海捞针，而搜索引擎正是为了满足广大用户的信息检索需求而诞生。主流的搜索引擎基本结构，如图I所示，包括数据下载子系统、数据预处理子系统、索引子系统、检索子系统、网页库、正向索引库、文档库和倒排索引库。数据采集子系统根据相应的采集策略的，对互联网进行批量或增量的信息扫描，完成网页信息采集。数据预处理子系统对采集到信息进行分析，提取检索项，并统计相应的位置、频率イM息，估算检索项权重。索引子系统按照一定周期，创建新的全局索引文件。检索子系统依据最新静态索引文件完成用户查询的检索服务。为了实现海量数据的检索服务，搜索引擎大量采用分布式计算技术和缓存技木，其中，缓存技术的应用大幅提高检索效率，改善了用户的使用感受。搜索引擎系统按照一定策略对检索过程中产生的最终运算结果或中间计算数据进行存储，降低后续查询的运算负载。文献“ThreeLevel Caching for Efficient Query Processing in Large WebSearch Engines”文献[I][用于大型web搜索引擎高效检索的三层缓存结构设计]对搜索引擎缓存技术进行了分析，提出了基于检索結果、查询项交集结果列表、查询倒排列表的三层缓存方法，如图2所示，目前被广泛采用，并获得非常好的运行效果。文献“NewCaching Techniques for Web Search Engines”[webs搜索引擎新缓存技木...

【技术保护点】

【技术特征摘要】
1.一种面向实时搜索的缓存技木，其特征在于缓存当前检索结果和后台索引库最大docID，通过仅向后台服务器检索増量部分的数据，缓存检索结果的Top-K结果集及文档最大的docID值。2.根据权利要求I所述的ー种面向实时搜索的缓存方法，其特征在于含有以下步骤；步骤I、建立基本的索引库结构，由ID对照表、词典和倒排索引组成；其中ID对照表是建立的docID与URLID之间的对照关系，URLID是基于所创建索引文档分配的唯一的ID值，docID是索引库为URLID分配的ー个从I开始自增的内部ID ;词典存储的是关键词到倒排索引列表之间的索引关系；倒排索引存储的为docID递增有序的ID列表；步骤2、判断结果缓存中是否存在当前检索串；查询检索串的Top-K结果集，记录当前检索串所命中结果docID列表中的最大docID值...

【专利技术属性】
技术研发人员：王飞，常智山，
申请(专利权)人：北京迅奥科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人