一种面向微博实时搜索的自适应索引方法技术

技术编号：11882514 阅读：96 留言：0更新日期：2015-08-13 15:36

本发明专利技术公开了一种面向微博实时搜索的自适应索引方法，该方法包括：新建大小为π0的第0层倒排索引i0；将新的微博索引到第0层倒排索引i0；当第0层倒排索引i0空间不够时，生成第0层倒排索引i0的副本第0层副本i0`，将微博插入到清空后的第0层倒排索引i0；判断当前存在索引包的数量k<＝p是否成立，若是，则创建大小为rk×π0的第k层索引包jk；若否，则创建大小为rk×π0的第k层倒排索引ik；若当前层索引空间不够，将当前层索引内容移动到下一层；监测用户查询请求到达速率的变化情况，据此对索引结构进行自适应的调整。本发明专利技术能够解决现有索引方法中存在的查询效率不高、无法适应外部动态环境的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息
，更具体地，涉及。
技术介绍
微博实时搜索对微博信息进行即时而快速的搜索，相比传统网页搜索，微博实时搜索需要索引方法具备低延时、高插入率、实时数据可用性以及高查询效率的特点；现有的实时索引方法主要包括Earlybird、推文索引(Tweet Index, TI)和日志结构倒排索引(Log-Structured Inverted Indices，LSII)。Earlybird 米取了一种直接将单个倒排索引结构切分成多段较小的独立倒排索引结构的方法；TI采取了一种只索引热门微博的部分索引方法；LSII提出了一种日志结构的倒排索引结构。相比Earlybird和TI，LSII解决了索引碎片和查询精度低下的问题；但由于缺乏合适的索引合并策略，LSII带来了较大的合并开销，造成了查询性能的下降。目前应用在微博实时索引结构中的合并策略主要包括周期合并、直接合并和懒惰合并。TI采取周期合并来提高微博更新的效率，LSII采取直接合并策略维持适量的倒排索引数量，Mercury采取懒惰合并策略来回收空的索引。由于微博系统的运行环境时刻在变化(主要体现在微博系统每秒接收到的新微博数量和查询请求的变化)，对于给定的索引结构，高的查询请求到达速率会带来系统查询资源的匮乏，导致较大的查询请求排队延迟；相反，低的查询请求到达速率会导致查询资源处于空闲状态，造成查询资源利用率低下的问题。为了提高动态环境下微博系统的查询性能和稳定性，索引结构需要自适应的策略来合理利用系统的查询资源。
技术实现思路
针对现有技术的以上缺陷或改进需求，本专利技术提供了，其目的...
一种<a href="http://www.xjishu.com/zhuanli/55/CN104834726.html" title="一种面向微博实时搜索的自适应索引方法原文来自X技术">面向微博实时搜索的自适应索引方法</a>

【技术保护点】
一种面向微博实时搜索的自适应索引方法，其特征在于，所述方法具体如下：(1)判断是否已创建第0层倒排索引i0，若是，则进入步骤(3)；若否，则创建一个空间大小为π0的第0层倒排索引i0，进入步骤(2)；(2)将新的微博索引到第0层倒排索引i0；(3)判断第0层倒排索引i0里的微博数量是否达到π0，若是，则生成第0层倒排索引i0的副本即第0层副本i0`，并将第0层倒排索引i0清空，将所述新的微博插入到清空后的第0层倒排索引i0，进入步骤(4)；若否，则进入步骤(2)；(4)判断是否已创建第k层索引包jk，若是，则进入步骤(6)；若否，则创建一个空间大小为rk×π0的第k层索引包jk，进入步骤(5)；其中，索引包为一种能存放多个倒排索引的数据结构；其中，r＝2～20；k＝1…m，m是索引结构的总层数；(5)将第k‑1层副本ik‑1`移动到第k层索引包jk；(6)判断第k层索引包jk里的微博数量是否达到rk×π0，若是，进入步骤(7)；若否，则进入步骤(5)；(7)批量合并第k层索引包jk中的所有倒排索引，获取第k层副本ik`，进入步骤(8)；(8)将第k层索引包jk清空，并将第k层副本ik`...

【技术特征摘要】

【专利技术属性】
技术研发人员：赵峰，金海，柳俊，李少峰，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人