【技术实现步骤摘要】
一种数据索引系统和方法
本专利技术涉及数据查询领域,尤其涉及通过数据索引为用户提供数据查询服务的
技术介绍
随着互联网时代的到来,热点新闻和娱乐头条等信息地传播越来越广,为了便于人们查找筛选自已喜欢的内容,搜索引擎应运而生。在满足人们搜索需求的同时,搜索引擎面临着大量用户的搜索需求,最高可达每秒几千甚至几万次点击。为了满足用户的搜索需求,在搜索引擎内部通常会提供数据索引服务。这种数据索引通常为倒排索引,这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址,在倒排索引中,不是由记录来确定属性值,而是由属性值来确定记录的位置。这种倒排索引适于在搜索引擎内部使用,即可以将用户的搜索请求转化为一个或者多个属性值,然后根据数据索引获得具有各属性值的记录地址如网页URL等,随后返回搜索结果。由于搜索引擎一方面为用户提供搜索服务,另一方面又需要从网上获取最新的网页内容,所以为了保证搜索引擎搜索数据的实时性,需要对其中的数据索引进行更新。在现有技术中所采用的索引更新策略有两种:1.完全重建策略,即当新抓取的文档达到一定数量时,将新增文档和原先的老文档进行合并,然后对所有文档重新建立索引。新索引建立完成后,老的索引被遗弃释放,之后对用户查询的响应完全由新的索引负责。这种策略存在的问题在于,新抓取的文档不能实时在索引中体现,导致搜索数据不够及时,另外,在创建索引期间的文档可能不能被索引到,导致数据不一致。2.再合并策略:有新增文档进入搜索系统时,搜索系统在内存维护临时倒排索引来记录其信息,当 ...
【技术保护点】
1.一种数据索引的方法,包括:/n由当前全量索引和活跃增量索引为用户提供数据服务,所述当前全量索引基于元数据创建得到,所述活跃增量索引由在基于所述元数据创建所述全量索引期间新获取的数据更新得到;/n基于新获取的数据更新所述元数据和所述活跃增量索引;/n在触发时刻触发创建新全量索引,以便利用所述触发时刻对应的元数据来创建所述新全量索引;/n在所述触发时刻与所述新全量索引创建完成时刻之间的期间,利用该期间新获取的数据更新所述元数据、所述活跃增量索引和备份增量索引;以及/n在新全量索引创建完成之后,将所述新全量索引设置为所述当前全量索引,将所述活跃和备份增量索引分别设置为所述备份和活跃增量索引,并由所述新设置的当前全量索引和活跃增量索引为用户提供数据服务。/n
【技术特征摘要】
1.一种数据索引的方法,包括:
由当前全量索引和活跃增量索引为用户提供数据服务,所述当前全量索引基于元数据创建得到,所述活跃增量索引由在基于所述元数据创建所述全量索引期间新获取的数据更新得到;
基于新获取的数据更新所述元数据和所述活跃增量索引;
在触发时刻触发创建新全量索引,以便利用所述触发时刻对应的元数据来创建所述新全量索引;
在所述触发时刻与所述新全量索引创建完成时刻之间的期间,利用该期间新获取的数据更新所述元数据、所述活跃增量索引和备份增量索引;以及
在新全量索引创建完成之后,将所述新全量索引设置为所述当前全量索引,将所述活跃和备份增量索引分别设置为所述备份和活跃增量索引,并由所述新设置的当前全量索引和活跃增量索引为用户提供数据服务。
2.如权利要求1所述的方法,其中所述触发时刻设置为在新设置了所述当前全量索引之后的预定时刻,或者设置为活跃增量索引达到预定数据量的那个时刻。
3.如权利要求1或者2所述的方法,其中所述数据索引包括数据属性值和数据存储位置之间的对应关系,所述方法还包括:
从新获取的数据中提取数据属性值和数据存储位置;以及
所述利用新获取的数据更新元数据和增量索引的步骤包括:
将所提取的数据属性值和数据存储位置写入到所述元数据和所述活跃增量索引中。
4.如权利要求3所述的方法,其中:
所述新获取的数据包括网络内容,所述数据存储位置包括与所述网络内容对应的网络链接,以及所述数据属性值包括从所述网络内容中提取的数据属性。
5.如权利要求1-4中任一所述的方法,其中所述在触发时刻与所述新全量索引创建完成时刻期间更新所述备份增量索引的步骤包括:
在更新所述备份增量索引之前,清空所述备份增量索引中的内容。
6.如权利要求1-5中任一所述的方法,其中所述由当前全量索引和活跃增量索引为用户提供数据服务步骤包括:
接收用户请求,所述用户请求包括要查询的数据属性值;
从所述当前全量索引获取与所查询的数据属性值相对应的第一数据存储位置;
从所述活跃增量索引获取与所查询的数据属性值相对应的第二数据存储位置;以及
合并所述第一数据存储位置和第二数据存储位置,以便将合并后的数据存储位置作为结果返回给用户。
7.如权利要求6所述的方法,还包括步骤:
统计用户请求,以获取查询次数超过预定数量的热门请求列表;
在基于元数据创建新全量索引期间,对于所述热门请求列表中的每个请求,预先从所述新全量索引中获取相对应的第一数据存储位置;以及
缓存所述热门请求列表和所获取的相应第一数据存储位置,以便在将所述新全量索引设置为当前全量索引之后使用。
8.如权利要求7所述的方法,所述由当前全量索引和活跃增量索引为用户提供数据服务的步骤包括:
如果所述用户请求在热门请求列表中,则从缓存中获取所述第一数据存储位置,否则从所述当前全量索引中获取所述第一数据存储位置。
9.如权利要求1-8中任一个所述的方法,其中增量索引包括奇数增量索引和偶数增量索引,当所述奇数增量索引被设置为所述活跃增量索引时,所述偶数增量索引被设置为所述备份增量索引;以及当所述偶数增量索引被设置为所述活跃增量索引时,所述奇数增量索引被设置为所述备份增量索引。
10.一种数据索引系统,包括:
数据存储单元,其中存储元数据;
索引存储单元...
【专利技术属性】
技术研发人员:顾朝媛,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。