The present invention discloses a kind of timing large scale data retrieval index system and method, the system includes a hierarchical indexing module, including a multilayer index, each layer of the index includes the Hashi function and the multiple data sets, data set by a hierarchical index Hashi mapping function to the next level of data in the data set also; including the corresponding time axis indexing module, for the establishment of a list of events and time list. The present invention through hierarchical indexing module large data set after the original hash mapping layer, will eventually be assigned to a number of relatively small data set, which can independently execute the query processing, data loading, storage optimization operations of each small data set, which combined with the time axis indexing module to avoid the risk a full table scan operation procedure of sequential retrieval operation, greatly improve the retrieval speed of timing. The invention is a large scale data timing retrieval index system and method, and can be widely applied to the data processing field.
【技术实现步骤摘要】
一种超大规模数据的时序检索索引系统及方法
本专利技术涉及数据处理领域,尤其是一种超大规模数据的时序检索索引系统及方法。
技术介绍
时序数据库的时序数据管理领域也涉及了对数据库中的数据的时序检索操作。时序数据库内部也是通过对时序数据建立数据索引从而高效地实现各种时序数据管理的功能。总的来说,时序数据库中的这些数据索引主要分成两大类,一类是基于B+树结构的索引,另外一类是基于R树的结构的索引。比如TimeIndex,SnapshotIndex,CheckpointIndex,ArchivableTimeIndex,OverlappingB+树等等几类比较具体的索引结构。TimelineIndex是由MartinKaufman等人在2013年提出的一种索引结构,它主要服务于时序数据库里的时序数据管理,能够极大地提升时序数据库各种时序检索的效率。如图1所示为时序数据库中数据格式,参数Start和End表示数据记录的有效时间的起止点,参数Name和Balance分别表示姓名和账目。如图2所示,TimelineIndex主要由图中左边的VersionMap和图中右边的EventList两个部分组成。图1中的每条数据记录可以拆分为两个事件:在Start时刻记录被激活;在End时刻记录被撤销。EventList记录了所有的被激活和被撤销的事件(1为激活,0为撤销)。而VersionMap记录了所有事件发生的顺序。通过对这两个列表的操作,TimelineIndex能够实现高效的时序检索性能。对于每张数据表,都需要建立一个对应的TimelineIndex。Timelinein ...
【技术保护点】
一种超大规模数据的时序检索索引系统,其特征在于:包括有垂直层级索引模块,包括有多层索引,每层索引均包括有哈希函数和多个数据集,所述原始数据通过第一层级索引的哈希函数映射至数据集中,所述数据集中数据通过下一层级索引的哈希函数映射至下一层级的数据集中;时间轴索引模块,用于对最下层级索引中数据集的数据建立事件列表和时间列表;所述事件列表用于记录数据对应的事件在某个定点时间的激活状态,所述时间列表用于记录在某个定点时间之前的所发生的事件的总数。
【技术特征摘要】
1.一种超大规模数据的时序检索索引系统,其特征在于:包括有垂直层级索引模块,包括有多层索引,每层索引均包括有哈希函数和多个数据集,所述原始数据通过第一层级索引的哈希函数映射至数据集中,所述数据集中数据通过下一层级索引的哈希函数映射至下一层级的数据集中;时间轴索引模块,用于对最下层级索引中数据集的数据建立事件列表和时间列表;所述事件列表用于记录数据对应的事件在某个定点时间的激活状态,所述时间列表用于记录在某个定点时间之前的所发生的事件的总数。2.根据权利要求1所述的一种超大规模数据的时序检索索引系统,其特征在于:所述垂直层级索引模块包括有三层索引。3.根据权利要求1所述的一种超大规模数据的时序检索索引系统,其特征在于:所述多层索引中,最下层级索引用于存储热点查询信息,其余层级索引只存储映射关系数据。4.根据权利要求3所述的一种超大规模数据的时序检索索引系统,其特征在于:所述热点查询信息包括...
【专利技术属性】
技术研发人员:赵淦森,李振宇,王欣明,张海明,庄序填,唐华,李卓越,林成创,刘创辉,马朝辉,廖智锐,
申请(专利权)人:华南师范大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。