提供了一种用于处理数据集的方法,数据集包括多个时序数据。该方法包括:将多个时序数据按时间顺序以预定的规则划分成多个数据分片,多个数据分片中的每个数据分片包括所述数据集中的一部分时序数据;以及对多个数据分片中的数个数据分片分别进行物化操作以获得对应的数个物化视图分片。该方法还提供相应的物化视图查询方法。化视图查询方法。化视图查询方法。
【技术实现步骤摘要】
用于处理数据集的方法、装置以及计算设备
[0001]本公开涉及数据集处理领域,具体涉及用于处理时序数据集的方法、用于处理时序数据集的装置、计算设备、非瞬时计算机可读存储介质以及计算机程序产品。
技术介绍
[0002]时序数据集是多个具有时间属性的或带有时间戳的数据的集合。在各行各业中,时序数据集广泛存在。典型的时序数据集包括服务器的CPU(或其他资源)实时使用率、传感器采集信息等。时序数据集的特点是数据量大,持续写入,写入后一般不会进行更改。
[0003]在分析时序数据集时,需要访问大量时序数据,并进行大量计算,非常耗时,对同一时序数据集的分析也可能存在重复计算。物化视图提供了一种预计算方式,把耗时操作的结果保存下来,以便在查询时直接复用,最终达到加速查询的目的。用户通过访问物化视图避免了实时计算而是直接获取了预计算结果,从而达到加速计算的目的。市场上大多数的关系型数据库或非关系型数据库都开发了物化视图功能。
[0004]目前,在时序数据集随时间不断增加的情况下,对应的物化视图在实现高效更新和实时查询方面还有很大提升空间。
[0005]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
[0006]本公开提供了一种用于处理数据集的方法,其中,所述数据集包括多个时序数据,所述方法包括:将所述多个时序数据按时间顺序以预定的规则划分成多个数据分片,所述多个数据分片中的每个数据分片包括所述数据集中的一部分时序数据;以及对所述多个数据分片中的数个数据分片分别进行物化操作以获得对应的数个物化视图分片。
[0007]根据本公开的一方面,提供了一种用于处理数据集的装置,其中,所述数据集包括按时间排列的多个数据,所述装置包括:第一模块,用于将所述数据集按照预定的规则划分成多个数据分片,使得所述多个数据分片中的每个数据分片包括所述数据集中的一部分数据;以及第二模块,用于对所述多个数据分片中的每个数据分片进行物化操作以获得对应的多个物化视图分片。
[0008]根据本公开的另一方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储指令,所述指令在由所述处理器执行时,使所述处理器执行如上所述的方法。
[0009]根据本公开的另一方面,提供了一种存储有指令的非瞬时计算机可读存储介质,其中,所述指令在由处理器执行时,使所述处理器执行如上所述的方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括指令,所述指令在由处理器执行时,使所述处理器执行如上所述的方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特
征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0013]图1示出了根据相关技术的通过创建物化视图来处理时序数据集的方法的示意图;
[0014]图2示出了根据相关技术的更新图1中创建的物化视图的方法的示意图;
[0015]图3示出了根据本公开示例实施例的用于处理时序数据集的方法的流程图;
[0016]图4示出了根据本公开示例实施例的划分数据分片的过程的示意图;
[0017]图5示出了根据本公开示例实施例的创建物化视图分片的过程的示意图;
[0018]图6示出了根据本公开示例实施例的更新物化视图分片的方法的流程图;
[0019]图7示出了根据本公开示例实施例的更新物化视图分片的方法的示意图;
[0020]图8示出了根据本公开示例实施例的查询物化视图的方法的流程图;
[0021]图9示出了根据本公开示例实施例的查询物化视图的方法的示意图;
[0022]图10示出了根据本公开示例实施例的将物化视图分片划分为多个时间桶的方法的示意图;以及
[0023]图11示出了根据本公开示例实施例的用于处理数据集的装置的结构框图。
具体实施方式
[0024]以下结合附图对本公开的示例性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示例性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0025]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0026]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。术语“基于”应解释为“至少部分地基于”。
[0027]时序数据往往随着时间的增长而无限增加。在处理这样的时序数据集时,将数据集中的时序数据按照时间顺序划分成多个数据分片,可以方便后续方案的实施。
[0028]在相关技术中,如图1所示,可以针对多个数据分片110创建物化视图120,从而将预计算的结果保存下来以方便后续的快速查询。然而,所创建的物化视图120为数据分片物化操作的静态快照。也就是说,当时序数据随时间增长而增加,开发人员需要主动发起或定义周期任务来更新物化视图。相关技术中更新物化视图的过程如图2所示,当新的数据分片
210导入后,物化视图的更新需要重新创建包含新的数据分片210的物化视图220。该过程不仅需要对新的数据分片210进行计算,还需要重新对所有历史数据分片110进行计算。每次重复计算所有历史数据,会带来不必要的资源浪费。另外,缓存下来的预计算结果为静态数据快照,导致用户获取的计算结果实时性不足。
[0029]专利技术人认识到,对于时序数据而言,几乎不会更改过去时间的数据。将数据按照时间分片后,历史时间的数据分片做预处理计算后,预处理计算的结果也一般不会更改。本公开因此充分利用上述时序数据的特性,提出了用于处理时序数据集的方法。该方法至少能够以更少的资源创建和更新时序数据集的物化视图,并能够精确且实时地查询任何时间范围的物化视图。
[0030]下面将结合附图详细描述本公开的实施例。
[0031]1.关于物化视图的创建本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于处理数据集的方法,其中,所述数据集包括多个时序数据,所述方法包括:将所述多个时序数据按时间顺序以预定的规则划分成多个数据分片,所述多个数据分片中的每个数据分片包括所述数据集中的一部分时序数据;以及对所述多个数据分片中的数个数据分片分别进行物化操作以获得对应的数个物化视图分片。2.如权利要求1所述的方法,还包括:响应于新增时序数据导入到所述数据集,将所述新增时序数据以所述预定的规则划分成至少一个新增数据分片,所述至少一个新增数据分片中的每个新增数据分片包括所述新增时序数据中的一部分时序数据;以及对所述至少一个新增数据分片分别进行物化操作以获得对应的至少一个物化视图分片。3.如权利要求1所述的方法,还包括:响应于删除所述多个数据分片中的至少一个数据分片,删除与所述至少一个数据分片对应的至少一个物化视图分片。4.如权利要求1所述的方法,还包括:响应于更改所述多个数据分片中的至少一个数据分片中的数据,对更改后的至少一个数据分片进行物化操作以替换对应的至少一个物化视图分片。5.如权利要求1所述的方法,还包括:接收数据查询请求,所述数据查询请求指定所要查询的物化视图的时间范围;基于所述时间范围,从所述数据集中当前存在的数据分片中确定查询数据分片集合,其中,所述查询数据分片集合覆盖所述时间范围;对于所述查询数据分片集合中的每个查询数据分片:响应于该查询数据分片没有对应的物化视图分片,对该数据分片进行物化操作以获得对应的查询物化视图分片;和响应于该查询数据分片具有对应的物化视图分片,将该对应的物化视图分片中的至少对应部分作为对应的查询物化视图分片;以及将与所述查询数据分片集合中的各个查询数据分片相对应的查询物化视图分片相组合以获得所要查询的物化视图。6.如权利要求5所述的方法,其中,所述将该对应的物化视图分片中的至少对应部分作为对应的查询物化视图分片包括:响应于该对应的物化视图分片完全落入所述时间范围内,将该对应的物化视图分片的全部作为对应的查询物化视图分片;和响应于该对应的物...
【专利技术属性】
技术研发人员:彭江涛,倪跃,
申请(专利权)人:上海炎凰数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。