当前位置: 首页 > 专利查询>吕纪竹专利>正文

一种实时判断大数据自身给定延迟重复性的方法技术

技术编号:26598090 阅读:36 留言:0更新日期:2020-12-04 21:20
给定延迟的自相关可用于判断大数据自身给定延迟的重复性。本发明专利技术公开了一种通过迭代计算给定规模的计算窗口的指定延迟的自相关从而可以实时地判断大数据自身给定延迟重复性的方法,系统和计算系统程序产品。本发明专利技术的实施方案包括基于调整前计算窗口的指定延迟的自相关的二个以上组件迭代计算调整后计算窗口的指定延迟的自相关的二个以上组件,然后根据需要基于迭代计算的二个以上组件生成调整后计算窗口的指定延迟的自相关。迭代计算自相关避免访问调整后计算窗口中的所有数据元素和执行重复计算从而提高计算效率,节省计算资源和降低计算系统能耗,使得实时判断大数据自身给定延迟重复性高效低耗及一些实时判断大数据自身给定延迟重复性的场景从不可能变为可能。

【技术实现步骤摘要】
一种实时判断大数据自身给定延迟重复性的方法
大数据或流数据分析。
技术介绍
互联网,移动通讯,导航,在线游戏,感知技术和大规模计算基础设施每天都生成海量的数据。大数据就是由于其巨大规模,快速变化及增长速度而超出了传统数据库系统的处理能力及传统分析方法的分析能力的数据。目前的大数据分析方法涉及应用大量计算资源,非常昂贵但仍不能满足利用最新的数据信息做出实时决策的需求,特别是在物联网,金融行业等。如何高效实时并节省资源地处理和分析大数据,对数据分析师和计算机科学家是一个艰难的挑战。自相关,也被称为延迟相关或序列相关,是一个特定的时间序列与延迟了l个时间点的该时间序列本身的相关程度的一个度量。它可以通过一个时间序列的相隔了l个时间点的观察值的协相关除以其标准方差来得到。某个延迟的自相关值为1或接近1可认为大数据在该延迟后出现自身重复规律,因此基于给定延迟的自相关判断大数据自身给定延迟的重复性显而易见,而困难和挑战在于如何实时地在大数据上计算自相关。自相关在大数据有一些数据变化后可能需要被重新计算以反映最新的数据状况。例如,也许要为包含最新加入存储媒体上的大数据集的n个数据元素的一个计算窗口计算自相关,这样每接收或访问两个数据元素,其中一个数据元素被加入计算窗口而另一个数据元素被移出计算窗口,计算窗口中的n个数据元素就会被访问来重新计算自相关。这样,每次数据变化可能只改变了计算窗口中的一小部分数据。使用计算窗口中的所有数据元素来重新计算自相关涉及重复数据访问和计算,因此耗时并浪费资源。取决于需要,计算窗口的规模可能非常大,例如计算窗口中的数据元素可能分布在云平台的成千上万台计算设备上。在一些数据变化后的大数据上用传统方法重新计算自相关无法做到实时处理并且占用和浪费大量计算资源,也使得一些实时地判断大数据自身给定延迟的重复性无法满足需求地实现。
技术实现思路
本专利技术拓展到方法,系统和计算设备程序产品以迭代方式计算大数据的给定延迟的自相关从而可以实时地判断大数据自身给定延迟的重复性。为一个调整后计算窗口迭代计算指定延迟l(l>0)的自相关包括基于调整前计算窗口的指定延迟的自相关的两个以上(p(p>1))组件迭代计算调整后计算窗口的指定延迟的自相关的两个以上组件然后根据需要基于迭代计算的两个以上组件生成调整后计算窗口的指定延迟的自相关。迭代计算自相关只需要访问和使用迭代计算的组件,新加入和去除的数据元素,以及计算窗口两边分别与新加入和去除数据元素相邻的各l个数据元素而避免访问调整后计算窗口中的所有数据元素和执行重复计算从而降低数据访问延迟,提高计算效率,节省计算资源和降低计算系统能耗,使得实时判断大数据自身给定延迟重复性高效低耗及一些实时判断大数据自身给定延迟重复性的场景从不可能变为可能。计算系统初始化存储在一个或多个存储媒体上的一个大数据集的一个调整前计算窗口的自相关的两个以上(p(p>1)个)组件。该两个以上组件的初始化包括基于调整前计算窗口中的数据元素通过组件的定义计算两个以上组件或从计算设备可读媒体上接收或访问已计算的两个以上组件。计算系统访问一个要被从调整前计算窗口中去除的数据元素和一个要被加入到调整前计算窗口的数据元素。计算系统通过从调整前计算窗口中去除要去除的数据元素和向调整前计算窗口加入要加入的数据元素来调整调整前计算窗口。计算系统直接迭代计算调整后计算窗口的指定延迟的自相关的一个或多个(设v(1≤v≤p)个)组件。直接迭代计算这一个或多个组件包括:访问调整前计算窗口的指定延迟的v个组件;从访问的每个组件中数学地去除被去除的数据元素的贡献;以及向访问的每个组件数学地加入被加入的数据元素的贡献。计算系统根据需要间接迭代计算调整后计算窗口的指定延迟的自相关的w=p-v个组件。间接迭代计算指定延迟的w个组件包括一个一个地间接迭代计算w个组件中的每一个组件。间接迭代计算指定延迟的一个组件包括:访问并使用除该组件之外的指定延迟的一个或多个组件来计算该组件。这一个或多个组件可能是经过初始化的,直接迭代计算的或间接迭代计算的。计算系统基于一个或多个迭代计算的调整后计算窗口的指定延迟的自相关的组件生成一个调整后计算窗口的指定延迟的自相关。计算系统可以持续地访问一个要去除的数据元素和一个要加入的数据元素,调整计算窗口,直接迭代计算指定延迟的v个组件,根据需要间接迭代计算w=p-v个指定延迟的组件和计算指定延迟的自相关。计算系统可以根据需要多次重复这个过程。本简述是以简化的方式介绍一些选择的概念,它们将在下面被进一步详细描述。本简述即不是为了鉴定权利要求的主题的关键特点或必要特点,也不是为了用于帮助确认权利要求的主题所包括的范围。本专利技术的其它特征和优点将在下面的描述中体现出来,会部分地从描述中明显体现,或从本专利技术的实践中学到。本专利技术的特征和优点可从附加的权利要求书中特别指出的方法设备及其组合中实现和得到。本专利技术的这些和其它特征将在下面的描述和附加的权利要求书或本专利技术的实践中变得更加全面清晰。附图说明为描述能够获得本专利技术的上述的和其它的优点和特点的方式,上面简述的本专利技术的一个更具体的描述将通过参照附加的图表中所显示的特定的实施方案来展现出来。这些图表只是描述了本专利技术的典型实施方案,因此它们不应被理解为对本专利技术的范围的限制:图1图示了一个支持迭代计算自相关的例子计算系统的高层概括。图1-1显示了支持迭代计算大数据的自相关并且所有组件以直接迭代方式计算的一个例子计算系统架构。图1-2显示了支持迭代计算大数据的自相关并且部分组件以直接迭代方式计算而部分组件以间接迭代方式计算的一个例子计算系统架构。图2显示了迭代计算大数据的自相关的一个例子方法的流程图。图3-1显示了当计算窗口300A向右移动时去除的数据和加入的数据。图3-2显示了当计算窗口300A向右移动时为迭代计算自相关而访问的数据。图3-3显示了当计算窗口300B向左移动时去除的数据和加入的数据。图3-4显示了当计算窗口300B向左移动时为迭代计算自相关而访问的数据。图4-1显示了自相关的定义及计算自相关的传统方程。图4-2显示了第一个自相关迭代计算算法(迭代算法1)。图4-3显示了第二个自相关迭代计算算法(迭代算法2)。图4-4显示了第三个自相关迭代计算算法(迭代算法3)。图5-1显示了用于一个计算实例的第一个计算窗口。图5-2显示了用于一个计算实例的第二个计算窗口。图5-3显示了用于一个计算实例的第三个计算窗口。图6-1显示了计算窗口规模为4延迟为1时传统和迭代自相关算法的计算量对比。图6-2显示了计算窗口规模为1000000延迟为1时传统和迭代自相关算法的计算量对比。具体实施方式计算自相关是判断时间序列或流化大数据自身给定延迟重复性的有效方法。本专利技术拓展到通过迭代大数据的计算规模为n(n>1)的计算窗口的指定延迟l(1本文档来自技高网
...

【技术保护点】
1.一种由基于一台或多台计算设备构成的计算系统实现的方法,其特征在于:/n由基于计算设备的一个计算系统,为一个数据集的一个指定规模为n(n>1)的调整前计算窗口,初始化一个延迟l(0<l<n),以及延迟为l的自相关的两个以上组件;/n由基于计算设备的该计算系统,访问一个要从该调整前计算窗口中去除的数据元素和一个要加入到该调整前计算窗口的数据元素;/n由基于计算设备的该计算系统,调整该调整前计算窗口,通过:/n从该调整前计算窗口中去除要去除的数据元素;以及/n向该调整前计算窗口加入要加入的数据元素;/n由基于计算设备的该计算系统,为调整后计算窗口迭代计算一个和,一个平均值,或一个和及一个平均值;/n由基于计算设备的该计算系统,至少基于该调整前计算窗口的延迟为l的自相关的两个以上组件,为调整后计算窗口迭代计算延迟为l的自相关的两个以上组件,并且在迭代计算该两个以上组件的过程中避免访问和使用该调整后计算窗口中的所有数据元素来降低数据访问延迟,提高计算效率,节省计算资源和降低该计算系统能耗;以及/n由基于计算设备的该计算系统,基于一个或多个为调整后计算窗口迭代计算的组件,为调整后计算窗口生成延迟为l的自相关。/n...

【技术特征摘要】
1.一种由基于一台或多台计算设备构成的计算系统实现的方法,其特征在于:
由基于计算设备的一个计算系统,为一个数据集的一个指定规模为n(n>1)的调整前计算窗口,初始化一个延迟l(0<l<n),以及延迟为l的自相关的两个以上组件;
由基于计算设备的该计算系统,访问一个要从该调整前计算窗口中去除的数据元素和一个要加入到该调整前计算窗口的数据元素;
由基于计算设备的该计算系统,调整该调整前计算窗口,通过:
从该调整前计算窗口中去除要去除的数据元素;以及
向该调整前计算窗口加入要加入的数据元素;
由基于计算设备的该计算系统,为调整后计算窗口迭代计算一个和,一个平均值,或一个和及一个平均值;
由基于计算设备的该计算系统,至少基于该调整前计算窗口的延迟为l的自相关的两个以上组件,为调整后计算窗口迭代计算延迟为l的自相关的两个以上组件,并且在迭代计算该两个以上组件的过程中避免访问和使用该调整后计算窗口中的所有数据元素来降低数据访问延迟,提高计算效率,节省计算资源和降低该计算系统能耗;以及
由基于计算设备的该计算系统,基于一个或多个为调整后计算窗口迭代计算的组件,为调整后计算窗口生成延迟为l的自相关。


2.按照权利要求1所述的由计算系统实现的该方法,其特征在于:所述访问一个要去除的数据元素和一个要加入的数据元素包括访问多个要从调整前计算窗口去除的数据元素和多个要加入调整前计算窗口的数据元素,该方法也进一步包括对于多个要去除的数据元素中的每一个数据元素和多个要加入的数据元素中的每一个数据元素进行调整计算窗口,迭代计算两个以上组件,以及为调整后计算窗口生成延迟为l的自相关。


3.按照权利要求2所述的由计算系统实现的该方法,其特征在于:所述为调整后计算窗口生成延迟为l的自相关当且仅当该自相关被访问时。


4.按照权利要求3所述的由计算系统实现的该方法,其特征在于:所述为调整后计算窗口生成延迟为l的自相关进一步包括由基于计算设备的计算系统为调整后计算窗口间接迭代计算延迟为l的自相关的一个或多个组件,间接迭代计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。


5.一个计算系统,其特征在于:
一个或多个处理器;
一个或多个存储媒体,其中至少一个存储媒体存储了一个数据集;以及
一个或多个计算模块,当它们被一个或多个处理器中的至少一个处理器执行时,执行一个方法,该方法包括:
a.为该数据集的一个指定规模为n(n>1)的调整前计算窗口,初始化一个延迟l(0<l<n),以及延迟为l的自相关的两个以上组件;
b.访问一个要从该调整前计算窗口中去除的数据元素和一个要加入到该调整前...

【专利技术属性】
技术研发人员:吕纪竹
申请(专利权)人:吕纪竹
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1