【技术实现步骤摘要】
一种实时判断大数据自身给定延迟重复性的方法
大数据或流数据分析。
技术介绍
互联网,移动通讯,导航,在线游戏,感知技术和大规模计算基础设施每天都生成海量的数据。大数据就是由于其巨大规模,快速变化及增长速度而超出了传统数据库系统的处理能力及传统分析方法的分析能力的数据。目前的大数据分析方法涉及应用大量计算资源,非常昂贵但仍不能满足利用最新的数据信息做出实时决策的需求,特别是在物联网,金融行业等。如何高效实时并节省资源地处理和分析大数据,对数据分析师和计算机科学家是一个艰难的挑战。自相关,也被称为延迟相关或序列相关,是一个特定的时间序列与延迟了l个时间点的该时间序列本身的相关程度的一个度量。它可以通过一个时间序列的相隔了l个时间点的观察值的协相关除以其标准方差来得到。某个延迟的自相关值为1或接近1可认为大数据在该延迟后出现自身重复规律,因此基于给定延迟的自相关判断大数据自身给定延迟的重复性显而易见,而困难和挑战在于如何实时地在大数据上计算自相关。自相关在大数据有一些数据变化后可能需要被重新计算以反映最新的数据状况。例如,也许要为包含最新加入存储媒体上的大数据集的n个数据元素的一个计算窗口计算自相关,这样每接收或访问两个数据元素,其中一个数据元素被加入计算窗口而另一个数据元素被移出计算窗口,计算窗口中的n个数据元素就会被访问来重新计算自相关。这样,每次数据变化可能只改变了计算窗口中的一小部分数据。使用计算窗口中的所有数据元素来重新计算自相关涉及重复数据访问和计算,因此耗时并浪费资源。取决于需要,计算 ...
【技术保护点】
1.一种由基于一台或多台计算设备构成的计算系统实现的方法,其特征在于:/n由基于计算设备的一个计算系统,为一个数据集的一个指定规模为n(n>1)的调整前计算窗口,初始化一个延迟l(0<l<n),以及延迟为l的自相关的两个以上组件;/n由基于计算设备的该计算系统,访问一个要从该调整前计算窗口中去除的数据元素和一个要加入到该调整前计算窗口的数据元素;/n由基于计算设备的该计算系统,调整该调整前计算窗口,通过:/n从该调整前计算窗口中去除要去除的数据元素;以及/n向该调整前计算窗口加入要加入的数据元素;/n由基于计算设备的该计算系统,为调整后计算窗口迭代计算一个和,一个平均值,或一个和及一个平均值;/n由基于计算设备的该计算系统,至少基于该调整前计算窗口的延迟为l的自相关的两个以上组件,为调整后计算窗口迭代计算延迟为l的自相关的两个以上组件,并且在迭代计算该两个以上组件的过程中避免访问和使用该调整后计算窗口中的所有数据元素来降低数据访问延迟,提高计算效率,节省计算资源和降低该计算系统能耗;以及/n由基于计算设备的该计算系统,基于一个或多个为调整后计算窗口迭代计算的组件,为调 ...
【技术特征摘要】
1.一种由基于一台或多台计算设备构成的计算系统实现的方法,其特征在于:
由基于计算设备的一个计算系统,为一个数据集的一个指定规模为n(n>1)的调整前计算窗口,初始化一个延迟l(0<l<n),以及延迟为l的自相关的两个以上组件;
由基于计算设备的该计算系统,访问一个要从该调整前计算窗口中去除的数据元素和一个要加入到该调整前计算窗口的数据元素;
由基于计算设备的该计算系统,调整该调整前计算窗口,通过:
从该调整前计算窗口中去除要去除的数据元素;以及
向该调整前计算窗口加入要加入的数据元素;
由基于计算设备的该计算系统,为调整后计算窗口迭代计算一个和,一个平均值,或一个和及一个平均值;
由基于计算设备的该计算系统,至少基于该调整前计算窗口的延迟为l的自相关的两个以上组件,为调整后计算窗口迭代计算延迟为l的自相关的两个以上组件,并且在迭代计算该两个以上组件的过程中避免访问和使用该调整后计算窗口中的所有数据元素来降低数据访问延迟,提高计算效率,节省计算资源和降低该计算系统能耗;以及
由基于计算设备的该计算系统,基于一个或多个为调整后计算窗口迭代计算的组件,为调整后计算窗口生成延迟为l的自相关。
2.按照权利要求1所述的由计算系统实现的该方法,其特征在于:所述访问一个要去除的数据元素和一个要加入的数据元素包括访问多个要从调整前计算窗口去除的数据元素和多个要加入调整前计算窗口的数据元素,该方法也进一步包括对于多个要去除的数据元素中的每一个数据元素和多个要加入的数据元素中的每一个数据元素进行调整计算窗口,迭代计算两个以上组件,以及为调整后计算窗口生成延迟为l的自相关。
3.按照权利要求2所述的由计算系统实现的该方法,其特征在于:所述为调整后计算窗口生成延迟为l的自相关当且仅当该自相关被访问时。
4.按照权利要求3所述的由计算系统实现的该方法,其特征在于:所述为调整后计算窗口生成延迟为l的自相关进一步包括由基于计算设备的计算系统为调整后计算窗口间接迭代计算延迟为l的自相关的一个或多个组件,间接迭代计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
5.一个计算系统,其特征在于:
一个或多个处理器;
一个或多个存储媒体,其中至少一个存储媒体存储了一个数据集;以及
一个或多个计算模块,当它们被一个或多个处理器中的至少一个处理器执行时,执行一个方法,该方法包括:
a.为该数据集的一个指定规模为n(n>1)的调整前计算窗口,初始化一个延迟l(0<l<n),以及延迟为l的自相关的两个以上组件;
b.访问一个要从该调整前计算窗口中去除的数据元素和一个要加入到该调整前...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。