【技术实现步骤摘要】
一种实时判断大数据或流数据相关程度的方法
大数据或流数据分析。
技术介绍
互联网,移动通讯,导航,网游,感应技术和大规模计算基础设施每天产生海量数据。大数据就是由于其巨大规模,快速变化及增长速度而超出了传统数据库系统的处理能力及传统分析方法的分析能力的数据。流数据是不断被发送器发送和接收器接收的数据。流数据可以是感应器采集并且不断给计算设备或电子设备传送的实时数据。通常包括陆续接收有时间间隔,具有相似格式的数据元素。流数据也可以是连续从存储器读出的数据,例如存在多个计算设备存储器的大数据集。如何高效实时并节省资源地处理和分析大数据或流数据是一个挑战。计算相关是一种判断大数据或流数据之中不同变量之间相关程度的有效方法。相关是两个随机变量之间的相关程度的一个数值度量。相关的值在-1和+1之间。相关值+1表明两个随机变量之间存在完全正相关关系。相关值-1表明两个随机变量之间存在完全相反的相关关系。而相关值接近+1或-1则表明两个随机变量之间存在相当程度的正相关或负相关关系。因此计算相关后判断大数据或流数据中不同随机变量之间的相关程度显而易见,而困难和挑战在于如何实时并节省资源地在大数据或流数据上计算相关。处理大数据或流数据可包括在多个数据元素上做计算。所以,一个接收流数据元素的计算设备通常含有一个缓冲区来存储一些数据元素。处理流数据元素可包括访问保存在缓冲区的数据元素。当做流数据元素的统计计算时,缓冲区可以很大。例如,当计算相关时,一些(可能很多)数据元素需要被访问。此外,流数据处理 ...
【技术保护点】
1.一种,由基于一台或多台计算设备构成的一个计算系统实现的,实时地判断时间序列或流化大数据相关程度的方法,其特征在于:/n由基于计算设备的一个计算系统,为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n>5),一个和或一个平均值或一个和及一个平均值,以及相关的除了和及平均值之外的一个或多个其它组件,该计算子集计数器指定了该调整前计算子集包含的数据元素对的个数;/n由基于计算设备的该计算系统,接收或访问要从该调整前计算子集去除的一个数据元素对;/n由基于计算设备的该计算系统,调整该调整前计算子集,通过:/n从该调整前计算子集中去除要去除的数据元素对;以及/n相应地调整该计算子集规模计数器;/n由基于计算设备的该计算系统,为调整后计算子集中的每个变量减量计算一个和,一个平均值,或一个和及一个平均值;/n由基于计算设备的该计算系统,至少基于调整前计算子集的相关的该一个或多个除了和及平均值之外的其它组件,为调整后计算子集直接减量计算相关的一个或多个组件,这里的减量计算一个或多个组件包括:/n访问被去除的数据元素对从而 ...
【技术特征摘要】
1.一种,由基于一台或多台计算设备构成的一个计算系统实现的,实时地判断时间序列或流化大数据相关程度的方法,其特征在于:
由基于计算设备的一个计算系统,为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n>5),一个和或一个平均值或一个和及一个平均值,以及相关的除了和及平均值之外的一个或多个其它组件,该计算子集计数器指定了该调整前计算子集包含的数据元素对的个数;
由基于计算设备的该计算系统,接收或访问要从该调整前计算子集去除的一个数据元素对;
由基于计算设备的该计算系统,调整该调整前计算子集,通过:
从该调整前计算子集中去除要去除的数据元素对;以及
相应地调整该计算子集规模计数器;
由基于计算设备的该计算系统,为调整后计算子集中的每个变量减量计算一个和,一个平均值,或一个和及一个平均值;
由基于计算设备的该计算系统,至少基于调整前计算子集的相关的该一个或多个除了和及平均值之外的其它组件,为调整后计算子集直接减量计算相关的一个或多个组件,这里的减量计算一个或多个组件包括:
访问被去除的数据元素对从而避免访问调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;
访问调整前计算子集的相关的该一个或多个除了和及平均值之外的其它组件;以及
基于被去除的数据元素对,从被访问的组件中数学地去除被去除的数据元素对对该组件的任何贡献从而避免调整后计算子集中的所有数据元素都被用来直接减量计算相关的一个或多个组件来提高计算效率;以及
由基于计算设备的该计算系统,基于一个或多个为调整后计算子集减量计算的组件,为调整后计算子集生成相关。
2.按照权利要求1所述的由该计算系统实现的该方法,其特征在于:所述访问一个要去除的数据元素对包括访问多个要从该调整前计算子集去除的数据元素对,该方法也进一步包括对于多个要去除的数据元素对中的每一个数据元素对分别进行调整调整前计算子集,为调整后计算子集中的每个变量减量计算一个和,一个平均值,或一个和及一个平均值,直接减量计算相关的一个或多个除了和及平均值之外的其它组件,以及为调整后计算子集生成相关。
3.按照权利要求2所述的由该计算系统实现的该方法,其特征在于:所述为调整后计算子集生成相关当且仅当该相关被访问时。
4.按照权利要求3所述的由该计算系统实现的该方法,其特征在于:所述为调整后计算子集生成相关进一步包括由基于计算设备的该计算系统为该调整后计算子集间接减量计算相关的一个或多个组件,间接减量计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
5.一个计算系统,其特征在于:
一个或多个计算设备;
每个计算设备包含一个或多个处理器;
一个或多个存储媒体;以及
一个或多个计算模块,当该一个或多个计算模块被一个或多个计算设备中的至少一个计算设备执行时,实时地判断流数据或大数据相关程度,该一个或多个计算模块被配置为:
a.为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n>5),该调整前计算子集中的每个变量初始化一个和或一个平均值或一个和及一个平均值,以及相关的除了和及平均值之外的一个或多个其它...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。