当前位置: 首页 > 专利查询>吕纪竹专利>正文

一种实时判断大数据或流数据相关程度的方法技术

技术编号:25914341 阅读:30 留言:0更新日期:2020-10-13 10:33
相关函数可用于判断大数据或流数据相关程度。本发明专利技术公开了一种通过减量计算计算子集的相关从而可以实时地判断大数据或流数据相关程度的方法,系统和计算系统程序产品。本发明专利技术的实施方案包括基于调整前计算子集的相关的二个以上组件减量计算调整后计算子集的相关的二个以上组件,然后根据需要基于减量计算的二个以上组件生成调整后计算子集的相关。减量计算相关可以基于最新数据实时更新计算结果并避免访问调整后计算子集中的所有数据元素对和执行重复计算从而提高计算效率,节省计算资源和降低计算系统能耗,使得实时判断大数据或流数据相关程度高效低耗及一些实时判断大数据或流数据相关程度从不可能变为可能。

【技术实现步骤摘要】
一种实时判断大数据或流数据相关程度的方法
大数据或流数据分析。
技术介绍
互联网,移动通讯,导航,网游,感应技术和大规模计算基础设施每天产生海量数据。大数据就是由于其巨大规模,快速变化及增长速度而超出了传统数据库系统的处理能力及传统分析方法的分析能力的数据。流数据是不断被发送器发送和接收器接收的数据。流数据可以是感应器采集并且不断给计算设备或电子设备传送的实时数据。通常包括陆续接收有时间间隔,具有相似格式的数据元素。流数据也可以是连续从存储器读出的数据,例如存在多个计算设备存储器的大数据集。如何高效实时并节省资源地处理和分析大数据或流数据是一个挑战。计算相关是一种判断大数据或流数据之中不同变量之间相关程度的有效方法。相关是两个随机变量之间的相关程度的一个数值度量。相关的值在-1和+1之间。相关值+1表明两个随机变量之间存在完全正相关关系。相关值-1表明两个随机变量之间存在完全相反的相关关系。而相关值接近+1或-1则表明两个随机变量之间存在相当程度的正相关或负相关关系。因此计算相关后判断大数据或流数据中不同随机变量之间的相关程度显而易见,而困难和挑战在于如何实时并节省资源地在大数据或流数据上计算相关。处理大数据或流数据可包括在多个数据元素上做计算。所以,一个接收流数据元素的计算设备通常含有一个缓冲区来存储一些数据元素。处理流数据元素可包括访问保存在缓冲区的数据元素。当做流数据元素的统计计算时,缓冲区可以很大。例如,当计算相关时,一些(可能很多)数据元素需要被访问。此外,流数据处理算法可以延伸到大数据处理上,因为大数据集随着时间积累并且可以被认为是具有不规律时间间隔的数据流。对于大数据集或流数据处理,有些统计计算会重新被计算当大数据集有变化或新的流数据元素被接收。因此,一些(可能很多)数据元素会被重复访问。例如,有可能相关在有一个数据元素对从有n对数据元素的计算子集去除后被计算。当一对存在的数据元素(一个独立数据元素和一个因变量数据元素)被接收当在所有2n-2个数据元素上重新计算相关时,计算子集里所有的2n-2个数据元素会被访问和使用,计算相关的时间复杂度通常是O(n)。这样,每当计算子集有变化时,计算子集里的每对数据元素都会为计算相关被访问。根据需要,计算子集规模n可能非常大,因此数据元素可以分配到含有成百上千个计算设备的云上。数据有改变后,在大数据或流数据上重新计算相关耗时并浪费资源。
技术实现思路
本专利技术拓展到方法,系统和计算设备程序产品以减量方式计算相关从而可以在调整计算子集规模后实时地判断大数据或流数据中不同变量之间的相关程度。为一个调整后计算子集减量计算相关包括减量计算大数据或流数据的相关的三个以上组件,然后根据需要基于一个或多个减量计算的组件计算相关。减量计算相关只需要接收/访问和使用被去除的数据元素对,这不仅避免在计算子集中访问所有数据而且也避免像传统方法那样保留整个计算子集,因此时间复杂度以及空间复杂度都被降低从而使得实时判断大数据或流数据相关程度能够高效低耗地完成。和或平均值是必须减量计算的特殊组件。假设在同一轮减量计算中所有减量计算的组件(包括和或平均值)总数为p(p>1)。直接减量的组件个数为v(1≤v≤p),则间接减量的组件个数为w=p-v(w≥0)。其中和或平均值是必须减量计算的特殊组件。和或平均值可以被直接或间接减量计算。计算系为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,统初始化一个计算子集规模计数器n(n>5),每个变量的一个和或一个平均值或一个和及一个平均值,以及相关的除了和及平均值之外的一个或多个其它组件,该计算子集计数器指定了该调整前计算子集包含的数据元素个数对。计算系统可根据需要基于初始化的组件来生成调整前计算子集的相关。计算系统访问一对存在的大数据元素或接收一对要去除的流数据元素。计算系统根据需要把接收的数据元素对从一或两个数据缓冲区里去除。计算系统通过把访问或接收的数据元素对从调整前计算子集里去除并且把计算子集规模减1来调整调整前计算子集。计算系统减量计算调整后计算子集的每个变量的一个和,一个平均值,或一个和及一个平均值。计算系统直接减量计算调整后计算子集的相关的除和及平均值之外的v(1≤v≤p)个组件。直接减量计算该v个组件包括:访问被去除的数据元素对;访问该调整前计算子集的相关的v个组件;以及从访问的每个组件中数学地去除被去除的数据元素对的任何贡献。计算系统根据需要间接减量计算该调整后计算子集的相关的w=p-v个组件。间接减量计算w个组件包括一个一个地间接减量计算w个组件中的每一个组件。间接减量计算一个组件包括:访问并使用除该组件之外的一个或多个组件来计算该组件。这一个或多个组件可能是经过初始化的,直接减量计算的或间接减量计算的。计算系统基于一个或多个为调整后计算子集减量计算的组件,为调整后计算子集生成相关,即,相关可以在接收多对数据元素而不仅是一对数据元素后被生成。计算系统可以持续地访问或接收要去除的数据元素对,调整调整前计算子集,调整计算子集规模的计数器,减量计算调整后计算子集的每个变量的一个和,一个平均值,或一个和及一个平均值,直接减量计算v个组件,根据需要间接减量计算w=p-v个组件和生成相关,并根据需要重复以上这个过程。本简述是以简化的方式介绍一些选择的概念,它们将在下面被进一步详细描述。本简述即不是为了鉴定权利要求的主题的关键特点或必要特点,也不是为了用于帮助确认权利要求的主题所包括的范围。本专利技术的其它特征和优点将在下面的描述中体现出来,会部分地从描述中明显体现,或从本专利技术的实践中学到。本专利技术的特征和优点可从附加的权利要求书中特别指出的方法设备及其组合中实现和得到。本专利技术的这些和其它特征将在下面的描述和附加的权利要求书或本专利技术的实践中变得更加全面清晰。附图说明为描述能够获得本专利技术的上述的和其它的优点和特点的方式,上面简述的本专利技术的一个更具体的描述将通过参照附加的图表中所显示的特定的实施方案来展现出来。本专利技术将通过下列的图表更加详细和具体地来描述和解释,请理解这些图表只是描述了本专利技术的典型实施方案,因此它们不应被理解为对本专利技术的范围的限制:图1图示了一个支持减量计算相关的例子计算系统的高层概括。图1-1图示了一个为流数据减量计算相关的支持两个输入数据流并且所有组件都是直接减量计算的计算系统架构的例子。图1-2图示了一个为流数据减量计算相关,支持两个输入数据流并且部分组件直接减量计算,部分组件间接减量计算的计算系统架构的例子。图1-3图示了一个流数据减量计算相关,支持由两个数据流中的数据元素交叉组成的单输入数据流并且所有组件都是直接减量计算的计算系统架构的例子。图1-4图示了一个为流数据减量计算相关,支持由两个数据流中的数据元素交叉组成的单输入数据流,并且部分组件直接减量计算,部分组件间接减量计算的计算本文档来自技高网
...

【技术保护点】
1.一种,由基于一台或多台计算设备构成的一个计算系统实现的,实时地判断时间序列或流化大数据相关程度的方法,其特征在于:/n由基于计算设备的一个计算系统,为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n>5),一个和或一个平均值或一个和及一个平均值,以及相关的除了和及平均值之外的一个或多个其它组件,该计算子集计数器指定了该调整前计算子集包含的数据元素对的个数;/n由基于计算设备的该计算系统,接收或访问要从该调整前计算子集去除的一个数据元素对;/n由基于计算设备的该计算系统,调整该调整前计算子集,通过:/n从该调整前计算子集中去除要去除的数据元素对;以及/n相应地调整该计算子集规模计数器;/n由基于计算设备的该计算系统,为调整后计算子集中的每个变量减量计算一个和,一个平均值,或一个和及一个平均值;/n由基于计算设备的该计算系统,至少基于调整前计算子集的相关的该一个或多个除了和及平均值之外的其它组件,为调整后计算子集直接减量计算相关的一个或多个组件,这里的减量计算一个或多个组件包括:/n访问被去除的数据元素对从而避免访问调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;/n访问调整前计算子集的相关的该一个或多个除了和及平均值之外的其它组件;以及/n基于被去除的数据元素对,从被访问的组件中数学地去除被去除的数据元素对对该组件的任何贡献从而避免调整后计算子集中的所有数据元素都被用来直接减量计算相关的一个或多个组件来提高计算效率;以及/n由基于计算设备的该计算系统,基于一个或多个为调整后计算子集减量计算的组件,为调整后计算子集生成相关。/n...

【技术特征摘要】
1.一种,由基于一台或多台计算设备构成的一个计算系统实现的,实时地判断时间序列或流化大数据相关程度的方法,其特征在于:
由基于计算设备的一个计算系统,为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n>5),一个和或一个平均值或一个和及一个平均值,以及相关的除了和及平均值之外的一个或多个其它组件,该计算子集计数器指定了该调整前计算子集包含的数据元素对的个数;
由基于计算设备的该计算系统,接收或访问要从该调整前计算子集去除的一个数据元素对;
由基于计算设备的该计算系统,调整该调整前计算子集,通过:
从该调整前计算子集中去除要去除的数据元素对;以及
相应地调整该计算子集规模计数器;
由基于计算设备的该计算系统,为调整后计算子集中的每个变量减量计算一个和,一个平均值,或一个和及一个平均值;
由基于计算设备的该计算系统,至少基于调整前计算子集的相关的该一个或多个除了和及平均值之外的其它组件,为调整后计算子集直接减量计算相关的一个或多个组件,这里的减量计算一个或多个组件包括:
访问被去除的数据元素对从而避免访问调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;
访问调整前计算子集的相关的该一个或多个除了和及平均值之外的其它组件;以及
基于被去除的数据元素对,从被访问的组件中数学地去除被去除的数据元素对对该组件的任何贡献从而避免调整后计算子集中的所有数据元素都被用来直接减量计算相关的一个或多个组件来提高计算效率;以及
由基于计算设备的该计算系统,基于一个或多个为调整后计算子集减量计算的组件,为调整后计算子集生成相关。


2.按照权利要求1所述的由该计算系统实现的该方法,其特征在于:所述访问一个要去除的数据元素对包括访问多个要从该调整前计算子集去除的数据元素对,该方法也进一步包括对于多个要去除的数据元素对中的每一个数据元素对分别进行调整调整前计算子集,为调整后计算子集中的每个变量减量计算一个和,一个平均值,或一个和及一个平均值,直接减量计算相关的一个或多个除了和及平均值之外的其它组件,以及为调整后计算子集生成相关。


3.按照权利要求2所述的由该计算系统实现的该方法,其特征在于:所述为调整后计算子集生成相关当且仅当该相关被访问时。


4.按照权利要求3所述的由该计算系统实现的该方法,其特征在于:所述为调整后计算子集生成相关进一步包括由基于计算设备的该计算系统为该调整后计算子集间接减量计算相关的一个或多个组件,间接减量计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。


5.一个计算系统,其特征在于:
一个或多个计算设备;
每个计算设备包含一个或多个处理器;
一个或多个存储媒体;以及
一个或多个计算模块,当该一个或多个计算模块被一个或多个计算设备中的至少一个计算设备执行时,实时地判断流数据或大数据相关程度,该一个或多个计算模块被配置为:
a.为一个数据流的或存储于该计算系统上一个或多个存储设备上的一个数据集的一个调整前计算子集,初始化一个计算子集规模计数器n(n>5),该调整前计算子集中的每个变量初始化一个和或一个平均值或一个和及一个平均值,以及相关的除了和及平均值之外的一个或多个其它...

【专利技术属性】
技术研发人员:吕纪竹
申请(专利权)人:吕纪竹
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1