System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向探索性数据分析的数据洞察装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>复旦大学专利>正文

面向探索性数据分析的数据洞察装置制造方法及图纸

技术编号:42777196 阅读:6 留言:0更新日期:2024-09-21 00:39
本发明专利技术提供了一种面向探索性数据分析的数据洞察装置,具有这样的特征,包括离线构建模块用于根据目标数据集,构建对应的模式立方体;在线分析模块用于根据分析指令和模式立方体,计算得到洞察结果,其中,在线分析模块包括:数据范围生成单元用于生成数据范围;同质数据范围生成单元用于生成各个数据范围对应的同质数据范围;在线模式计算单元用于根据模式立方体,计算各个同质数据范围对应的数据模式;洞察生成单元用于对各个同质数据范围,将该同质数据范围的数据模式进行共异分析,得到对应的洞察;推荐单元用于对所有洞察进行价值分析生成洞察结果。总之,本装置能够避免对数据范围模式的重复计算,提高洞察发现效率。

【技术实现步骤摘要】

本专利技术数据分析,具体涉及一种面向探索性数据分析的数据洞察装置


技术介绍

1、随着通信技术和信息技术的不断发展,数据产生的速度正在高速地增长着。与此同时,随着数据库技术和存储技术的变革和发展,越来越多的数据被得以记录和存储下来以待开发和利用。互联网搜索引擎支持的数十亿次web搜索每天处理数万tb字节数据。数据的量级不断升级、应用的不断深入和数据不可忽视的价值让我们不得不探索如何才能让我们更好的受益于这些数据。

2、为了帮助分析者发现数据的内在规律,探索性数据分析exploratorydataanalysis即eda被提出。当数据分析人员面临一个全新且未知的数据集时,在这个探索过程中去了解这个数据集所包含的信息和特征,从而获得一些基本的“洞察”即insight就显得尤为重要了。目前,业界有许多优秀的探索性数据分析工具或者平台来辅助用户如pandas、matplotlib、microsoftpowerbi和tableau。随着数据的量级逐渐增大,从系统角度考虑,分析系统探索数据中的洞察需要更长的执行时间;从用户角度考虑,大数据集容易让用户“失去焦点”,用户可能只对较大数据集中的部分数据感兴趣。

3、因此,如何快速地对用户感兴趣的数据进行探索,如何为分析人员提供一种快速、准确的获得有价值的洞察的方法是亟待解决的重要问题。


技术实现思路

1、本专利技术是为了解决上述问题而进行的,目的在于提供一种面向探索性数据分析的数据洞察装置。

2、本专利技术提供了一种面向探索性数据分析的数据洞察装置,用于根据用户的分析指令得到目标数据集的洞察结果,具有这样的特征,包括:离线构建模块,用于根据目标数据集,构建对应的模式立方体;在线分析模块,用于根据分析指令和模式立方体,计算得到洞察结果,其中,目标数据集中的数据分为测量属性和维度属性,测量属性的数据为数值型,维度属性的数据为非数值型,离线构建模块包括:分组单元,用于将所有维度属性进行分组,并将各个分组结果分别与各个测量属性进行组合,得到多个维度属性组合;聚合单元,用于对各个维度属性组合,根据目标数据集中对应的数据通过各种聚合方式分别进行聚合,得到对应的数据单元格;单值数据范围生成单元,用于对各个维度属性组合进行单值拆分重组,得到对应的单值数据范围;离线模式计算单元,用于对各个单值数据范围分别进行数据模式计算,得到对应的模式单元格;离线存储单元,用于将所有数据单元格和模式单元格存储为模式立方体,在线分析模块包括:数据范围生成单元,用于根据分析指令和模式立方体,生成对应的至少一个数据范围;同质数据范围生成单元,用于生成各个数据范围对应的同质数据范围;在线模式计算单元,用于根据模式立方体,计算各个同质数据范围对应的数据模式;洞察生成单元,用于对各个同质数据范围,将该同质数据范围的数据模式进行共异分析,得到对应的洞察;推荐单元,用于对所有洞察进行价值分析,生成最有价值的top-k个洞察作为洞察结果。

3、在本专利技术提供的面向探索性数据分析的数据洞察装置中,还可以具有这样的特征:其中,聚合方式包括“sum”、“max”、“avg”和“min”。

4、在本专利技术提供的面向探索性数据分析的数据洞察装置中,还可以具有这样的特征:其中,数据单元格的表达式为:celldata=<a1,a2,...ai:value>,式中celldata为数据单元格,i为数据单元格celldata对应的维度属性组合中的维度属性的总数,ai为该维度属性组合中第i个维度属性的具体值,value为数据单元格celldata对应的维度属性组合中的测量属性进行对应聚合方式后的聚合结果。

5、在本专利技术提供的面向探索性数据分析的数据洞察装置中,还可以具有这样的特征:其中,模式单元格的表达式为:cellpattern=<a1,a2,...ai:pattern_dict>,式中cellpattern为模式单元格,i为模式单元格cellpattern对应的单值数据范围中的维度属性的总数,ai为该单值数据范围中第i个维度属性的具体值,pattern_dict为模式单元格cellpattern对应的单值数据范围进行数据模式计算得到的数据模式结果,agg(m)为对测量属性m进行聚合方式agg后的聚合结果,模式单元格中有且仅有一个维度属性的值为“all”,“all”为该维度属性所有的可选值。

6、在本专利技术提供的面向探索性数据分析的数据洞察装置中,还可以具有这样的特征:其中,分析指令包含用户对至少一个维度属性的取值,数据范围为包含取值的单值数据范围和多值数据范围,多值数据范围通过从模式立方体选取对应的单值数据范围,并进行聚合操作得到。

7、在本专利技术提供的面向探索性数据分析的数据洞察装置中,还可以具有这样的特征:其中,同质数据范围包含多个子数据范围,子数据范围为同质数据范围对应的数据范围,和通过对该数据范围的维度属性的取值进行扩展得到的数据范围。

8、在本专利技术提供的面向探索性数据分析的数据洞察装置中,还可以具有这样的特征:其中,在线模式计算单元包括:第一计算子单元,用于对属于单值数据范围的子数据范围,将对应的模式单元格中的数据模式计算结果作为该子数据范围的数据模式;第二计算子单元,存储有剪枝推论,用于对属于多值数据范围的子数据范围,根据相关的单值数据范围和剪枝推论,计算得到该子数据范围的数据模式。

9、在本专利技术提供的面向探索性数据分析的数据洞察装置中,还可以具有这样的特征:其中,第二计算子单元生成数据模式包括以下步骤:步骤s1,根据相关的单值数据范围对应的数据模式计算结果和剪枝推论,得到推论模式结果;步骤s2,从所有待分析模式中去除推论模式结果对应的待分析模式,得到待计算模式;步骤s3,根据子数据范围逐个计算待计算模式,得到对应的计算模式结果;步骤s4,将所有推论模式结果和计算模式结果作为子数据范围的数据模式。

10、在本专利技术提供的面向探索性数据分析的数据洞察装置中,还可以具有这样的特征:其中,数据模式包括显著点_1、显著点_n、主导点、骤变点、异常点、趋势、一致性和周期性,显著点_1表示子数据范围拥有最大聚合值,且满足该值大于两倍均值小于总和一半的组,显著点_n表示子数据范围拥有最小聚合值,且该值小于均值的一半的组,主导点表示子数据范围拥有最大聚合值,且该值大于聚合值总和的一半的组,骤变点表示子数据范围中某组的值与前后组对应的聚合值相比发生显著变化,异常点表示子数据范围中某组的聚合值显著偏离其他组的聚合值,趋势表示子数据范围中所有组的聚合值组合出递增或递减的取值,一致性表示子数据范围中所有组的聚合值都很均匀,周期性表示子数据范围满足组的聚合值呈周期的最小周期值。

11、在本专利技术提供的面向探索性数据分析的数据洞察装置中,还可以具有这样的特征:其中,共异分析为对同一同质数据范围内各个子数据范围对应的数据模式,进行共性和异常的识别。

12、专利技术的作用与效果

13、根据本专利技术所涉及的面向探索性本文档来自技高网...

【技术保护点】

1.一种面向探索性数据分析的数据洞察装置,用于根据用户的分析指令得到目标数据集的洞察结果,其特征在于,包括:

2.根据权利要求1所述的面向探索性数据分析的数据洞察装置,其特征在于:

3.根据权利要求1所述的面向探索性数据分析的数据洞察装置,其特征在于:

4.根据权利要求1所述的面向探索性数据分析的数据洞察装置,其特征在于:

5.根据权利要求1所述的面向探索性数据分析的数据洞察装置,其特征在于:

6.根据权利要求1所述的面向探索性数据分析的数据洞察装置,其特征在于:

7.根据权利要求6所述的面向探索性数据分析的数据洞察装置,其特征在于:

8.根据权利要求7所述的面向探索性数据分析的数据洞察装置,其特征在于:

9.根据权利要求6所述的面向探索性数据分析的数据洞察装置,其特征在于:

10.根据权利要求6所述的面向探索性数据分析的数据洞察装置,其特征在于:

【技术特征摘要】

1.一种面向探索性数据分析的数据洞察装置,用于根据用户的分析指令得到目标数据集的洞察结果,其特征在于,包括:

2.根据权利要求1所述的面向探索性数据分析的数据洞察装置,其特征在于:

3.根据权利要求1所述的面向探索性数据分析的数据洞察装置,其特征在于:

4.根据权利要求1所述的面向探索性数据分析的数据洞察装置,其特征在于:

5.根据权利要求1所述的面向探索性数据分析的数据洞察装置,其...

【专利技术属性】
技术研发人员:荆一楠章伟张寒冰何震瀛王晓阳柴洪峰
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1