System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及智能化数据分析,并且更具体地,涉及一种对于维度模型大数据量数据分析加速方法。
技术介绍
1、在数据分析领域,主要的场景就是对于大数据量(千万级以上)的明细数据进行分析汇总(万级以内)来提炼有用的信息。有些分析是基于展平的宽表来做的。有些分析是基于关系数据库里的数据直接进行分析的。如果答案不能通过一张表的数据查询分析得到,那么就会需要从多张表中通过关系计算进行关联来进行查询分析。常见的是“星型模型”或者“雪花模型”。
2、以“星型模型”来举例,事实表里一般是存储的id字段(比如员工的工号),维表里存储的是id和描述(比如人员名称,岗位等信息)多个字段的映射。如果事实表数据量很大,那么和维表做关联,再通过维表的字段做筛选或展现的时候,性能很差。
3、因此,期待一种对于维度模型大数据量数据分析加速方法。
技术实现思路
1、为了解决上述技术问题,提出了本专利技术。本专利技术的实施例提供了一种对于维度模型大数据量数据分析加速方法,其获取事实表;对所述事实表进行预处理以得到预处理后事实表;对所述预处理后事实表进行分组汇总以得到维度模型;基于所述维度模型,进行统计分析。这样,可以更好地利用维度模型的特性,提高数据分析的准确性和可靠性,进而加速大数据量的维度模型数据分析过程,提高数据处理效率和准确性。
2、本专利技术提供了一种对于维度模型大数据量数据分析加速方法,其包括:
3、获取事实表;
4、对所述事实表进行预处理以得到预
5、从所述事实表中提取第一列数据以得到第一属性项数据的集合;
6、对所述第一属性项数据的集合进行数据编码和语义分析以得到上下文第一属性项数据哈希编码特征向量的序列;
7、度量所述上下文第一属性项数据哈希编码特征向量的序列中各个上下文第一属性项数据哈希编码特征向量相对于所述上下文第一属性项数据哈希编码特征向量的序列的整体特征分布的语义差异以得到语义差异度量系数的序列;
8、基于所述语义差异度量系数的序列,确定所述第一属性项数据的集合中是否存在数据异常值,以得到预处理后事实表;
9、对所述预处理后事实表进行分组汇总以得到维度模型;
10、基于所述维度模型,进行统计分析。
本文档来自技高网...【技术保护点】
1.一种对于维度模型大数据量数据分析加速方法,其特征在于,包括:
2.根据权利要求1所述的对于维度模型大数据量数据分析加速方法,其特征在于,对所述第一属性项数据的集合进行数据编码和语义分析以得到上下文第一属性项数据哈希编码特征向量的序列,包括:
3.根据权利要求2所述的对于维度模型大数据量数据分析加速方法,其特征在于,所述深度学习网络模型为基于转换器的上下文编码器;其中,利用深度学习网络模型对所述第一属性项数据哈希编码向量的序列进行特征提取以得到所述上下文第一属性项数据哈希编码特征向量的序列,包括:
4.根据权利要求3所述的对于维度模型大数据量数据分析加速方法,其特征在于,将所述第一属性项数据哈希编码向量的序列通过所述基于转换器的上下文编码器以得到所述上下文第一属性项数据哈希编码特征向量的序列,包括:
5.根据权利要求4所述的对于维度模型大数据量数据分析加速方法,其特征在于,度量所述上下文第一属性项数据哈希编码特征向量的序列中各个上下文第一属性项数据哈希编码特征向量相对于所述上下文第一属性项数据哈希编码特征向量的序列的整体特征分布的
6.根据权利要求5所述的对于维度模型大数据量数据分析加速方法,其特征在于,计算所述上下文第一属性项数据哈希编码特征向量的序列中各个上下文第一属性项数据哈希编码特征向量相对于所述上下文第一属性项数据哈希编码特征向量的序列的整体特征分布的语义差异度量系数以得到所述语义差异度量系数的序列,包括:
7.根据权利要求6所述的对于维度模型大数据量数据分析加速方法,其特征在于,计算所述各个上下文第一属性项数据哈希编码特征向量相对于所述优化后级联特征向量的语义差异度量系数以得到所述多个语义差异度量系数的序列,包括:
8.根据权利要求7所述的对于维度模型大数据量数据分析加速方法,其特征在于,基于所述语义差异度量系数的序列,确定所述第一属性项数据的集合中是否存在数据异常值,包括:
...【技术特征摘要】
1.一种对于维度模型大数据量数据分析加速方法,其特征在于,包括:
2.根据权利要求1所述的对于维度模型大数据量数据分析加速方法,其特征在于,对所述第一属性项数据的集合进行数据编码和语义分析以得到上下文第一属性项数据哈希编码特征向量的序列,包括:
3.根据权利要求2所述的对于维度模型大数据量数据分析加速方法,其特征在于,所述深度学习网络模型为基于转换器的上下文编码器;其中,利用深度学习网络模型对所述第一属性项数据哈希编码向量的序列进行特征提取以得到所述上下文第一属性项数据哈希编码特征向量的序列,包括:
4.根据权利要求3所述的对于维度模型大数据量数据分析加速方法,其特征在于,将所述第一属性项数据哈希编码向量的序列通过所述基于转换器的上下文编码器以得到所述上下文第一属性项数据哈希编码特征向量的序列,包括:
5.根据权利要求4所述的对于维度模型大数据量数据分析加速方法,其特征在于,度量所述上下文第一属性项数据哈希编码特...
【专利技术属性】
技术研发人员:马云,何贝乐,
申请(专利权)人:北京永洪商智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。