一种数据仓库构建方法、系统、计算机设备及存储介质技术方案

技术编号：28373503 阅读：37 留言：0更新日期：2021-05-08 00:00

本发明专利技术公开了一种数据仓库构建方法、系统、计算机设备及存储介质，涉及数据分析系统领域，包括Flink应用、更新数据装置、Clickhouse、存储单元以及Sink，Flink应用程序消费kafka数据，并实时计算环节，聚合窗口，将窗口内多行行为数据转为一行多列，得到字段并存入存储单元的维表，维表关联更新数据装置，反复获取维表字段，数据经过Sink输出，写入Clickhouse中，本发明专利技术维表关联性能大幅度提升，由小时级别到秒级别，并且支持海量数据的正常写入。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据仓库构建方法、系统、计算机设备及存储介质
本专利技术涉及数据分析系统领域，具体来说，涉及一种数据仓库构建方法、系统、计算机设备及存储介质。
技术介绍
近这些年，产业界纷纷向数字驱动转型，在这样一个用数据说话的时代，数据在很大程度上影响着企业的业务和领导层决策。而从数据驱动的方面考虑，实时数据分析系统的重要性也不言而喻。但是当数据量巨大的情况下，企业对数据技术也提出了更高的要求，但是要实现极低延迟的实时计算和亚秒级的多维实时查询还是有难度的。Clickhouse是Yandex.Metrica世界第二大Web分析平台而开发的。它是一款用于大数据实时分析的列式数据库管理系统，而非数据库。通过向量化执行以及对CPU底层指令集(SIMD)的使用，它可以对海量数据进行并行处理，从而加快数据的处理速度。目前为止，Clickhouse广泛运用在实时报表，在线实时分析，用户画像，智能推荐系统等场景。但是基于Clickhouse构建实时数据仓库方面也面临着一些问题需要解决：实时处理维表关联:实时关联性能很大程度决定数据是否延迟，在大数据量情况下每秒数百万数据的直接关联Hbase会导致小时级别的延迟；Clickhouse不支持高并发，高并发写入会极大增加集群压力，海量数据写入是一个问题。
技术实现思路
为了克服现有技术的不足，本专利技术的一种数据仓库构建方法、系统、计算机设备及存储介质，能够支持海量数据写入。本专利技术解决其技术问题所采用的技术方案是：一种数据仓库构建方法，其改进...

【技术保护点】
1.一种数据仓库构建方法，其特征在于，包括Flink应用程序消费kafka数据，并实时计算环节，聚合窗口，将窗口内多行行为数据转为一行多列，得到字段并存入维表，维表关联有用于反复获取维表字段的更新数据装置，数据经过Sink输出，写入Clickhouse中。/n

【技术特征摘要】
1.一种数据仓库构建方法，其特征在于，包括Flink应用程序消费kafka数据，并实时计算环节，聚合窗口，将窗口内多行行为数据转为一行多列，得到字段并存入维表，维表关联有用于反复获取维表字段的更新数据装置，数据经过Sink输出，写入Clickhouse中。

2.根据权利要求1所述的一种数据仓库构建方法，其特征在于，更新数据装置包括Redis，用于反复获取维表字段。

3.根据权利要求2所述的一种数据仓库构建方法，其特征在于，更新数据装置包括SPAEK，用于按天更新Redis数据。

4.根据权利要求3所述的一种数据仓库构建方法，其特征在于，更新数据装置包括Hbase，用于查询维表字段。

5.根据权利要求1所述的一种数据仓库构建方法，其特征在于，数据采用Batch方式写入Clickhouse中。

6.根据权利要求5所述的一种数据仓库构建方法，其特征在于，数据采用Batch方式后，数据写入一个分片，再写入zookeeper中。

7.一种数据仓库构建系统，其特征在于，包括Flink应用、更新数据装置、Clickhouse、存储单元以及Sink，Flink应用程序消费kafka数据，并实时计算环节，聚合窗口，将窗口内多行行...

【专利技术属性】
技术研发人员：周小润，刘跃红，管正爽，
申请(专利权)人：银盛支付服务股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人