本发明专利技术提供了一种数据仓库系统以及统一模型表创建方法,包括数据源、数据仓库和数据操作模块;数据仓库包括数据仓库逻辑层,数据仓库逻辑层被划分为多个分层单元;在每个分层单元以统一模型表建立数据模型,统一模型表基于Flink表存储创建,支持同时读/写实时数据和读/写离线数据;统一模型表包括实时数据存储模块和离线数据存储模块;实时数据存储模块,用于存储实时数据;离线数据存储模块,用于存储离线数据。本发明专利技术在数据仓库逻辑层的各个分层单元以统一模型表建立数据模型,支持同时读/写实时数据和离线数据,使实时数据和离线数据在同一个数据仓库存储,解决了实时数据和离线数据数据采用不同数据仓库模型成本高的问题。问题。问题。
【技术实现步骤摘要】
一种数据仓库系统以及统一模型表创建方法
[0001]本专利技术数据仓库
,尤其是涉及一种数据仓库系统以及统一模型表创建方法。
技术介绍
[0002]目前数据仓库分为:离线数据仓库和实时数据仓库,两套数据仓库解决方案、人员、语言等各不相同,存在数据仓库维度成本、开发效率、开发成本高的问题。
技术实现思路
[0003]本专利技术提供了一种数据仓库系统,以解决现有技术中数据仓库维度成本、开发效率、开发成本高的技术问题。
[0004]本专利技术的一个方面在于提供一种数据仓库系统,所述数据仓库系统包括数据源、数据仓库和数据操作模块;
[0005]所述数据仓库包括数据仓库逻辑层,所述数据仓库逻辑层被划分为多个分层单元;
[0006]其中,在每个分层单元以统一模型表建立数据模型,所述统一模型表基于Flink表存储创建,支持同时读/写实时数据和读/写离线数据;
[0007]所述统一模型表包括实时数据存储模块和离线数据存储模块;所述实时数据存储模块,用于存储实时数据;所述离线数据存储模块,用于存储离线数据。
[0008]在一个优选的实施例中,所述数据源包括结构化数据和非结构化数据。
[0009]在一个优选的实施例中,所述结构化数据通过Flink CDC摄入到数据仓库中;所述非结构化数据通过Filebeat摄入数据仓库中。
[0010]在一个优选的实施例中,所述数据仓库逻辑层通过连接器连接数据源摄入到数据仓库的数据,并对数据进行处理。
[0011]在一个优选的实施例中,所述连接器包括:
[0012]消息队列,对摄入到数据仓库的数据,向所述数据仓库逻辑层传输的过程中进行存储;第一数据在线分析处理系统,用于对摄入到数据仓库的实时数据进行分析处理;批处理,用于对摄入到数据仓库的离线数据进行批处理。
[0013]在一个优选的实施例中,所述数据仓库逻辑层被划分的多个分层单元至少包括DWD层、DWS层和ADS层。
[0014]在一个优选的实施例中,通过所述数据操作模块,读/写所述实时数据存储模块和所述离线数据存储模块的数据;
[0015]以及通过第二数据在线分析处理系统查询所述实时数据存储模块和所述离线数据存储模块的数据。
[0016]本专利技术的另一个方面在于一种统一模型表创建方法,所述方法用于创建数据仓库系统的统一模型表,包括如下方法步骤:
[0017]S101、数据仓库逻辑层分层;
[0018]S102、预设统一模型表,其中,预设的统一模型表基于Flink表存储创建,配置支持同时读/写实时数据和离线数据的表属性;
[0019]S103、设定统一模型表属性的处理逻辑;
[0020]S104、将设定的统一模型表的处理逻辑,转换为FlinkSQL可执行的代码;
[0021]S105、调用Flink sql
‑
client执行引擎,并设置执行模式;
[0022]S106、执行步骤S104的代码,并将执行结果写入预设统一模型表,完成统一模型表创建。
[0023]在一个优选的实施例中,在步骤S101中,所述数据仓库逻辑层分层至少划分DWD层、DWS层和ADS层。
[0024]在一个优选的实施例中,在步骤S105中,执行模式包括离线模式、实时模式,以及离线模式和实时模式。
[0025]与现有技术相比,本专利技术具有以下有益效果:
[0026]本专利技术提供的一种数据仓库系统以及统一模型表创建方法,在数据仓库逻辑层的各个分层单元以统一模型表建立数据模型,支持同时读/写实时数据和离线数据,使实时数据和离线数据在同一个数据仓库存储,解决了实时数据和离线数据数据采用不同数据仓库模型,维度成本、开发效率、开发成本高的问题。
附图说明
[0027]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0028]图1为本专利技术一种数据仓库系统的结构框图。
[0029]图2为本专利技术一种统一模型表创建方法的流程图。
具体实施方式
[0030]为了使本专利技术的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本专利技术。应当理解,本文给出的具体实施例是出于向本领域技术人员解释的目的,仅是示例性的,而非限制性的。
[0031]在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0032]此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本专利技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0033]如图1所示本专利技术一种数据仓库系统的结构框图,根据本专利技术的实施例,提供一种数据仓库系统,包括数据源100、数据仓库200和数据操作模块300。
[0034]数据源100分为两类数据,包括结构化数据(数据库数据、数据库管理系统MySQL DB)和非结构化数据(日志数据logs)。
[0035]结构化数据(数据库数据、数据库管理系统MySQL DB)通过Flink CDC(弗林克变更数据捕获)实时摄入到数据仓库200中。非结构化数据(日志数据logs)通过Filebeat(日志文件托运)实时摄入数据仓库200中。
[0036]数据仓库200包括数据仓库逻辑层201,数据仓库逻辑层201通过连接器连接数据源100摄入到数据仓库200的数据,并对数据进行处理。例如通过Flink SQL(Structured Query Language,结构化查询语言)对数据进行数据逻辑处理、数据清洗处理等。
[0037]根据本专利技术的实施例,连接器包括三种类型的连接器:消息队列(Message queue)、第一数据在线分析处理系统(OLAP)和批存储。
[0038]消息队列(Message queue),对摄入到数据仓库200的数据,向数据仓库逻辑层201传输的过程中进行存储。例如通过Kafka(卡夫卡流处理平台),应用在管道数据和中间阶段数据,以保证数据延迟在秒级以内。
[0039]第一数据在线分析处理系统(OLAP),用于对摄入到数据仓库200的实时数据(s本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据仓库系统,其特征在于,所述数据仓库系统包括数据源、数据仓库和数据操作模块;所述数据仓库包括数据仓库逻辑层,所述数据仓库逻辑层被划分为多个分层单元;其中,在每个分层单元以统一模型表建立数据模型,所述统一模型表基于Flink表存储创建,支持同时读/写实时数据和读/写离线数据;所述统一模型表包括实时数据存储模块和离线数据存储模块;所述实时数据存储模块,用于存储实时数据;所述离线数据存储模块,用于存储离线数据。2.根据权利要求1所述的数据仓库系统,其特征在于,所述数据源包括结构化数据和非结构化数据。3.根据权利要求2所述的数据仓库系统,其特征在于,所述结构化数据通过Flink CDC摄入到数据仓库中;所述非结构化数据通过Filebeat摄入数据仓库中。4.根据权利要求1所述的数据仓库系统,其特征在于,所述数据仓库逻辑层通过连接器连接数据源摄入到数据仓库的数据,并对数据进行处理。5.根据权利要求4所述的数据仓库系统,其特征在于,所述连接器包括:消息队列,对摄入到数据仓库的数据,向所述数据仓库逻辑层传输的过程中进行存储;第一数据在线分析处理系统,用于对摄入到数据仓库的实时数据进行分析处理;批处理,用于对摄入到数据仓库的离线数据进行批处理。6.根据权利要求1所述的数据仓库系统,其特征在于,所述数据仓库逻...
【专利技术属性】
技术研发人员:康珊伟,
申请(专利权)人:上海二三四五网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。