大数据平台管理系统、方法、设备和存储介质技术方案

技术编号:32235376 阅读:20 留言:0更新日期:2022-02-09 17:39
本发明专利技术提供了一种大数据平台管理系统、方法、设备和存储介质。所述系统包括:初始化模块,用于获取抽数配置文件、标准化配置;数据抽取模块,用于基于抽数配置文件读取源表的全量数据或增量数据并存储至缓冲层的物理表;数据转换模块,用于在将所述缓冲层的数据加载至基础层时,根据标准化配置自动进行日期格式化和/或码值转换;数据加载模块,用于根据加载脚本将所述缓冲层的数据自动加载至基础层。本发明专利技术的大数据平台管理系统中,数据抽取模块自动根据抽数配置文件获取源表数据,数据转换模块自动进行日期格式化和码值转换,数据加载模块将缓冲层的数据自动加载至基础层,不仅节约人工成本,降低了出错率,同时极大提升了ETL工作效率。效率。效率。

【技术实现步骤摘要】
大数据平台管理系统、方法、设备和存储介质


[0001]本专利技术涉及计算机应用
,更为具体而言,涉及一种大数据平台管理系统、方法、设备和存储介质。

技术介绍

[0002]ETL系统是大数据平台中的关键系统,承载了数据抽取(E)、转换(T)、加载(L)、调度等大量烦杂工作。市场上虽有诸多ETL工具,但当前市场上常见的ETL工具仅关注于单项功能的完成,并且缺少对ETL及调度的自动化、统一管理,需要用户手动进行大量ETL工作。而各行业的大数据平台建设中近80%的工作量集中于ETL,致使大数据平台建设中ETL工作存在效率低下、易错等重大风险。
[0003]更为具体而言,现有的ETL工具存在下述几个方面的问题:
[0004](1)在数据抽取方面,各类数据抽取前需要做较多的准备工作(如:了解源表结构、在数据中台或数据仓库中创建目标表(缓冲层的物理表)、建立字段映射关系等),大批量接入业务系统表时(如:接入上千张表),需要耗费大量人工,不仅数据抽取效率低,而且易出错;
[0005](2)在数据转换方面,数据标准化、格式化困难,码值分散于各类脚本中,难以管理;
[0006](3)在数据加载方面,根据不同的数据存储策略,每个表都需要编写加载脚本,源表数据结构变化时,加载脚本也需手动修改,因此维护成本高;
[0007](4)在调度方面,通过手工配置和维护调度,面对依赖关系复杂的调度时常出错,导致跑批失败。

技术实现思路

[0008]为解决上述现有技术存在的问题或部分问题,本专利技术实施方式提供了一种大数据平台管理系统、方法、设备和存储介质,根据抽数配置文件自动获取源表数据,自动进行日期格式化和码值转换,并自动将缓冲层的数据自动加载至基础层的物理表,而不需要大量的人工配置,不仅节约了人工成本,降低了出错率,同时极大提升ETL工作的效率。
[0009]根据本专利技术的第一方面,本专利技术实施方式提供了一种大数据平台管理系统,其包括:初始化模块,用于获取抽数配置文件、标准化配置;数据抽取模块,用于基于所述抽数配置文件读取源表的全量数据或增量数据并存储至缓冲层的物理表;数据转换模块,用于在将所述缓冲层的数据加载至基础层时,根据所述标准化配置自动进行日期格式化和/或码值转换;数据加载模块,用于根据加载脚本将所述缓冲层的数据自动加载至基础层的物理表。
[0010]根据本专利技术上述实施方式,通过数据抽取模块自动根据抽数配置文件获取源表数据,通过数据转换模块自动进行日期格式化和码值转换,通过数据加载模块自动将缓冲层的数据自动加载至基础层的物理表,不需要大量的人工配置,减少人工成本,降低出错率,
能够极大提升ETL工作的效率。
[0011]在本专利技术的一些实施方式中,初始化模块根据业务需求确定待抽取入数据仓库的业务表,根据所述业务表的表结构确定抽取策略和加载策略,其中,所述业务表的业务表名、抽取策略和加载策略构成抽数配置信息;初始化模块将所述抽数配置信息填写入配置模板,以生成所述抽数配置文件。
[0012]在本专利技术的一些实施方式中,所述初始化模块还用于执行下述操作:根据所述抽数配置文件自动获取源表的数据结构,并自动创建元数据信息、缓冲层的物理表与基础层的物理表之间的依赖关系;根据所述元数据信息自动创建缓冲层的物理表、基础层的物理表。
[0013]根据本专利技术上述实施方式,通过将确定的少量配置信息填写入配置模板,得到用于进行数据抽取的抽数配置文件,进而根据抽数配置文件自动获取源源表的数据结构,自动创建元数据信息、缓冲层的物理表、基础层的物理表以及缓冲层的物理表与基础层的物理表之间的依赖关系,能够使手工配置量最小化,大大提升了数据抽取阶段的工作效率,并避免了大量手工配置造成的高错误率。
[0014]在本专利技术的一些实施方式中,根据加载脚本将所述缓冲层的数据自动加载至基础层的物理表包括:根据所述元数据信息、抽数策略、加载策略、标准化配置实时生成自动加载脚本,调用所述自动加载脚本将所述缓冲层的数据自动加载至基础层的物理表;备份所述自动加载脚本后删除所述自动加载脚本。
[0015]根据本专利技术上述实施方式,通过数据加载模块自动生成自动加载脚本,无需手工编写大量的加载脚本,能够极大地提高数据加载的工作效率。同时,在源表的数据结构变换时,元数据信息相应变化,根据述元数据信息和配置信息等实时生成的自动加载脚本,无需手动修改或调整加载脚本,不仅能够保证数据正常加载,而且还节约了维护成本。
[0016]在本专利技术的一些实施方式中,根据加载脚本将所述缓冲层的数据自动加载至基础层的物理层还包括:自动探测是否存在手工加载脚本,如果存在,则优先调用所述手工加载脚本将所述缓冲层的数据自动加载至基础层的物理表;若不存在所述手工加载脚本,则调用所述自动加载脚本将所述缓冲层的数据自动加载至基础层的物理表。
[0017]在本专利技术的一些实施方式中,标准化配置包括日期标准化配置和码值标准化配置。
[0018]在本专利技术的一些实施方式中,根据标准化配置自动进行日期格式化包括:在将所述缓冲层的数据加载至基础层的insert脚本中,根据所述日期标准化配置将日期格式化字符串自动转换成数据仓库的SQL日期格式化字串。
[0019]根据本专利技术上述实施方式,通过数据转换模块在缓冲层的数据加载至基础层的过程中自动根据日期标准化配置将日期格式化字符串转换成数据仓库的SQL日期格式化字串,高效地实现了数据从缓冲层至基础层的日期格式化转换。
[0020]在本专利技术的一些实施方式中,根据标准化配置自动进行码值转换包括:在将所述缓冲层的数据加载至基础层的insert脚本中,根据所述码值标准化配置自动生成join语句关联至码值映射表,并获得所述码值映射表中转换后的码值。
[0021]根据本专利技术上述实施方式,通过数据转换模块的码值映射表将码值集中管理,在缓冲层的数据加载至基础层的过程中自动根据码值标准化配置获取转换后的码值,高效地
实现了数据从缓冲层至基础层的码值标准转换。
[0022]在本专利技术的一些实施方式中,所述大数据平台管理系统还包括:元数据管理模块,用于对所述大数据平台的缓冲层的物理表的表结构、源表与缓冲层的物理表之间的字段映射关系,以及所述标准化配置进行管理。
[0023]在本专利技术的一些实施方式中,所述大数据平台管理系统还包括:调度模块,用于根据源表与缓冲层的物理表之间的依赖关系、缓冲层的物理表与基础层的物理表之间的依赖关系,以及各数据处理任务之间的依赖关系自动生成调度脚本,根据所述调度脚本进行任务调度。
[0024]根据本专利技术上述实施方式,通过调度模块自动根据源表与缓冲层的物理表之间的依赖关系、缓冲层的物理表与基础层的物理表之间的依赖关系、各数据处理任务之间的依赖关系快速生成调度脚本,而无需用户手动维护上下游依赖关系,不仅减少了人工维护成本,而且能够保障调度依赖关系的准确性,确保跑批成功率。
[0025]根据本专利技术的第二方面,本专利技术实施方式提供了一种大数据平台管理方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据平台管理系统,其特征在于,所述大数据平台管理系统包括:初始化模块,用于获取抽数配置文件、标准化配置;数据抽取模块,用于基于所述抽数配置文件读取源表的全量数据或增量数据并存储至缓冲层的物理表;数据转换模块,用于在将所述缓冲层的数据加载至基础层时,根据所述标准化配置自动进行日期格式化和/或码值转换;数据加载模块,用于根据加载脚本将所述缓冲层的数据自动加载至基础层的物理表。2.如权利要求1所述的大数据平台管理系统,其特征在于,初始化模块根据业务需求确定待抽取入数据仓库的业务表,根据所述业务表的表结构确定抽取策略和加载策略,其中,所述业务表的业务表名、抽取策略和加载策略构成抽数配置信息;初始化模块将所述抽数配置信息填写入配置模板,以生成所述抽数配置文件。3.如权利要求2所述的大数据平台管理系统,其特征在于,所述初始化模块还用于执行下述操作:根据所述抽数配置文件自动获取源表的数据结构,并自动创建元数据信息、缓冲层的物理表与基础层的物理表之间的依赖关系;根据所述元数据信息自动创建缓冲层的物理表、基础层的物理表。4.如权利要求3所述的大数据平台管理系统,其特征在于,根据加载脚本将所述缓冲层的数据自动加载至基础层的物理表包括:根据所述元数据信息、抽数策略、加载策略、标准化配置实时生成自动加载脚本,调用所述自动加载脚本将所述缓冲层的数据自动加载至基础层的物理表;备份所述自动加载脚本后删除所述自动加载脚本。5.如权利要求4所述的大数据平台管理系统,其特征在于,根据加载脚本将所述缓冲层的数据自动加载至基础层的物理层还包括:自动探测是否存在手工加载脚本,如果存在,则优先调用所述手工加载脚本将所述缓冲层的数据自动加载至基础层的物理表;若不存在所述手工加载脚本,则调用所述自动加载脚本将所述缓冲层的数据自动加载至基础层的物理表。6.如权利要求1所述的大数据平台管理系统,其特征在于,标准化配置包括日期标准化配置和码值标准化配置。7.如权利要求6所述的大数据平台管理系统,其特征在于,根据标准化配置自动进行日期格式化包括:在将所述缓冲层的数据加载至基础层的insert插入脚本中,根据所述日期标准化配置将日期格式化字符串自动转换成数据仓库的SQL结构化查询语言日期格式化字串。8.如权利要求6所述的大数据平台管理系统,其特征在于,根据标准化配置自动进行码值转换包括:在将所述缓冲层的数据加载至基础层的insert脚本中,根据所述码值标准化配置自动生成join连接语句关联至码值映射表,并获得所述码值映射表中转换后的码值。9.如权利要求1所述的大数据平台管理系统,其特征在于,所述大数据平台管理系统还
包括:元数据管理模块,用于对所述大数据平台的缓冲层的物理表的表结构、源表与缓冲层的物理表之间的字段映射关系,以及所述标准化配置进行管理。10.如权利要求1所述的大数据平台管理系统,其特征在于,所述大数据平台管理系统还包括:调度模块,用于根据源表与缓冲层的物理表之间的依赖关系、缓冲层的物理表与基础层的物理表之间的依赖关系,以及各数据处理任务之间的依赖关系自动生成调度脚本,根据所述调度脚本进行任务调度。11.一种大数据平台管理方法,其特征在于,所述大数据平台管理方法包括:获取抽数配置文件、标准化配置;基于所述抽数配置文件读取源表的全量数据或增量数据并存储至缓...

【专利技术属性】
技术研发人员:刘晓江
申请(专利权)人:河北幸福消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1