【技术实现步骤摘要】
大数据平台管理系统、方法、设备和存储介质
[0001]本专利技术涉及计算机应用
,更为具体而言,涉及一种大数据平台管理系统、方法、设备和存储介质。
技术介绍
[0002]ETL系统是大数据平台中的关键系统,承载了数据抽取(E)、转换(T)、加载(L)、调度等大量烦杂工作。市场上虽有诸多ETL工具,但当前市场上常见的ETL工具仅关注于单项功能的完成,并且缺少对ETL及调度的自动化、统一管理,需要用户手动进行大量ETL工作。而各行业的大数据平台建设中近80%的工作量集中于ETL,致使大数据平台建设中ETL工作存在效率低下、易错等重大风险。
[0003]更为具体而言,现有的ETL工具存在下述几个方面的问题:
[0004](1)在数据抽取方面,各类数据抽取前需要做较多的准备工作(如:了解源表结构、在数据中台或数据仓库中创建目标表(缓冲层的物理表)、建立字段映射关系等),大批量接入业务系统表时(如:接入上千张表),需要耗费大量人工,不仅数据抽取效率低,而且易出错;
[0005](2)在数据转换方面,数据标准化、格式化困难,码值分散于各类脚本中,难以管理;
[0006](3)在数据加载方面,根据不同的数据存储策略,每个表都需要编写加载脚本,源表数据结构变化时,加载脚本也需手动修改,因此维护成本高;
[0007](4)在调度方面,通过手工配置和维护调度,面对依赖关系复杂的调度时常出错,导致跑批失败。
技术实现思路
[0008]为解决上述现有技术存在的问题或部分问题,本专 ...
【技术保护点】
【技术特征摘要】
1.一种大数据平台管理系统,其特征在于,所述大数据平台管理系统包括:初始化模块,用于获取抽数配置文件、标准化配置;数据抽取模块,用于基于所述抽数配置文件读取源表的全量数据或增量数据并存储至缓冲层的物理表;数据转换模块,用于在将所述缓冲层的数据加载至基础层时,根据所述标准化配置自动进行日期格式化和/或码值转换;数据加载模块,用于根据加载脚本将所述缓冲层的数据自动加载至基础层的物理表。2.如权利要求1所述的大数据平台管理系统,其特征在于,初始化模块根据业务需求确定待抽取入数据仓库的业务表,根据所述业务表的表结构确定抽取策略和加载策略,其中,所述业务表的业务表名、抽取策略和加载策略构成抽数配置信息;初始化模块将所述抽数配置信息填写入配置模板,以生成所述抽数配置文件。3.如权利要求2所述的大数据平台管理系统,其特征在于,所述初始化模块还用于执行下述操作:根据所述抽数配置文件自动获取源表的数据结构,并自动创建元数据信息、缓冲层的物理表与基础层的物理表之间的依赖关系;根据所述元数据信息自动创建缓冲层的物理表、基础层的物理表。4.如权利要求3所述的大数据平台管理系统,其特征在于,根据加载脚本将所述缓冲层的数据自动加载至基础层的物理表包括:根据所述元数据信息、抽数策略、加载策略、标准化配置实时生成自动加载脚本,调用所述自动加载脚本将所述缓冲层的数据自动加载至基础层的物理表;备份所述自动加载脚本后删除所述自动加载脚本。5.如权利要求4所述的大数据平台管理系统,其特征在于,根据加载脚本将所述缓冲层的数据自动加载至基础层的物理层还包括:自动探测是否存在手工加载脚本,如果存在,则优先调用所述手工加载脚本将所述缓冲层的数据自动加载至基础层的物理表;若不存在所述手工加载脚本,则调用所述自动加载脚本将所述缓冲层的数据自动加载至基础层的物理表。6.如权利要求1所述的大数据平台管理系统,其特征在于,标准化配置包括日期标准化配置和码值标准化配置。7.如权利要求6所述的大数据平台管理系统,其特征在于,根据标准化配置自动进行日期格式化包括:在将所述缓冲层的数据加载至基础层的insert插入脚本中,根据所述日期标准化配置将日期格式化字符串自动转换成数据仓库的SQL结构化查询语言日期格式化字串。8.如权利要求6所述的大数据平台管理系统,其特征在于,根据标准化配置自动进行码值转换包括:在将所述缓冲层的数据加载至基础层的insert脚本中,根据所述码值标准化配置自动生成join连接语句关联至码值映射表,并获得所述码值映射表中转换后的码值。9.如权利要求1所述的大数据平台管理系统,其特征在于,所述大数据平台管理系统还
包括:元数据管理模块,用于对所述大数据平台的缓冲层的物理表的表结构、源表与缓冲层的物理表之间的字段映射关系,以及所述标准化配置进行管理。10.如权利要求1所述的大数据平台管理系统,其特征在于,所述大数据平台管理系统还包括:调度模块,用于根据源表与缓冲层的物理表之间的依赖关系、缓冲层的物理表与基础层的物理表之间的依赖关系,以及各数据处理任务之间的依赖关系自动生成调度脚本,根据所述调度脚本进行任务调度。11.一种大数据平台管理方法,其特征在于,所述大数据平台管理方法包括:获取抽数配置文件、标准化配置;基于所述抽数配置文件读取源表的全量数据或增量数据并存储至缓...
【专利技术属性】
技术研发人员:刘晓江,
申请(专利权)人:河北幸福消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。