一种基于流批一体的数据湖构建系统、方法及装置制造方法及图纸

技术编号:39262478 阅读:11 留言:0更新日期:2023-10-30 12:15
本发明专利技术公开了一种基于流批一体的数据湖构建系统、方法及装置,包括数据获取模块,用于获取流数据和批数据;标准化模块,用于对流数据和批数据分别进行数据清洗,得到标准流数据和标准批数据,将标准流数据和标准批数据进行持久化;数据整合模块,用于对持久化的数据进行数据建模,生成实时数仓与离线数仓,并关联实时数仓与离线数仓;数据访问模块,用于获取关联的实时数仓与离线数仓,生成数据湖,对数据湖的数据进行数据聚合。本发明专利技术提供的基于流批一体的数据湖构建系统、方法及装置,通过数据湖的构建,提高数据的利用率和处理效率,关联实时数据和离线数据对业务数据进行处理和管理。管理。管理。

【技术实现步骤摘要】
一种基于流批一体的数据湖构建系统、方法及装置


[0001]本专利技术属于互联网银行
,具体涉及一种基于流批一体的数据湖构建系统、方法及装置。

技术介绍

[0002]在银行系统内产生了海量的客户数据、存款数据、贷款数据等,随着业务的发展和创新越来越依赖于对数据的高效处理和分析。然而,银行业务相关数据呈现出规模大、多源异构、结构复杂等特点,传统的数据处理方法往往难以应对。
[0003]目前,基于数据湖的处理方法已成为银行业务数据处理的一种重要方式。数据湖作为一种非结构化的数据存储方式,可以将多种类型、来源和格式的数据整合到一个统一的存储环境中,以便进行数据分析和预测。然而,在实际应用过程中,传统数据湖方式往往无法满足银行业务处理的实时性和效率需求,特别是在快速变化的业务场景中,传统的批处理方法需要大量的时间和资源。
[0004]综上所述,现有技术存在的问题,有待解决。

技术实现思路

[0005]本专利技术的目的在于提供一种基于流批一体的数据湖构建系统、方法及装置,以解决传统数据湖方式无法满足业务处理的实时性和效率需求的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种基于流批一体的数据湖构建系统,包括:
[0007]数据获取模块,用于获取流数据和批数据;
[0008]标准化模块,用于对流数据和批数据分别进行数据清洗,得到标准流数据和标准批数据,将标准流数据和标准批数据进行持久化;
[0009]数据整合模块,用于对持久化的数据进行数据建模,生成实时数仓与离线数仓,并关联实时数仓与离线数仓;
[0010]数据访问模块,用于获取关联的实时数仓与离线数仓,生成数据湖,对数据湖的数据进行数据聚合。
[0011]优选的,所述标准化模块包括:
[0012]流数据标准化模块:用于实时获取的流数据进行数据清洗,生成标准流数据,将处理后的标准流数据保存到实时数据存储层;
[0013]批数据标准化模块:用于对批数据进行数据清洗,生成标准批数据,并保存处理后的标准批数据更新至实时计算数据平台;
[0014]数据存储模块:用于持久化标准流数据和标准批数据,并采用T+1方式将标准批数据保存至临时性的数据源中。
[0015]优选的,标准化模块还包括数据清洗模块,数据清洗模块包括以下子模块:
[0016]数据归并模块,用于合并两个或多个数据源中的流数据和批数据;
[0017]数据分流模块,用于分别存储流数据和批数据;
[0018]数据去重模块,用于判断流数据和批数据的数据重复情况,对重复的数据进行删除,确保流数据和批数据的唯一性;
[0019]脏数据处理模块:用于对流数据和批数据中的数据进行数据初始化,保留准确数据和完整数据,删除无效数据;
[0020]数据类型格式化模块,用于转换流数据和批数据数据类型,得到标准流数据和标准批数据。
[0021]优选的,所述数据整合模块包括:
[0022]数据退化模块:用于对标准流数据和标准批数据进行不变维度的退化,将原本标准流数据和标准批数据作为维度的数据合并到主要事实表;
[0023]核心字段提取模块:用于提取主要事实表中的关键字段,建立维度表;
[0024]信息关联模块:用于读取核心字段提取模块的数据,生成实时数仓与离线数仓,根据实时数仓与离线数仓之间的对应关系建立关联,存储所关联的实时数仓与离线数仓。
[0025]一种基于流批一体的数据湖构建方法,包括:
[0026]获取流数据和批数据;
[0027]基于流数据和批数据,对流数据和批数据分别进行数据清洗,得到标准流数据和标准批数据,将标准流数据和标准批数据进行持久化;
[0028]基于持久化后的标准流数据和标准批数据,进行数据建模,生成实时数仓与离线数仓,并关联实时数仓与离线数仓;
[0029]基于关联的实时数仓与离线数仓,生成数据湖,对数据湖的数据进行数据聚合。
[0030]优选的,将标准流数据和标准批数据持久化包括:
[0031]对流数据标准化的处理:对实时获取的流数据进行数据清洗,生成标准流数据,保存标准流数据到实时数据存储层;
[0032]对批数据标准化的处理:对批数据进行数据清洗,生成标准批数据,将标准批数据更新至实时计算数据平台;
[0033]数据存储:对标准流数据和标准批数据持久化,并采用T+1方式将标准批数据保存至临时性的数据源中。
[0034]优选的,所述数据清洗包括以下步骤:
[0035]数据归并,合并两个或多个数据源中的流数据和批数据;
[0036]数据分流,分别存储流数据和批数据
[0037]数据去重,判断流数据和批数据的数据重复情况,对重复的数据进行删除,确保流数据和批数据的唯一性;
[0038]脏数据处理:对流数据和批数据中的数据进行数据初始化,保留准确数据和完整数据,删除无效数据;
[0039]数据类型格式化,转换流数据和批数据的数据类型,得到标准流数据和标准批数据。
[0040]优选的,所述数据建模包括:
[0041]数据退化:对标准流数据和标准批数据进行不变维度的退化,将原本标准流数据和标准批数据作为维度的数据合并到主要事实表;
[0042]核心字段提取:提取主要事实表中的关键字段,建立维度表。
[0043]一种基于流批一体的数据湖构建装置,包括:处理器和存储器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
[0044]本专利技术的技术效果和优点:
[0045]通过数据存储模块将标准流数据和标准批数据的处理结果持久化存储,实现数据的增量更新和查询,从而提高数据的处理效率和可靠性;
[0046]通过对数据进行建模,使得提高数据分析和预测的准确性,进而提高业务决策的精度和效果,通过数据整合模块关联实时数仓与离线数仓,使得数据可自由调度,实现数据的高度复用,减少重复加工,节约了时间和成本;
[0047]通过数据湖的构建,提高数据的利用率和处理效率,提高数据湖的可用性,通过关联实时数据和离线数据,提高数据处理和实时分析的效率。
附图说明
[0048]图1为本专利技术的系统示意图;
[0049]图2为本专利技术的方法示意图。
具体实施方式
[0050]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0051]本专利技术提供了如图1

2中所示的一种基于流批一体的数据湖构建系统、方法及装置,该系统包括:数据获取模块、标准化模块、数据整合模块和数据访问模块,本专利技术的方法通过使用前述模块来执行,运本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于流批一体的数据湖构建系统,其特征在于,包括:数据获取模块,用于获取流数据和批数据;标准化模块,用于对流数据和批数据分别进行数据清洗,得到标准流数据和标准批数据,将标准流数据和标准批数据进行持久化;数据整合模块,用于对持久化的数据进行数据建模,生成实时数仓与离线数仓,并关联实时数仓与离线数仓;数据访问模块,用于获取关联的实时数仓与离线数仓,生成数据湖,对数据湖的数据进行数据聚合。2.根据权利要求1所述的一种基于流批一体的数据湖构建系统,其特征在于,所述标准化模块包括:流数据标准化模块:用于对实时获取的流数据进行数据清洗,生成标准流数据,将处理后的标准流数据保存到实时数据存储层;批数据标准化模块:用于对批数据进行数据清洗,生成标准批数据,并保存处理后的标准批数据更新至实时计算数据平台;数据存储模块:用于持久化标准流数据和标准批数据,并采用T+1方式将标准批数据保存至临时性的数据源中。3.根据权利要求1所述的一种基于流批一体的数据湖构建系统,其特征在于,标准化模块还包括数据清洗模块,数据清洗模块包括以下子模块:数据归并模块,用于合并两个或多个数据源中的流数据和批数据;数据分流模块,用于分别存储流数据和批数据;数据去重模块,用于判断流数据和批数据的数据重复情况,对重复的数据进行删除,确保流数据和批数据的唯一性;脏数据处理模块:用于对流数据和批数据进行数据初始化,保留准确数据和完整数据,删除无效数据;数据类型格式化模块,用于转换流数据和批数据数据类型,得到标准流数据和标准批数据。4.根据权利要求1所述的一种基于流批一体的数据湖构建系统,其特征在于,所述数据整合模块包括:数据退化模块:用于对标准流数据和标准批数据进行不变维度的退化,将原本标准流数据和标准批数据作为维度的数据合并到主要事实表;核心字段提取模块:用于提取主要事实表中的关键字段,建立维度表;信息关联模块:用于读取核心字段提取模块的数据,生成实时数仓与离线数仓,根据实时数仓与离线数仓之间的对应关系建立关联,存储所关联的实时数仓与...

【专利技术属性】
技术研发人员:钟秋万文兵杨颖
申请(专利权)人:江苏苏宁银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1