一种基于制造技术

技术编号:39399361 阅读:5 留言:0更新日期:2023-11-19 15:52
本发明专利技术公开了一种基于

【技术实现步骤摘要】
一种基于OpenLineage数据库生成金融大数据血缘关系的方法


[0001]本专利技术属于数据管理领域,特别是涉及一种基于
OpenLineage
数据库生成金融大数据血缘关系的方法


技术介绍

[0002]数据管理是指对数据的收集

存储

处理

分析和保护等一系列活动进行管理和控制的过程

数据管理的目标是确保数据的准确性

可靠性

可用性和安全性,以便更好地支持组织的业务需求

[0003]现有的数据管理模式只是将大量数据放入一个大集合中统一储存,但是无法清晰的了解各数据之间的来源和去向,无法直观的理解数据结构和背景信息,因此管理和保护比较繁琐


技术实现思路

[0004]本专利技术主要解决的技术问题是无法清晰的了解各数据之间的来源和去向,无法直观的理解数据结构和背景信息,因此管理和保护比较繁琐

[0005]为解决上述技术问题,本专利技术采用的一个技术方案是:
[0006]一种基于
OpenLineage
数据库生成金融大数据血缘关系的方法,包括以下步骤
[0007]S1)
:数据建模:对数据进行建模以确定每个数据表之间的关系;
[0008]S2)
:改造处理系统:配置数据库连接

元数据存储位置

目标表
、<br/>血缘关系类型,将数据源连接到
OpenLineage
中,在
Apache Flink

Kafka
环境中配置
OpenLineage SDK
,并注册
hooks
以捕获所需的元数据;
[0009]所述的元数据包括数据库

文件系统
、API

[0010]S3)
:定义血缘表述:以
json
的格式为数据处理流程中涉及的每个任务定义数据血缘描述,包括输入数据源

处理过程和输出数据源;具有多级变换的处理过程,血缘描述需要在每个阶段中保留输入和输出数据源的引用;
[0011]S4)
:存储元数据信息:正确配置
OpenLineage
服务和数据库,存储
OpenLineage
数据血缘信息到元数据存储引擎,以跟踪数据的来源和变换过程;
[0012]S5)
:查询元数据:使用
OpenLineage Query
工具查询数据血缘信息并生成血缘视图;
[0013]S6)
:可视化血缘关系:使用
OpenLineage
提供的可视化工具,构建一个数据血缘关系图,以更直观的方式展现数据的来源和路径;
[0014]S7)
:血缘分析:使用
OpenLineage
进行数据血缘分析,包括输入和输出数据源以及处理过程,以确定数据的来源和去向;
[0015]S8)
:数据治理:建立数据治理规则和流程,以确保数据的准确性和可靠性;
[0016]所述治理规则和流程包括数据质量检查

数据备份和恢复

[0017]进一步的,所述
S1
步骤中的数据建模包括以下步骤:
[0018]S1

1)
:确定业务需求:明确需要分析的数据内容

指标

维度和关系;
[0019]S1

2)
:识别业务过程:识别业务过程和事实,确定待建模的业务实体

活动和交互情况,确定事实表和维度表所需的数据元素;
[0020]S1

3)
:设计事实表:确定事实表的粒度,即每个事实表行对应的业务事件或交易的级别,选择适当的度量,并确定与其关联的维度;
[0021]S1

4)
:设计维度表:识别需要分析的维度元素,包括时间

地理位置

产品和客户及以上的基本属性,还包括层次结构

层级关系和衍生属性,每个维度都应具有一个唯一的主键,并包含用于描述和过滤的属性;
[0022]S1

5)
:建立事实表和维度表之间的关系:在事实表和维度表之间建立关联,使用外键关系;
[0023]S1

6)
:进行反复迭代和验证;
[0024]S1

7)
:实施物理数据模型:维度模型设计完成后,将其映射到物理数据模型,并根据目标数据库管理系统的要求,创建相应的表和索引结构;
[0025]S1

8)
:通过
ETL
加载数据:使用
ETL
工具将业务数据从源系统提取到数据仓库,并根据维度模型的结构进行转换和加载;
[0026]进一步的,所述
S2
步骤中需要在
HDFS

Hive
中部署
OpenLineage
服务,以捕获在数据处理过程中生成的数据血缘信息,包括以下步骤:
[0027]S2

1)
:调用
OpenLineage
服务器的
URL
,通过调用
OpenLineage.OpenLineageClient
方法初始化
OpenLineage
客户端;
[0028]S2

2)
:通过调用
OpenLineage.sendJobMetadata
方法发送作业的元数据;
[0029]S2

3)
:输入作业的实际名称和命名空间;
[0030]S2

4)
:待
Flink
作业在完成时调用
OpenLineage.sendJobMetadata
方法,发送作业的元数据到
OpenLineage
服务器

[0031]进一步的,所述
S3
步骤包括以下步骤:
[0032]S3

1)
:调用
OpenLineage
服务器的
URL

[0033]S3

2)
:创建输入和输出数据集,并使用这些数据集创建输入和输出事件;
[0034]S3

3)
:创建作业,并将输入和输出事件添加到作业中;...

【技术保护点】

【技术特征摘要】
1.
一种基于
OpenLineage
数据库生成金融大数据血缘关系的方法,其特征在于:包括以下步骤
S1)
:数据建模:对数据进行建模以确定每个数据表之间的关系;
S2)
:改造处理系统:配置数据库连接

元数据存储位置

目标表

血缘关系类型,将数据源连接到
OpenLineage
中,在
Apache Flink

Kafka
环境中配置
OpenLineage SDK
,并注册
hooks
以捕获所需的元数据;所述的元数据包括数据库

文件系统
、API

S3)
:定义血缘表述:以
json
的格式为数据处理流程中涉及的每个任务定义数据血缘描述,包括输入数据源

处理过程和输出数据源;具有多级变换的处理过程,血缘描述需要在每个阶段中保留输入和输出数据源的引用;
S4)
:存储元数据信息:正确配置
OpenLineage
服务和数据库,存储
OpenLineage
数据血缘信息到元数据存储引擎,以跟踪数据的来源和变换过程;
S5)
:查询元数据:使用
OpenLineage Query
工具查询数据血缘信息并生成血缘视图;
S6)
:可视化血缘关系:使用
OpenLineage
提供的可视化工具,构建一个数据血缘关系图,以更直观的方式展现数据的来源和路径;
S7)
:血缘分析:使用
OpenLineage
进行数据血缘分析,包括输入和输出数据源以及处理过程,以确定数据的来源和去向;
S8)
:数据治理:建立数据治理规则和流程,以确保数据的准确性和可靠性;所述治理规则和流程包括数据质量检查

数据备份和恢复
。2.
根据权利要求1所述的一种基于
OpenLineage
数据库生成金融大数据血缘关系的方法,其特征在于:所述
S1
步骤中的数据建模包括以下步骤:
S1

1)
:确定业务需求:明确需要分析的数据内容

指标

维度和关系;
S1

2)
:识别业务过程:识别业务过程和事实,确定待建模的业务实体

活动和交互情况,确定事实表和维度表所需的数据元素;
S1

3)
:设计事实表:确定事实表的粒度,即每个事实表行对应的业务事件或交易的级别,选择适当的度量,并确定与其关联的维度;
S1

4)
:设计维度表:识别需要分析的维度元素,包括时间

地理位置

产品和客户及以上的基本属性,还包括层次结构

层级关系和衍生属性,每个维度都应具有一个唯一的主键,并包含用于描述和过滤的属性;
S1

5)
:建立事实表和维度表之间的关系:在事实表和维度表之间建立关联,使用外键关系;
S1

6)
:进行反复迭代和验证;
S1

7)
:实施物理数据模型:维度模型设计完成后,将其映射到物理数据模型,并根据目标数据库管理系统的要求,创建相应的表和索引结构;
S1

8)
:通过
ETL
加载数据:使用
ETL
工具将业务数据从源系统提取到数据仓库,并根据维度模型的结构进行转换和加载
。3.
根据权利要求1所述的一种基于
OpenLineage
数据库生成金融大数据血缘关系的方法,其特征在于:所述
S2
步骤中需要在
HDFS

Hive
中部署
OpenLineage
服务,以捕获在数据处理过程中生成的数据血缘信息,包括以下步骤:
S2

1)
:调用
OpenLineage
服务器的
URL<...

【专利技术属性】
技术研发人员:陆皓秦婷婷
申请(专利权)人:苏银凯基消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1