一种数据血缘的处理方法技术

技术编号:39431460 阅读:12 留言:0更新日期:2023-11-19 16:16
本申请公开了一种数据血缘的处理方法

【技术实现步骤摘要】
一种数据血缘的处理方法、装置、设备及介质


[0001]本申请涉及大数据
,尤其涉及一种数据血缘的处理方法

装置

设备及介质


技术介绍

[0002]数据血缘,又称数据的血缘关系,是指数据在产生

处理

加工

融合

流转到最终消亡这一全生命周期中,自然形成的一种数据关系

由于数据的全生命周期最终需要回归并赋能于实际业务,因此,数据血缘的分析和处理过程对于实际业务具有重要意义

[0003]以金融机构为例,金融机构的业务系统众多,数据结构纷繁复杂

传统的数据血缘处理方法中,主要是依靠分析数据的抽取

转换

加载
(Extract

Transform

Load

ETL)
作业的方式来实现

但是,由于
ETL
作业量较大且处理程序复杂,容易出现错误,因此,这种基于
ETL
作业进行数据血缘分析的方法的处理效率不高,且处理得到的血缘关系的准确率不佳


技术实现思路

[0004]本申请实施例提供了一种数据血缘的处理方法

装置

设备及介质,以提高数据血缘的处理效率,以及得到的血缘关系的准确率

[0005]第一方面,本申请实施例提供了一种数据血缘的处理方法,包括:
[0006]基于挂钩
hook
插件,拦截数据库操作请求并进行解析,得到数据表的相关信息;所述数据表的相关信息用于表征数据表间的血缘关系,以及数据表中字段间的血缘关系;
[0007]将所述数据表的相关信息异步发送至消息队列;
[0008]消费所述消息队列输出的所述数据表的相关信息,并将所述数据表的相关信息保存于目标数据库;所述目标数据库用于查询并展示所述数据表间的血缘关系,以及所述数据表中字段间的血缘关系

[0009]可选地,所述消息队列为卡夫卡消息队列
Kafka
;所述消费所述消息队列输出的所述数据表的相关信息,包括:
[0010]注册所述
Kafka
的主题,并基于所述主题对所述数据表的相关信息进行消费

[0011]可选地,所述方法还包括:
[0012]对处于同一数据库中同一数据表的字段进行整合,得到整合字段;
[0013]基于所述整合字段更新所述数据表中字段间的血缘关系

[0014]可选地,所述
hook
插件通过如下步骤获取:
[0015]确定当前运行的数据引擎;一种所述数据引擎对应一种
hook
插件;
[0016]基于所述数据引擎,确定对应的
hook
插件

[0017]可选地,所述数据引擎包括数据仓库工具
hive
;所述
hive
对应的
hook
插件为在
hive
中挂接的
hook
插件
hive hook

[0018]所述基于挂钩
hook
插件,拦截数据库操作请求并进行解析,得到数据表的相关信息,包括:
[0019]基于所述
hive hook
配置
hive hook
接口;所述
hive hook
接口用于拦截数据库操作请求并进行解析,得到数据表的相关信息

[0020]可选地,所述数据引擎包括大数据计算引擎
Spark
;所述
Spark
对应的
hook
插件为在
Spark
中挂接的
hook
插件
Spark hook

[0021]所述基于挂钩
hook
插件,拦截数据库操作请求并进行解析,得到数据表的相关信息,包括:
[0022]基于所述
Spark hook
配置
Spark hook
接口;所述
Spark hook
接口用于确定拦截数据库操作请求并进行解析,得到数据表的相关信息

[0023]可选地,所述数据引擎包括数据查询引擎
Presto
;所述
Presto
对应的
hook
插件为在
Presto
中挂接的
hook
插件
Presto hook

[0024]所述基于挂钩
hook
插件,拦截数据库操作请求并进行解析,得到数据表的相关信息,包括:
[0025]基于所述
Presto hook
配置
Presto hook
接口;所述
Presto hook
接口用于确定拦截数据库操作请求并进行解析,得到数据表的相关信息

[0026]第二方面,本申请实施例提供了一种数据血缘的处理装置,包括:
[0027]解析模块,用于基于挂钩
hook
插件,拦截数据库操作请求并进行解析,得到数据表的相关信息;所述数据表的相关信息用于表征数据表间的血缘关系,以及数据表中字段间的血缘关系;
[0028]发送模块,用于将所述数据表的相关信息异步发送至消息队列;
[0029]消费模块,用于消费所述消息队列输出的所述数据表的相关信息,并将所述数据表的相关信息保存于目标数据库;所述目标数据库用于查询并展示所述数据表间的血缘关系,以及所述数据表中字段间的血缘关系

[0030]第三方面,本申请实施例提供了一种电子设备,所述设备包括:处理器

存储器

系统总线;
[0031]所述处理器以及所述存储器通过所述系统总线相连;
[0032]所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述数据血缘的处理方法的任一实现方式

[0033]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在电子设备上运行时,使得所述电子设备执行上述数据血缘的处理方法的任一实现方式

[0034]从以上技术方案可以看出,本申请实施例具有以下优点:
[0035]在本申请实施例中,基于挂钩
hook
插件,拦截数据库操作请求并进行解析,得到数据表的相关信息之后,可以将数据表的相关信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据血缘的处理方法,其特征在于,包括:基于挂钩
hook
插件,拦截数据库操作请求并进行解析,得到数据表的相关信息;所述数据表的相关信息用于表征数据表间的血缘关系,以及数据表中字段间的血缘关系;将所述数据表的相关信息异步发送至消息队列;消费所述消息队列输出的所述数据表的相关信息,并将所述数据表的相关信息保存于目标数据库;所述目标数据库用于查询并展示所述数据表间的血缘关系,以及所述数据表中字段间的血缘关系
。2.
根据权利要求1所述的处理方法,其特征在于,所述消息队列为卡夫卡消息队列
Kafka
;所述消费所述消息队列输出的所述数据表的相关信息,包括:注册所述
Kafka
的主题,并基于所述主题对所述数据表的相关信息进行消费
。3.
根据权利要求1所述的处理方法,其特征在于,所述方法还包括:对处于同一数据库中同一数据表的字段进行整合,得到整合字段;基于所述整合字段更新所述数据表中字段间的血缘关系
。4.
根据权利要求1所述的处理方法,其特征在于,所述
hook
插件通过如下步骤获取:确定当前运行的数据引擎;一种所述数据引擎对应一种
hook
插件;基于所述数据引擎,确定对应的
hook
插件
。5.
根据权利要求4所述的处理方法,其特征在于,所述数据引擎包括数据仓库工具
hive
;所述
hive
对应的
hook
插件为在
hive
中挂接的
hook
插件
hive hook
;所述基于挂钩
hook
插件,拦截数据库操作请求并进行解析,得到数据表的相关信息,包括:基于所述
hive hook
配置
hive hook
接口;所述
hive hook
接口用于拦截数据库操作请求并进行解析,得到数据表的相关信息
。6.
根据权利要求4所述的处理方法,其特征在于,所述数据引擎包括大数据计算引擎
Spark
;所述
Spark
对应的
hook
插件为在
Spark
中挂接的
hook...

【专利技术属性】
技术研发人员:丁锐
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1