一种数据血缘的处理方法技术

技术编号：39431460 阅读：12 留言：0更新日期：2023-11-19 16:16

本申请公开了一种数据血缘的处理方法

全部详细技术资料下载

【技术实现步骤摘要】
一种数据血缘的处理方法、装置、设备及介质

[0001]本申请涉及大数据
，尤其涉及一种数据血缘的处理方法
、
装置
、
设备及介质
。

技术介绍

[0002]数据血缘，又称数据的血缘关系，是指数据在产生
、
处理
、
加工
、
融合
、
流转到最终消亡这一全生命周期中，自然形成的一种数据关系
。
由于数据的全生命周期最终需要回归并赋能于实际业务，因此，数据血缘的分析和处理过程对于实际业务具有重要意义
。
[0003]以金融机构为例，金融机构的业务系统众多，数据结构纷繁复杂
。
传统的数据血缘处理方法中，主要是依靠分析数据的抽取
、
转换
、
加载
(Extract
‑
Transform
‑
Load
，
ETL)
作业的方式来实现
。
但是，由于
ETL
作业量较大且处理程序复杂，容易出现错误，因此，这种基于
ETL
作业进行数据血缘分析的方法的处理效率不高，且处理得到的血缘关系的准确率不佳
。

技术实现思路

[0004]本申请实施例提供了一种数据血缘的处理方法
、
装置
、
设备及介质，以提高数据血缘的处理效率，以及得到的血缘关系的准确率
。
[...

【技术保护点】

【技术特征摘要】
1.
一种数据血缘的处理方法，其特征在于，包括：基于挂钩
hook
插件，拦截数据库操作请求并进行解析，得到数据表的相关信息；所述数据表的相关信息用于表征数据表间的血缘关系，以及数据表中字段间的血缘关系；将所述数据表的相关信息异步发送至消息队列；消费所述消息队列输出的所述数据表的相关信息，并将所述数据表的相关信息保存于目标数据库；所述目标数据库用于查询并展示所述数据表间的血缘关系，以及所述数据表中字段间的血缘关系
。2.
根据权利要求1所述的处理方法，其特征在于，所述消息队列为卡夫卡消息队列
Kafka
；所述消费所述消息队列输出的所述数据表的相关信息，包括：注册所述
Kafka
的主题，并基于所述主题对所述数据表的相关信息进行消费
。3.
根据权利要求1所述的处理方法，其特征在于，所述方法还包括：对处于同一数据库中同一数据表的字段进行整合，得到整合字段；基于所述整合字段更新所述数据表中字段间的血缘关系
。4.
根据权利要求1所述的处理方法，其特征在于，所述
hook
插件通过如下步骤获取：确定当前运行的数据引擎；一种所述数据引擎对应一种
hook
插件；基于所述数据引擎，确定对应的
hook
插件
。5.
根据权利要求4所述的处理方法，其特征在于，所述数据引擎包括数据仓库工具
hive
；所述
hive
对应的
hook
插件为在
hive
中挂接的
hook
插件
hive hook
；所述基于挂钩
hook
插件，拦截数据库操作请求并进行解析，得到数据表的相关信息，包括：基于所述
hive hook
配置
hive hook
接口；所述
hive hook
接口用于拦截数据库操作请求并进行解析，得到数据表的相关信息
。6.
根据权利要求4所述的处理方法，其特征在于，所述数据引擎包括大数据计算引擎
Spark
；所述
Spark
对应的
hook
插件为在
Spark
中挂接的
hook...

【专利技术属性】
技术研发人员：丁锐，
申请(专利权)人：中国银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人