【技术实现步骤摘要】
一种数据血缘的处理方法、装置、设备及介质
[0001]本申请涉及大数据
,尤其涉及一种数据血缘的处理方法
、
装置
、
设备及介质
。
技术介绍
[0002]数据血缘,又称数据的血缘关系,是指数据在产生
、
处理
、
加工
、
融合
、
流转到最终消亡这一全生命周期中,自然形成的一种数据关系
。
由于数据的全生命周期最终需要回归并赋能于实际业务,因此,数据血缘的分析和处理过程对于实际业务具有重要意义
。
[0003]以金融机构为例,金融机构的业务系统众多,数据结构纷繁复杂
。
传统的数据血缘处理方法中,主要是依靠分析数据的抽取
、
转换
、
加载
(Extract
‑
Transform
‑
Load
,
ETL)
作业的方式来实现
。
但是,由于
ETL
作业量较大且处理程序复杂,容易出现错误,因此,这种基于
ETL
作业进行数据血缘分析的方法的处理效率不高,且处理得到的血缘关系的准确率不佳
。
技术实现思路
[0004]本申请实施例提供了一种数据血缘的处理方法
、
装置
、
设备及介质,以提高数据血缘的处理效率,以及得到的血缘关系的准确率
。
[ ...
【技术保护点】
【技术特征摘要】
1.
一种数据血缘的处理方法,其特征在于,包括:基于挂钩
hook
插件,拦截数据库操作请求并进行解析,得到数据表的相关信息;所述数据表的相关信息用于表征数据表间的血缘关系,以及数据表中字段间的血缘关系;将所述数据表的相关信息异步发送至消息队列;消费所述消息队列输出的所述数据表的相关信息,并将所述数据表的相关信息保存于目标数据库;所述目标数据库用于查询并展示所述数据表间的血缘关系,以及所述数据表中字段间的血缘关系
。2.
根据权利要求1所述的处理方法,其特征在于,所述消息队列为卡夫卡消息队列
Kafka
;所述消费所述消息队列输出的所述数据表的相关信息,包括:注册所述
Kafka
的主题,并基于所述主题对所述数据表的相关信息进行消费
。3.
根据权利要求1所述的处理方法,其特征在于,所述方法还包括:对处于同一数据库中同一数据表的字段进行整合,得到整合字段;基于所述整合字段更新所述数据表中字段间的血缘关系
。4.
根据权利要求1所述的处理方法,其特征在于,所述
hook
插件通过如下步骤获取:确定当前运行的数据引擎;一种所述数据引擎对应一种
hook
插件;基于所述数据引擎,确定对应的
hook
插件
。5.
根据权利要求4所述的处理方法,其特征在于,所述数据引擎包括数据仓库工具
hive
;所述
hive
对应的
hook
插件为在
hive
中挂接的
hook
插件
hive hook
;所述基于挂钩
hook
插件,拦截数据库操作请求并进行解析,得到数据表的相关信息,包括:基于所述
hive hook
配置
hive hook
接口;所述
hive hook
接口用于拦截数据库操作请求并进行解析,得到数据表的相关信息
。6.
根据权利要求4所述的处理方法,其特征在于,所述数据引擎包括大数据计算引擎
Spark
;所述
Spark
对应的
hook
插件为在
Spark
中挂接的
hook...
【专利技术属性】
技术研发人员:丁锐,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。