【技术实现步骤摘要】
数据血缘关系的确定方法、装置、设备及可读存储介质
[0001]本申请实施例涉及大数据
,特别涉及一种数据血缘关系的确定方法
、
装置
、
设备及可读存储介质
。
技术介绍
[0002]随着石油勘探进程的不断发展,油田生产
、
勘探及开发等业务产生的石油数据越来越多,形成了庞大的数据资源池
。
在大数据背景下,通过确定大量的石油数据的血缘关系能够明晰石油数据的源头和流向,分析石油数据之间的影响关系,从而为油田生产
、
勘探
、
开发以及运维提供价值导向
。
其中,血缘关系是指数据在产生
、
处理
、
流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的关系
。
技术实现思路
[0003]本申请实施例提供了一种数据血缘关系的确定方法
、
装置
、
设备及可读存储介质,可用于通过确定大量的石油数据的血缘关系明晰石油数据的源头和流向,分析石油数据之间的影响关系
。
所述技术方案如下:
[0004]一方面,提供了一种数据血缘关系的确定方法,所述方法包括:
[0005]获取图谱模型,所述图谱模型包括多个对象类型以及所述多个对象类型之间的依赖关系,所述多个对象类型分别包括至少一个对象属性;
[0006]按照所述图谱模型对多个数据源中的石油数据进行采集,得到多个数据对象,第一 ...
【技术保护点】
【技术特征摘要】
1.
一种数据血缘关系的确定方法,其特征在于,所述方法包括:获取图谱模型,所述图谱模型包括多个对象类型以及所述多个对象类型之间的依赖关系,所述多个对象类型分别包括至少一个对象属性;按照所述图谱模型对多个数据源中的石油数据进行采集,得到多个数据对象,第一数据对象对应第一对象类型,所述第一数据对象包括所述第一对象类型对应的至少一个对象属性以及与第二数据对象的依赖关系,所述第一数据对象为所述多个数据对象中的任一数据对象,所述第二数据对象为所述多个数据对象中除所述第一数据对象之外的任一数据对象,所述石油数据是在油田生产
、
勘探及开发的过程中产生的;将所述多个数据对象按照所述多个对象类型进行分类,得到多个数据对象集;根据所述多个数据对象集分别包括的各个数据对象的至少一个对象属性以及不同数据对象之间的依赖关系,确定所述多个数据对象之间的血缘关系
。2.
根据权利要求1所述方法,其特征在于,所述多个对象类型包括字段
、
表
、
视图
、
物化视图
、
函数
、
数据集
、
命名空间和版本中的至少两个;所述依赖关系包括外键关系
、
等级关系
、
包含关系
、
版本关系
、
数据项转换关系和映射关系中的至少一个;所述至少一个对象属性包括区域属性
、
业务属性
、
管理属性和时间属性中的至少一个
。3.
根据权利要求1所述方法,其特征在于,所述按照所述图谱模型对多个数据源中的石油数据进行采集,包括:通过采集适配器按照所述图谱模型对多个数据源中的石油数据进行采集,所述采集适配器通过通用接口分别与所述多个数据源连接,所述多个数据源包括表格数据库
、
元数据库
、
质控规则数据库和结构化查询语言
SQL
数据库中的至少两个,所述采集适配器支持提取所述多个对象类型的数据对象和数据对象之间的依赖关系
。4.
根据权利要求1所述方法,其特征在于,所述将所述多个数据对象按照所述多个对象类型进行分类,得到多个数据对象集,包括:对所述多个数据对象进行融合处理,将融合处理后的多个数据对象按照所述多个对象类型进行分类,得到所述多个数据对象集
。5.
根据权利要求1所述方法,其特征在于,所述根据所述多个数据对象集分别包括的各个数据对象的至少一个对象属性以及不同数据对象之间的依赖关系,确定所述多个数据对象之间的血缘关系,包括:对于所述多个数据对象中的任一数据对象,在所述任一数据对象所属的数据对象集中按业务需求进行遍历,获取至少一个同级数据对象,所述至少一个同级数据对象的至少一个对象属性与所述任一数据对象的至少一个对象属性之间的相似度大于相似度阈值;基于所述任一数据对象和所述至少一个同级数据对象分别包括的依赖关系,获取所...
【专利技术属性】
技术研发人员:南菊红,黄文俊,蒋克成,王志伟,夏璠,张阔,程宁,
申请(专利权)人:中国石油天然气集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。