应用于数据溯源的血缘关系构造方法、存储介质及设备技术

技术编号:32358604 阅读:25 留言:0更新日期:2022-02-20 03:22
本发明专利技术公开一种应用于数据溯源的血缘关系构造方法、存储介质及设备,通过在数据库、数据表、数据字段级别的元数据血缘关系的基础上,增加构造数据记录级的血缘关系。不论数据库表是否存在主键,通过提取库表、记录的特征值,进行数据记录级的血缘关系的构造,从而可以同时适应有主键以及无主键的库表记录级血缘关系的应用场景,快速定位问题数据。在数据治理过程中,通过数据记录级的血缘关系能快速的直接定位到产生数据质量问题的记录,对数据质量问题的溯源工作,以及数据质量问题的解决效率都有很大程度的提高。效率都有很大程度的提高。效率都有很大程度的提高。

【技术实现步骤摘要】
应用于数据溯源的血缘关系构造方法、存储介质及设备


[0001]本专利技术属于数据处理
,具体涉及一种应用于数据溯源的血缘关系构造方法、存储介质及设备。

技术介绍

[0002]在数据治理领域中关于血缘分析是十分重要的组成部分。在当前大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。数据的产生、加工融合、流转流通,到最终消亡的过程,数据之间自然会形成一种关系。借鉴人类社会中的血缘关系,我们可以将数据之间的这种关系称之为数据的血缘关系。数据血缘关系主要应用在数据治理过程中满足数据质量的场景:在数据的处理过程中,从数据源头到最终的数据生成,每个环节都可能导致出现数据质量的问题。可能是数据源本身的数据质量不高,在后续的处理环节中没有进行数据质量的检测和处理,最终流转到目标表后数据质量也是不高的。也有可能在某个环节的数据处理中,对数据进行了一些不恰当的处理,导致后续环节的数据质量变得糟糕。数据血缘关系可以帮助我们去溯源数据,定位数据问题产生的位置,从而解决数据质量的问题。
[0003]数据血缘关系需要在数据处理过程中,进行元数据间的关系映射,从而构造出数据的血缘关系,也可以称之为元数据的血缘关系,通常情况下元数据的数据血缘关系有三个层级:数据库级、数据表级、数据字段级。虽然元数据的血缘关系可以满足一部分数据溯源的场景,辅助定位数据质量问题,但是因为元数据的血缘关系最细的粒度只到字段级别,而数据质量问题往往是发生在数据记录环节,对于数据记录级别的溯源很难做到快速定位。
[0004]现有的一种快速定位数据问题的方式是,如果存在血缘关系的数据表都存在相同的主键,则可以利用相同主键进行溯源定位。但在数据治理场景中,往往存在缺少主键或不适宜设置主键的场景,无法适应多变的数据流转处理过程;而且,无主键的数据记录级血缘关系的构造,也是辅助解决数据治理过程中数据质量问题的重要手段。

技术实现思路

[0005]本专利技术的目的是提供一种应用于数据溯源的血缘关系构造方法,不论数据表间是否存在相同的主键,都可以更精准地进行溯源定位。本专利技术由以下技术方案实现:
[0006]一种应用于数据溯源的血缘关系构造方法,包括:
[0007]S1、构造元数据血缘关系,包括构建某数据库中库表间的映射关系及字段间的映射关系:
[0008]S2、选定所述数据库中源表数据记录特征因子;
[0009]S3、生成源表数据记录特征值;
[0010]S4、融合源表数据记录特征值并记录至目标表记录中;
[0011]S5、基于所述数据记录特征值构造出数据记录级血缘关系。
[0012]具体地,步骤S1中,通过构建一个库表血缘关系维表记录所述库表间的映射关系;通过构建一个字段血缘关系维表记录所述字段间的映射关系。
[0013]具体地,所述库表血缘关系维表包括源表名和目标表名信息。
[0014]具体地,所述字段血缘关系维表包括源表名、源表字段名、目标表名和目标字段名信息。
[0015]具体地,所述数据记录特征因子为源表增设的唯一一个记录标识字段。
[0016]具体地,所述数据记录特征因子为源表记录的行号。
[0017]具体地,步骤S3具体为:在源表插入记录的同时,自动将生成所述数据记录特征值并保存到源表记录中。
[0018]具体地,步骤S4具体为:当所述目标表通过一个或多个所述源表融合而成时,进行所述源表数据记录特征值的融合并记录至目标表记录中。
[0019]本专利技术还提供一种存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的应用于数据溯源的血缘关系构造方法。
[0020]本专利技术还提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上文所述的应用于数据溯源的血缘关系构造方法。
[0021]本专利技术的有益效果在于:通过在数据库、数据表、数据字段级别的元数据血缘关系的基础上,增加构造数据记录级的血缘关系,构建更细粒度的无主键记录级血缘关系,可以弥补字段级别的元数据血缘关系的不足,不论数据库表是否存在主键,通过提取库表、记录的特征值,进行数据记录级的血缘关系的构造,从而可以同时适应有主键以及无主键的库表记录级血缘关系的应用场景,快速定位问题数据。在数据治理过程中,通过数据记录级的血缘关系能快速的直接定位到产生数据质量问题的记录,对数据质量问题的溯源工作,以及数据质量问题的解决的效率都有很大程度的提高。
附图说明
[0022]为了更清楚地说明本专利技术实施例,下面将对实施例或现有技术中描述中需要使用的附图做简单说明。
[0023]图1是本专利技术提供的应用于数据溯源的血缘关系构造方法的流程示意图。
[0024]图2是本专利技术中步骤S1的流程示意图。
[0025]图3是本专利技术中步骤S3的流程示意图。
[0026]图4为通过本专利技术构造表A与表B的记录及血缘关系的流程图。
具体实施方式
[0027]为了使本专利技术的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本专利技术进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。此外,在以下说明中,省略了对公知技术的描述,以避免不必要地混淆本专利技术的概念。
[0028]本专利技术涉及应用于数据溯源的血缘关系构造方法,主要应用于库表明细数据的溯
源场景中。在数据治理过程中,通过对无主键数据库表记录进行血缘关系的自动化构造,满足每一条记录的溯源需求,辅助数据治理人员快速追踪定位数据流转过程中问题数据产生位置,从而进一步消除问题数据。同时该方法也适用于对有主键数据库表记录的血缘关系构造。下面进行具体说明:
[0029]如图1所示,本专利技术提供了应用于数据溯源的血缘关系构造方法,主要涉及五个步骤:
[0030]S1、构造元数据血缘关系,包括构建某数据库中库表间的映射关系及字段间的映射关系:
[0031]S2、选定所述数据库中源表数据记录特征因子;
[0032]S3、生成源表数据记录特征值;
[0033]S4、融合源表数据记录特征值并记录至目标表记录中;
[0034]S5、基于所述数据记录特征值构造出数据记录级血缘关系。
[0035]步骤S1中,元数据血缘关系包括数据库级、库表级和字段级三个层级;在通常数据治理、数据仓库等场景中,需要进行数据处理的库表一般都在同一个数据库中,如果不在同一个数据库中也会进行针对性的数据汇聚,抽取到相同数据库中,以提高数据处理的效率,因此数据库级的血缘关系一般不需要进行特别的构造。结合图2所示,对于数据库中库表间的映射关系及字段间的映射关系,具体包含以下步骤:
[0036](1)构建“库表血缘关系维表”,用于记录库表的映射关系,形成血缘关系;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于数据溯源的血缘关系构造方法,其特征在于,包括:S1、构造元数据血缘关系,包括构建某数据库中库表间的映射关系及字段间的映射关系:S2、选定所述数据库中源表数据记录特征因子;S3、生成源表数据记录特征值;S4、融合源表数据记录特征值并记录至目标表记录中;S5、基于所述数据记录特征值构造出数据记录级血缘关系。2.根据权利要求1所述的应用于数据溯源的血缘关系构造方法,其特征在于,步骤S1中,通过构建一个库表血缘关系维表记录所述库表间的映射关系;通过构建一个字段血缘关系维表记录所述字段间的映射关系。3.根据权利要求2所述的应用于数据溯源的血缘关系构造方法,其特征在于,所述库表血缘关系维表包括源表名和目标表名信息。4.根据权利要求3所述的应用于数据溯源的血缘关系构造方法,其特征在于,所述字段血缘关系维表包括源表名、源表字段名、目标表名和目标字段名信息。5.根据权利要求3所述的应用于数据溯源的血缘关系构造方法,其特征在于,所述数据记录特征因子为源表增设的...

【专利技术属性】
技术研发人员:龚波苏学武水军杨刚苏文辉温杰峰
申请(专利权)人:珠海市新德汇信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1