应用于数据溯源的血缘关系构造方法、存储介质及设备技术

技术编号：32358604 阅读：33 留言：0更新日期：2022-02-20 03:22

本发明专利技术公开一种应用于数据溯源的血缘关系构造方法、存储介质及设备，通过在数据库、数据表、数据字段级别的元数据血缘关系的基础上，增加构造数据记录级的血缘关系。不论数据库表是否存在主键，通过提取库表、记录的特征值，进行数据记录级的血缘关系的构造，从而可以同时适应有主键以及无主键的库表记录级血缘关系的应用场景，快速定位问题数据。在数据治理过程中，通过数据记录级的血缘关系能快速的直接定位到产生数据质量问题的记录，对数据质量问题的溯源工作，以及数据质量问题的解决效率都有很大程度的提高。效率都有很大程度的提高。效率都有很大程度的提高。

全部详细技术资料下载

【技术实现步骤摘要】
应用于数据溯源的血缘关系构造方法、存储介质及设备

[0001]本专利技术属于数据处理
，具体涉及一种应用于数据溯源的血缘关系构造方法、存储介质及设备。

技术介绍

[0002]在数据治理领域中关于血缘分析是十分重要的组成部分。在当前大数据时代，数据爆发性增长，海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息，通过联姻融合、转换变换、流转流通，又生成新的数据，汇聚成数据的海洋。数据的产生、加工融合、流转流通，到最终消亡的过程，数据之间自然会形成一种关系。借鉴人类社会中的血缘关系，我们可以将数据之间的这种关系称之为数据的血缘关系。数据血缘关系主要应用在数据治理过程中满足数据质量的场景：在数据的处理过程中，从数据源头到最终的数据生成，每个环节都可能导致出现数据质量的问题。可能是数据源本身的数据质量不高，在后续的处理环节中没有进行数据质量的检测和处理，最终流转到目标表后数据质量也是不高的。也有可能在某个环节的数据处理中，对数据进行了一些不恰当的处理，导致后续环节的数据质量变得糟糕。数据血缘关系可以帮助我们去溯源数据，定位数据问题产生的位置，从而解决数据质量的问题。
[0003]数据血缘关系需要在数据处理过程中，进行元数据间的关系映射，从而构造出数据的血缘关系，也可以称之为元数据的血缘关系，通常情况下元数据的数据血缘关系有三个层级：数据库级、数据表级、数据字段级。虽然元数据的血缘关系可以满足一部分数据溯源的场景，辅助定位数据质量问题，但是因为元数据的血缘关系最细的粒度只到字段级别，而数据质量问题往往是发生在...

【技术保护点】

【技术特征摘要】
1.一种应用于数据溯源的血缘关系构造方法，其特征在于，包括：S1、构造元数据血缘关系，包括构建某数据库中库表间的映射关系及字段间的映射关系：S2、选定所述数据库中源表数据记录特征因子；S3、生成源表数据记录特征值；S4、融合源表数据记录特征值并记录至目标表记录中；S5、基于所述数据记录特征值构造出数据记录级血缘关系。2.根据权利要求1所述的应用于数据溯源的血缘关系构造方法，其特征在于，步骤S1中，通过构建一个库表血缘关系维表记录所述库表间的映射关系；通过构建一个字段血缘关系维表记录所述字段间的映射关系。3.根据权利要求2所述的应用于数据溯源的血缘关系构造方法，其特征在于，所述库表血缘关系维表包括源表名和目标表名信息。4.根据权利要求3所述的应用于数据溯源的血缘关系构造方法，其特征在于，所述字段血缘关系维表包括源表名、源表字段名、目标表名和目标字段名信息。5.根据权利要求3所述的应用于数据溯源的血缘关系构造方法，其特征在于，所述数据记录特征因子为源表增设的...

【专利技术属性】
技术研发人员：龚波，苏学武，水军，杨刚，苏文辉，温杰峰，
申请(专利权)人：珠海市新德汇信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人