一种数据血缘分析方法、终端设备及存储介质技术

技术编号：32965605 阅读：10 留言：0更新日期：2022-04-09 11:21

本发明专利技术涉及一种数据血缘分析方法、终端设备及存储介质，该方法中包括：S1：提取数据的流转流程中经过的所有数据表，并基于数据表级别、数据项级别和数据行级别三个分析维度分别设定在各数据表中的唯一标识；S2：根据数据的流转流程中各数据的上下游唯一标识，构建表征数据流转流程的映射表；S3：根据待分析数据对应的分析维度，从映射表中查找待分析数据在该分析维度下对应的上下游唯一标识，基于提取的上下游唯一标识构建表征待分析数据在该分析维度下的数据流转流程的有向图。本发明专利技术实现了数据表、数据项、数据行三种维度的数据溯源，细化了数据溯源的颗粒度，能够追踪数据处理流程，为快速定位问题节点、查询变更数据点提供便利。便利。便利。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据血缘分析方法、终端设备及存储介质

[0001]本专利技术涉及大数据分析领域，尤其涉及一种数据血缘分析方法、终端设备及存储介质。

技术介绍

[0002]随着大数据的发展，汇聚的数据资源总量日益增大。不同来源的数据，数据质量参差不齐，对分析处理的结果的影响也不尽相同。当数据发生异常时，需要追踪到异常发生的原因，把风险控制在适当的水平。而数据的血缘关系，体现了数据的来龙去脉，能够帮助我们追踪数据的来源，追踪数据处理过程。因此，如何快速有效地实现数据血缘分析，显得尤为重要。
[0003]传统的数据血缘分析都是独立考虑表级别、数据项级别、数据行级别三种维度进行分析，并没有将三个维度结合起来实现，无法满足跨级别数据血缘分析的要求，对数据溯源具有一定的局限性。

技术实现思路

[0004]为了解决上述问题，本专利技术提出了一种数据血缘分析方法、终端设备及存储介质。
[0005]具体方案如下：
[0006]一种数据血缘分析方法，包括以下步骤：
[0007]S1：提取数据的流转流程中经过的所有数据表，并基于数据表级别、数据项级别和数据行级别三个分析维度分别设定在各数据表中的唯一标识；
[0008]S2：根据数据的流转流程中各数据的上下游唯一标识，构建表征数据流转流程的映射表；
[0009]S3：根据待分析数据对应的分析维度，从映射表中查找待分析数据在该分析维度下对应的上下游唯一标识，基于提取的上下游唯一标识构建表征待分析数据在该分析维度下的数据流转流程的有向图。r/>[0010]进一步的，数据的流转流程中经过的数据表依次为：来源表、A资源表、B资源表和C资源表；通过对来源表进行数据探查后，根据得到的探查日志生成A资源表；对A资源表进行数据清洗后生成B资源表；将B资源表中的数据按照不同应用场景分类后，生成C资源表。
[0011]进一步的，探查日志根据数据探查得到的数据的属性、格式和存储位置生成。
[0012]进一步的，数据清洗包括对数据表中的内容进行格式统一。
[0013]进一步的，数据表级别的唯一标识为数据项集编号，数据项级别的唯一标识为数据项编号，数据行级别的唯一标识为溯源标识。
[0014]进一步的，溯源标识的内容包括该数据行对应数据项的数据项编号和上游数据表中对应数据行中全部内容的加密编码。
[0015]进一步的，加密编码采用MD5加密编码。
[0016]进一步的，当分析维度为数据表级别时，根据待分析数据对应的数据表级别的唯
一标识，从映射表中查找其上游数据和下游数据对应的数据表级别的唯一标识，基于查找到的唯一标识构建有向图；数据表级别对应的有向图的节点内容中包括该节点对应数据的数据表级别的唯一标识。
[0017]进一步的，当分析维度为数据项级别时，根据待分析数据对应的数据项级别的唯一标识，从映射表中查找其上游数据和下游数据对应的数据表级别和数据项级别的唯一标识，基于查找到的唯一标识构建有向图；数据项级别对应的有向图的节点内容中包括该节点对应数据的数据表级别和数据项级别的唯一标识。
[0018]进一步的，当分析维度为数据行级别时，根据待分析数据对应的数据行级别的唯一标识，从映射表中查找其上游数据和下游数据对应的数据表级别和数据行级别的唯一标识，基于查找到的唯一标识构建有向图；数据行级别对应的有向图的节点内容中包括该节点对应数据的数据表级别和数据行级别的唯一标识。
[0019]进一步的，通过在有向图的各节点之间有向线段上添加标识来表征数据的处理方式。
[0020]一种数据血缘分析终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。
[0021]一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。
[0022]本专利技术采用如上技术方案，实现了数据表、数据项、数据行三种维度的数据溯源，细化了数据溯源的颗粒度，能够追踪数据处理流程，为快速定位问题节点、查询变更数据点提供便利。基于不同数据，可在各类数据系统中为数据分析体系提供有效支撑。
附图说明
[0023]图1所示为本专利技术实施例一的流程图。
[0024]图2所示为该实施例中数据表级别血缘示例图。
[0025]图3所示为该实施例中数据项级别血缘示例图。
[0026]图4所示为该实施例中数据行级别血缘示例图。
具体实施方式
[0027]为进一步说明各实施例，本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。
[0028]现结合附图和具体实施方式对本专利技术进一步说明。
[0029]实施例一：
[0030]本专利技术实施例提供了一种数据血缘分析方法，如图1所示，所述方法包括以下步骤：
[0031]S1：提取数据的流转流程中经过的所有数据表，并基于数据表级别、数据项级别和数据行级别三个分析维度分别设定在各数据表中的唯一标识。
[0032]该实施例中数据的流转流程中根据数据的处理方式依次经过4个数据表，分别为
来源表、A资源表、B资源表和C资源表。其中：
[0033]来源表为需要接入的来源数据，通过对来源表进行数据探查后，根据得到的探查日志生成A资源表。该实施例中数据探查包括对数据的属性、格式和存储位置的探查，通过探查得到的内容生成对应的探查日志后汇聚为A资源表。此阶段可以最大程度地保留数据的原始性。
[0034]对A资源表进行数据清洗后生成B资源表。该实施例中数据清洗包括对数据表中的内容进行格式统一，如将不同标准的业务数据清洗转换为统一标准的数据，提升数据的一致性，清洗后的数据存储至B资源表。
[0035]将B资源表中的数据按照不同应用场景分类后，生成C资源表。由于应用场景可能为多个，因此B资源表可能对应生成多个C资源表。
[0036]该实施例中设定三个分析维度下的唯一标识分别为：数据表级别的唯一标识为数据项集编号，数据项级别的唯一标识为数据项编号，数据行级别的唯一标识为溯源标识，其中溯源标识的内容包括该数据行对应数据项的数据项编号和上游数据表中对应数据行中全部内容的加密编码。该实施例中加密编码采用MD5加密编码，在其他实施例中也可以采用其他加密编码，在此不做限定。
[0037]S2：根据数据的流转流程中各数据的上下游唯一标识，构建表征数据流转流程的映射表。
[0038]上下游唯一标识即上游数据的唯一标识和下游数据的唯一标识。映射表用于查找每个数据的所有上游和下游数据的唯一标识，为后续有向图的绘制做准备。
[0039]S3：根据待分析数据对应的分析维度，从映射表中查找待分析数据在该分析维度下对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据血缘分析方法，其特征在于，包括以下步骤：S1：提取数据的流转流程中经过的所有数据表，并基于数据表级别、数据项级别和数据行级别三个分析维度分别设定在各数据表中的唯一标识；S2：根据数据的流转流程中各数据的上下游唯一标识，构建表征数据流转流程的映射表；S3：根据待分析数据对应的分析维度，从映射表中查找待分析数据在该分析维度下对应的上下游唯一标识，基于提取的上下游唯一标识构建表征待分析数据在该分析维度下的数据流转流程的有向图。2.根据权利要求1所述的数据血缘分析方法，其特征在于：数据的流转流程中经过的数据表依次为：来源表、A资源表、B资源表和C资源表；通过对来源表进行数据探查后，根据得到的探查日志生成A资源表；对A资源表进行数据清洗后生成B资源表；将B资源表中的数据按照不同应用场景分类后，生成C资源表。3.根据权利要求2所述的数据血缘分析方法，其特征在于：探查日志根据数据探查得到的数据的属性、格式和存储位置生成。4.根据权利要求2所述的数据血缘分析方法，其特征在于：数据清洗包括对数据表中的内容进行格式统一。5.根据权利要求1所述的数据血缘分析方法，其特征在于：数据表级别的唯一标识为数据项集编号，数据项级别的唯一标识为数据项编号，数据行级别的唯一标识为溯源标识。6.根据权利要求5所述的数据血缘分析方法，其特征在于：溯源标识的内容包括该数据行对应数据项的数据项编号和上游数据表中对应数据行中全部内容的加密编码。7.根据权利要求6所述的数据血缘分析方法，其特征在于：加密编码采用MD5加密编码。8.根据权利要求1所述的数据血缘分析方法，其特征在于：...

【专利技术属性】
技术研发人员：蔡晓梅，黄荣昌，吴文，吴鸿伟，鄢小征，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人