一种基于数据血缘关系的字段级数据治理方法及系统技术方案

技术编号：45024654 阅读：1 留言：0更新日期：2025-04-18 17:05

本发明专利技术提供一种基于数据血缘关系的字段级数据治理方法及系统，涉及数据处理技术领域，方法包括：获取待处理数据中各个字段的上游数据和下游数据；将上游数据和下游数据作为样本数据构建数据血缘图谱；确定各个字段之间的上下游血缘关系；确定各个字段的基础可信度评分、时效性权重评分以及规则校验分；构建可信度模型；将样本数据输入至可信度模型进行训练；获取待处理数据的实时样本数据；将实时样本数据输入至训练后的可信度模型，输出最终可信度；根据最终可信度对待处理数据进行数据治理；将数据治理结果标记为样本数据，再次输入至可信度模型进行训练。本发明专利技术可以实现数据的精细化治理，提高数据质量和可用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，特别是指一种基于数据血缘关系的字段级数据治理方法及系统。

技术介绍

1、基于数据血缘关系的字段级数据治理方法是一种精细化的数据治理策略，通过分析数据在各个系统和字段之间的流转路径和依赖关系（即数据血缘关系），实现对每个字段的质量、可信度和时效性进行精确控制，这种方法确保数据在整个生命周期中的准确性与完整性，特别适用于处理复杂数据流转和多源数据环境，以提升数据的可靠性和可用性。

2、在当今数字化时代，各行业数据量呈指数级增长，数据来源广泛且数据处理流程错综复杂，数据作为企业决策、业务运营以及创新发展的关键资产，其质量的优劣直接影响到各类数据应用的成效，在数据处理过程中，字段作为数据的最小组成单元，字段级数据的准确性、可信度成为影响数据价值挖掘和决策制定的关键因素，因此，需要一种创新的字段级数据治理方法，以解决现有数据治理技术在微观层面的不足，确保数据的准确性、完整性、一致性与时效性。

3、然而，传统的数据治理方法往往侧重于数据的整体架构与宏观管理，对于字段级别的细致治理缺乏有效的手段与策略，无法精确追踪数据源和数据流动路径，在数据跨系统流动和转化的情况下，无法确保数据质量从源头到目标字段的一致性和可靠性，导致系统难以精准地在字段层面评估数据的可信度并进行有效治理。

技术实现思路

1、为了解决传统的数据治理方法往往侧重于数据的整体架构与宏观管理，对于字段级别的细致治理缺乏有效的手段与策略，无法精确追踪数据源和数据流动路径，在数据跨系统流动

2、本专利技术实施例提供的技术方案如下：

3、第一方面：

4、本专利技术实施例提供的一种基于数据血缘关系的字段级数据治理方法，包括：

5、s1：获取待处理数据中各个字段的上游数据和下游数据；

6、s2：将所述上游数据和所述下游数据作为样本数据，构建数据血缘图谱；

7、s3：根据所述数据血缘图谱，确定各个所述字段之间的上下游血缘关系；

8、s4：基于所述上下游血缘关系，确定各个所述字段的基础可信度评分、时效性权重评分以及规则校验分；

9、s5：根据所述基础可信度评分、所述时效性权重评分以及所述规则校验分，构建可信度模型；

10、s6：将所述样本数据输入至所述可信度模型进行训练；

11、s7：获取所述待处理数据的实时样本数据；

12、s8：将所述实时样本数据输入至训练后的可信度模型，输出最终可信度；

13、s9：根据所述最终可信度对所述待处理数据进行数据治理，并将数据治理结果存储至治理目标库；

14、s10：将所述数据治理结果标记为样本数据，返回步骤s6。

15、第二方面：

16、本专利技术实施例提供的一种基于数据血缘关系的字段级数据治理系统，包括：

17、处理器；

18、存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如第一方面所述的基于数据血缘关系的字段级数据治理方法。

19、第三方面：

20、本专利技术实施例提供的一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的基于数据血缘关系的字段级数据治理方法。

21、本专利技术实施例提供的技术方案带来的有益效果至少包括：

22、在本专利技术实施例中，通过获取和分析字段的上游数据和下游数据，构建数据血缘图谱，明确数据流转路径，为每个字段提供了明确的上下游依赖关系，使得数据治理可以从源头到目标字段进行精准控制，便于识别潜在的数据质量问题和数据之间的逻辑不一致性，通过建立基于基础可信度评分、时效性权重评分和规则校验分的可信度模型，可以对字段的可信度进行精准评估，实现数据的精细化治理，提高了数据质量和可用性。

本文档来自技高网...

【技术保护点】

1.一种基于数据血缘关系的字段级数据治理方法，其特征在于，包括：

2.根据权利要求1所述的基于数据血缘关系的字段级数据治理方法，其特征在于，所述上下游血缘关系具体为：所述上游数据和所述下游数据之间的流转路径和转换关系。

3.根据权利要求1所述的基于数据血缘关系的字段级数据治理方法，其特征在于，所述时效性权重评分的计算方式具体为：

4.根据权利要求1所述的基于数据血缘关系的字段级数据治理方法，其特征在于，所述可信度模型的隐藏层激活函数具体为：

5.根据权利要求1所述的基于数据血缘关系的字段级数据治理方法，其特征在于，所述S6具体为：

6.根据权利要求5所述的基于数据血缘关系的字段级数据治理方法，其特征在于，所述损失函数值的计算方式具体为：

7.根据权利要求1所述的基于数据血缘关系的字段级数据治理方法，其特征在于，在所述S6之后还包括：

8.根据权利要求1所述的基于数据血缘关系的字段级数据治理方法，其特征在于，所述最终可信度的计算方式具体为：

9.根据权利要求1所述的基于数据血缘关系的字段

10.一种基于数据血缘关系的字段级数据治理系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于数据血缘关系的字段级数据治理方法，其特征在于，包括：

3.根据权利要求1所述的基于数据血缘关系的字段级数据治理方法，其特征在于，所述时效性权重评分的计算方式具体为：

4.根据权利要求1所述的基于数据血缘关系的字段级数据治理方法，其特征在于，所述可信度模型的隐藏层激活函数具体为：

5.根据权利要求1所述的基于数据血缘关系的字段级数据治理方法，其特征...

【专利技术属性】
技术研发人员：白伟龙，董维浩，张达平，
申请(专利权)人：杭州瑞成信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人