一种数据管理方法、装置、设备及介质制造方法及图纸

技术编号：23787292 阅读：18 留言：0更新日期：2020-04-15 00:36

本发明专利技术关于一种数据管理方法、装置、设备及介质，用以提升数据血缘关系数据库中的数据质量。所述数据管理方法，包括：统计所述分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数；确定使用所述目标字段的字段值的任务列表，统计所述任务列表中的任务数量和最短任务时限；基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限，确定所述目标字段的质量评分；在确定所述目标字段的质量评分小于预设评分阈值时，将所述目标字段移出所述分布式数据血缘关系数据库。

A data management method, device, equipment and medium

全部详细技术资料下载

【技术实现步骤摘要】
一种数据管理方法、装置、设备及介质
本专利技术涉及信息
，尤其涉及一种数据管理方法、装置、设备及介质。
技术介绍
随着大数据时代的到来，企业生产经营相关的数据规模日益膨胀，运用数据仓库管理业务数据也日趋流行，相关技术逐渐成熟复杂。数据血缘描述的是数据产生来源的路径，是指在完成某项数据调用业务的过程中，涉及到的数据进入不同的数据库系统或者文件等存储设备，于是这些存储下的数据之间就具有数据血缘关系。目前，企业数据血缘关系数据库中，存储有大量由萃取、转置、加载(extracttransformload，ETL)操作，衍生出大量数据表，如果管理缺失或维护不及时，都会造成数据关系不准确，难以提升数据血缘关系数据库中的数据质量或数据价值。
技术实现思路
本专利技术提供一种数据管理方法、装置、设备及介质，用以提升数据血缘关系数据库中的数据质量。第一方面，本专利技术实施例提供一种数据管理方法，应用于分布式数据血缘关系数据库，包括：统计分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数；确定使用目标字段的字段值的任务列表，统计任务列表中的任务数量和最短任务时限；基于历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限，确定目标字段的质量评分；在确定目标字段的质量评分小于预设评分阈值时，将目标字段移出分布式数据血缘关系数据库。在一种可能的实施方式中，本专利技术实施例提供的上述数据管理方法，还包括...

【技术保护点】
1.一种数据管理方法，应用于分布式数据血缘关系数据库，其特征在于，包括：/n统计所述分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数；/n确定使用所述目标字段的字段值的任务列表，统计所述任务列表中的任务数量和最短任务时限；/n基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限，确定所述目标字段的质量评分；/n在确定所述目标字段的质量评分小于预设评分阈值时，将所述目标字段移出所述分布式数据血缘关系数据库。/n

【技术特征摘要】
1.一种数据管理方法，应用于分布式数据血缘关系数据库，其特征在于，包括：
统计所述分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数；
确定使用所述目标字段的字段值的任务列表，统计所述任务列表中的任务数量和最短任务时限；
基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限，确定所述目标字段的质量评分；
在确定所述目标字段的质量评分小于预设评分阈值时，将所述目标字段移出所述分布式数据血缘关系数据库。

2.根据权利要求1所述的方法，其特征在于，所述基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限，确定所述目标字段的质量评分，包括：
分别为所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限设置权重系数；
将所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限中每个与对应的权重系数的乘积之和作为所述目标字段的质量评分。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：
提取所述分布式数据血缘关系数据库中任一目标数据血缘关系表中衍生数据表标识、历史萃取、转置、加载ETL操作、底层数据源标识、数据表字段操作记录，所述目标数据血缘关系表为所述数据表字段操作记录中含有目标字段的数据血缘关系表中的任一个；
根据所述底层数据源标识对应的目标数据表、所述历史ETL操作，生成校验数据；
逐条确定所述校验数据与所述衍生数据表标识对应的目标衍生数据表中所述目标字段的字段值的一致性；
计算所述校验数据与所述目标衍生数据表中所述目标字段的字段值一致的数量与所述校验数据总数量的比值。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：
在确定所述比值小于预设比例阈值时，删除所述目标衍生数据...

【专利技术属性】
技术研发人员：杨君，
申请(专利权)人：泰康保险集团股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人