一种数据管理方法、装置、设备及介质制造方法及图纸

技术编号:23787292 阅读:18 留言:0更新日期:2020-04-15 00:36
本发明专利技术关于一种数据管理方法、装置、设备及介质,用以提升数据血缘关系数据库中的数据质量。所述数据管理方法,包括:统计所述分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数;确定使用所述目标字段的字段值的任务列表,统计所述任务列表中的任务数量和最短任务时限;基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限,确定所述目标字段的质量评分;在确定所述目标字段的质量评分小于预设评分阈值时,将所述目标字段移出所述分布式数据血缘关系数据库。

A data management method, device, equipment and medium

【技术实现步骤摘要】
一种数据管理方法、装置、设备及介质
本专利技术涉及信息
,尤其涉及一种数据管理方法、装置、设备及介质。
技术介绍
随着大数据时代的到来,企业生产经营相关的数据规模日益膨胀,运用数据仓库管理业务数据也日趋流行,相关技术逐渐成熟复杂。数据血缘描述的是数据产生来源的路径,是指在完成某项数据调用业务的过程中,涉及到的数据进入不同的数据库系统或者文件等存储设备,于是这些存储下的数据之间就具有数据血缘关系。目前,企业数据血缘关系数据库中,存储有大量由萃取、转置、加载(extracttransformload,ETL)操作,衍生出大量数据表,如果管理缺失或维护不及时,都会造成数据关系不准确,难以提升数据血缘关系数据库中的数据质量或数据价值。
技术实现思路
本专利技术提供一种数据管理方法、装置、设备及介质,用以提升数据血缘关系数据库中的数据质量。第一方面,本专利技术实施例提供一种数据管理方法,应用于分布式数据血缘关系数据库,包括:统计分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数;确定使用目标字段的字段值的任务列表,统计任务列表中的任务数量和最短任务时限;基于历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限,确定目标字段的质量评分;在确定目标字段的质量评分小于预设评分阈值时,将目标字段移出分布式数据血缘关系数据库。在一种可能的实施方式中,本专利技术实施例提供的上述数据管理方法,还包括:分别为历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限设置权重系数;将历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限中每个与对应的权重系数的乘积之和作为目标字段的质量评分。在一种可能的实施方式中,本专利技术实施例提供的上述数据管理方法,还包括:提取分布式数据血缘关系数据库中任一目标数据血缘关系表中衍生数据表标识、历史萃取、转置、加载ETL操作、底层数据源标识、数据表字段操作记录,目标数据血缘关系表为数据表字段操作记录中含有目标字段的数据血缘关系表中的任一个;根据底层数据源标识对应的目标数据表、历史ETL操作,生成校验数据;逐条确定校验数据与衍生数据表标识对应的目标衍生数据表中目标字段的字段值的一致性;计算校验数据与目标衍生数据表中目标字段的字段值一致的数量与校验数据总数量的比值。在一种可能的实施方式中,本专利技术实施例提供的上述数据管理方法,还包括:在确定比值小于预设比例阈值时,删除目标衍生数据表。在一种可能的实施方式中,本专利技术实施例提供的上述数据管理方法,还包括:确定将删除的目标衍生数据表录入分布式数据血缘关系数据库的节点设备;确定由节点设备录入分布式数据血缘关系数据库的衍生数据表中,被删除的数量大于预设数量阈值时,拒绝节点设备向分布式数据血缘关系数据库录入数据表。在一种可能的实施方式中,本专利技术实施例提供的上述数据管理方法,还包括:在目标字段录入分布式数据血缘关系数据库中的时长超过预先设置的生命周期阈值、且目标字段在预设更新周期内的更新速度为零时,生成含有目标字段的数据生命周期管理报告。第二方面,本专利技术实施例提供一种数据管理装置,应用于分布式数据血缘关系数据库,包括:统计单元,用于统计分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数;第一确定单元,用于确定使用目标字段的字段值的任务列表,统计任务列表中的任务数量和最短任务时限;第一计算单元,用于基于历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限,确定目标字段的质量评分;处理单元,用于在确定目标字段的质量评分小于预设评分阈值时,将目标字段移出分布式数据血缘关系数据库。在一种可能的实施方式中,本专利技术实施例提供的上述数据管理装置中,第一计算单元,具体用于:分别为历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限设置权重系数;将历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限中每个与对应的权重系数的乘积之和作为目标字段的质量评分。在一种可能的实施方式中,本专利技术实施例提供的上述数据管理装置,还包括:提取单元,用于提取分布式数据血缘关系数据库中任一目标数据血缘关系表中衍生数据表标识、历史萃取、转置、加载ETL操作、底层数据源标识、数据表字段操作记录,目标数据血缘关系表为数据表字段操作记录中含有目标字段的数据血缘关系表中的任一个;校验单元,用于根据底层数据源标识对应的目标数据表、历史ETL操作,生成校验数据;第二确定单元,还用于逐条确定校验数据与衍生数据表标识对应的目标衍生数据表中目标字段的字段值的一致性;第二计算单元,还用于计算校验数据与目标衍生数据表中目标字段的字段值一致的数量与校验数据总数量的比值。在一种可能的实施方式中,本专利技术实施例提供的上述数据管理装置,还包括:删除单元,用于在确定比值小于预设比例阈值时,删除目标衍生数据表。在一种可能的实施方式中,本专利技术实施例提供的上述数据管理装置,还包括:第三确定单元,还用于确定将删除的目标衍生数据表录入分布式数据血缘关系数据库的节点设备;控制单元,用于确定由节点设备录入分布式数据血缘关系数据库的衍生数据表中,被删除的数量大于预设数量阈值时,拒绝节点设备向分布式数据血缘关系数据库录入数据表。在一种可能的实施方式中,本专利技术实施例提供的上述数据管理装置,还包括:报告单元,用于在目标字段录入分布式数据血缘关系数据库中的时长超过预先设置的生命周期阈值、且目标字段在预设更新周期内的更新速度为零时,生成含有目标字段的数据生命周期管理报告。第三方面,本专利技术实施例提供一种数据管理设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现第一方面中任一项的数据管理方法。第四方面,本专利技术实施例提供一种计算机可读存储介质,当存储介质中的指令由数据管理设备的执行器执行时,使得数据管理电子设备能够执行第一方面中任一项的数据管理方法。本专利技术的实施例提供的技术方案至少带来以下有益效果:统计分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数,确定使用目标字段的字段值的任务列表,统计任务列表中的任务数量和最短任务时限,基于历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限,确定目标字段的质量评分,在确定目标字段的质量评分小于预设评分阈值时,将目标字段移出分布式数据血缘关系数据库。从数据库和使用数据库的任务两方面,根据目标字段的历史调用次数、更新速度、预设时长内的调用次数、任务数量和最短任务时限,进行多维度数据质量评分,并从本文档来自技高网...

【技术保护点】
1.一种数据管理方法,应用于分布式数据血缘关系数据库,其特征在于,包括:/n统计所述分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数;/n确定使用所述目标字段的字段值的任务列表,统计所述任务列表中的任务数量和最短任务时限;/n基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限,确定所述目标字段的质量评分;/n在确定所述目标字段的质量评分小于预设评分阈值时,将所述目标字段移出所述分布式数据血缘关系数据库。/n

【技术特征摘要】
1.一种数据管理方法,应用于分布式数据血缘关系数据库,其特征在于,包括:
统计所述分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数;
确定使用所述目标字段的字段值的任务列表,统计所述任务列表中的任务数量和最短任务时限;
基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限,确定所述目标字段的质量评分;
在确定所述目标字段的质量评分小于预设评分阈值时,将所述目标字段移出所述分布式数据血缘关系数据库。


2.根据权利要求1所述的方法,其特征在于,所述基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限,确定所述目标字段的质量评分,包括:
分别为所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限设置权重系数;
将所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限中每个与对应的权重系数的乘积之和作为所述目标字段的质量评分。


3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提取所述分布式数据血缘关系数据库中任一目标数据血缘关系表中衍生数据表标识、历史萃取、转置、加载ETL操作、底层数据源标识、数据表字段操作记录,所述目标数据血缘关系表为所述数据表字段操作记录中含有目标字段的数据血缘关系表中的任一个;
根据所述底层数据源标识对应的目标数据表、所述历史ETL操作,生成校验数据;
逐条确定所述校验数据与所述衍生数据表标识对应的目标衍生数据表中所述目标字段的字段值的一致性;
计算所述校验数据与所述目标衍生数据表中所述目标字段的字段值一致的数量与所述校验数据总数量的比值。


4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在确定所述比值小于预设比例阈值时,删除所述目标衍生数据...

【专利技术属性】
技术研发人员:杨君
申请(专利权)人:泰康保险集团股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1