数据质量评估方法和系统技术方案

技术编号:32345514 阅读:19 留言:0更新日期:2022-02-20 02:00
本公开公开了一种数据质量评估方法和系统,涉及信息技术领域。该方法包括:基于待评估数据的数据质量评估模型,对待评估数据进行处理,得到待评估数据的基础性统计指标,其中,待评估数据的数据质量评估模型中的指标信息,根据待评估数据的评估要求在数据质量通用指标模型中选择;根据待评估数据的基础性统计指标,按照统计颗粒度,计算得到相应的评估维度指标和优良率指标;根据评估维度指标和优良率指标,对待评估数据的数据质量进行评估。本公开针对不同的评估数据,无需重新开发定制数据质量评估模型,能够满足不同数据的评估需求。能够满足不同数据的评估需求。能够满足不同数据的评估需求。

【技术实现步骤摘要】
数据质量评估方法和系统


[0001]本公开涉及信息
,尤其涉及一种数据质量评估方法和系统。

技术介绍

[0002]相关技术中,对数据进行质量评估的模型,是为传统关系型数据库而设计的。其实现方式是通过把SQL指令嵌入RUBY脚本,通过调度任务,定时查询数据库得到相关数据的质量指标。
[0003]但相关技术中,所针对的评估对象固定,缺乏可扩展性,随着业务发展,新增数据的质量评估,需要重新定制开发,浪费投资。

技术实现思路

[0004]本公开要解决的一个技术问题是,提供一种数据质量评估方法和系统,能够满足不同数据的评估需求。
[0005]根据本公开一方面,提出一种数据质量评估方法,包括:基于待评估数据的数据质量评估模型,对待评估数据进行处理,得到待评估数据的基础性统计指标,其中,待评估数据的数据质量评估模型中的指标信息,根据待评估数据的评估要求在数据质量通用指标模型中选择;根据待评估数据的基础性统计指标,按照统计颗粒度,计算得到相应的评估维度指标和优良率指标;根据评估维度指标和优良率指标,对待评估数据的数据质量进行评估。
[0006]在一些实施例中,判断待评估数据的评估维度指标和优良率指标是否超过相应阈值;若评估维度指标或优良率指标超过相应阈值,则进行告警。
[0007]在一些实施例中,数据质量通用指标模型中包括针对不同数据源的基础性统计指标、各个评估维度指标和优良率指标,以及数据集的总体优良率指标,其中,数据集包括多个数据源。
[0008]在一些实施例中,每个数据源的各个评估维度指标,根据数据源的基础性统计指标确定;每个数据源的优良率指标,根据数据源的各个评估维度指标确定;数据集的总体优良率指标,根据各个数据源的优良率指标确定。
[0009]在一些实施例中,数据质量通用指标模型中每个指标具有唯一编码,其中,每个指标的编码包括一级指标名称对应的标识和二级指标名称对应的数字编号,二级指标名称为一级指标名称的子类。
[0010]在一些实施例中,数据质量通用指标模型中的各个评估维度指标和优良率指标,以及数据集的总体优良率指标,指定每个指标的计算公式和相关计算指标。
[0011]在一些实施例中,数据质量评估模型中每个指标具有唯一编码,其中,每个指标的编码包括待评估数据对应的数据项、一级指标名称对应的标识、二级指标名称对应的数字编号和颗粒度标志。
[0012]在一些实施例中,数据质量评估模型中每个指标的编码还包括待评估数据的数据类型和自定义维度名称中的一项或多项。
[0013]在一些实施例中,对待评估数据的数据质量进行评估包括:按照不同的颗粒度对待评估数据的数据质量进行评估。
[0014]在一些实施例中,评估维度指标包括完整性指标、及时性指标、一致性指标、准确性指标和逻辑性指标中的一项或多项。
[0015]根据本公开的另一方面,还提出一种数据质量评估系统,包括:数据质量评估模型管理模块,被配置为根据数据源的评估要求,在数据质量通用指标模型中选择指标信息,构建数据质量评估模型;数据处理模块,被配置为基于待评估数据的数据质量评估模型,对待评估数据进行处理,得到待评估数据的基础性统计指标;数据质量评估管理模块,被配置为根据待评估数据的基础性统计指标,按照统计颗粒度,计算得到相应的评估维度指标和优良率指标;以及统计分析和质量评估模块,被配置为根据评估维度指标和优良率指标,对待评估数据的数据质量进行评估。
[0016]在一些实施例中,监控告警模块,被配置为判断待评估数据的评估维度指标和优良率指标是否超过相应阈值;若评估维度指标或优良率指标超过相应阈值,则进行告警。
[0017]在一些实施例中,通用指标模型管理模块,被配置为对数据质量通用指标模型中的不同数据源的基础性统计指标、各个评估维度指标和优良率指标,以及数据集的总体优良率指标进行管理,其中,数据集包括多个数据源。
[0018]根据本公开的另一方面,还提出一种数据质量评估系统,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上述的数据质量评估方法。
[0019]根据本公开的另一方面,还提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述的数据质量评估方法。
[0020]本公开实施例中,根据评估数据的不同,选择具有不同评估指标的数据质量评估模型,并对待评估数据进行处理,得到基础性统计指标,然后根据基础性统计指标按照统计颗粒度,计算得到相应的评估维度指标和优良率指标,进而对待评估数据进行质量评估。该实施例中,针对不同的评估数据,无需重新开发定制数据质量评估模型,能够满足不同数据的评估需求。
[0021]通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
[0022]构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
[0023]参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
[0024]图1为本公开的数据质量评估方法的一些实施例的流程示意图。
[0025]图2为本公开的一些实施例中数据质量通用指标模型中指标架构示意图。
[0026]图3为本公开的数据质量评估方法的一些实施例的流程示意图。
[0027]图4为本公开的数据质量评估方法的一些实施例的流程示意图。
[0028]图5为本公开的数据质量评估系统的一些实施例的结构示意图。
[0029]图6为本公开的数据质量评估系统的另一些实施例的结构示意图。
[0030]图7为本公开的数据质量评估系统的另一些实施例的结构示意图。
具体实施方式
[0031]现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
[0032]同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0033]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
[0034]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
[0035]在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
[0036]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0037]为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
[0038]传统的关系数据库不能满足云计算、大数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据质量评估方法,包括:基于待评估数据的数据质量评估模型,对所述待评估数据进行处理,得到所述待评估数据的基础性统计指标,其中,所述待评估数据的数据质量评估模型中的指标信息,根据所述待评估数据的评估要求在数据质量通用指标模型中选择;根据所述待评估数据的基础性统计指标,按照统计颗粒度,计算得到相应的评估维度指标和优良率指标;以及根据所述评估维度指标和所述优良率指标,对所述待评估数据的数据质量进行评估。2.根据权利要求1所述的数据质量评估方法,还包括:判断所述待评估数据的评估维度指标和所述优良率指标是否超过相应阈值;以及若所述评估维度指标或所述优良率指标超过相应阈值,则进行告警。3.根据权利要求1所述的数据质量评估方法,其中,所述数据质量通用指标模型中包括针对不同数据源的基础性统计指标、各个评估维度指标和优良率指标,以及数据集的总体优良率指标,其中,所述数据集包括多个数据源。4.根据权利要求3所述的数据质量评估方法,其中,每个所述数据源的各个评估维度指标,根据所述数据源的基础性统计指标确定;每个所述数据源的优良率指标,根据所述数据源的各个评估维度指标确定;以及所述数据集的总体优良率指标,根据各个数据源的优良率指标确定。5.根据权利要求3所述的数据质量评估方法,其中,所述数据质量通用指标模型中每个指标具有唯一编码,其中,每个指标的编码包括一级指标名称对应的标识和二级指标名称对应的数字编号,所述二级指标名称为所述一级指标名称的子类。6.根据权利要求3所述的数据质量评估方法,其中,所述数据质量通用指标模型中的各个评估维度指标和优良率指标,以及数据集的总体优良率指标,指定每个指标的计算公式和相关计算指标。7.根据权利要求3所述的数据质量评估方法,其中,所述数据质量评估模型中每个指标具有唯一编码,其中,每个指标的编码包括待评估数据对应的数据项、一级指标名称对应的标识、二级指标名称对应的数字编号和颗粒度标志。8.根据权利要求7所述的数据质量评估方法,其中...

【专利技术属性】
技术研发人员:谭志远王谦宫云平许盛宏
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1