一种数据质量检查方法和装置制造方法及图纸

技术编号:27568712 阅读:17 留言:0更新日期:2021-03-09 22:14
本发明专利技术提供一种数据质量检查方法和装置,该方法包括:在第一数据接入到数据仓库的接入期间,实时对接入到所述数据仓库的所述第一数据进行数据质量检查;若检查到所述第一数据有质量问题,至少中断所述第一数据接入所述数据仓库;如此,能够在数据写入数据仓库之前发现出有质量问题的数据,从而减少因为有质量问题的数据写入数据仓库占用的存储资源,及写入和擦除有质量问题的数据所消耗的计算资源,具有节省了存储资源和计算资源的特点。节省了存储资源和计算资源的特点。节省了存储资源和计算资源的特点。

【技术实现步骤摘要】
一种数据质量检查方法和装置


[0001]本专利技术涉及数据
,尤其涉及一种数据质量检查方法和装置。

技术介绍

[0002]数据质量检查是对产生的数据进行是否符合预定质量规则的检查,通过数据质量检查过关的数据,才能确保后续数据的使用和扩展性,各种基于该数据的服务能够确保服务质量。
[0003]目前数据质量检查方法可包括:数据存储到数据库之后的离线数据质量检查,也包括在数据的实时检查。但是无论哪一种数据检查都具有,接入到数据库中有质量问题的数据多,导致存储资源的浪费;同时因为不能及时的或提前发现数据的质量问题,后续在对数据进行计算时才发现数据有质量问题,会导致计算资源的浪费。

技术实现思路

[0004]本专利技术的一个目的是提供一种数据质量检查方法和装置,以解决现有的数据质量检查方法中的存储资源及计算资源的浪费问题。
[0005]根据本专利技术的第一方面,提供一种数据质量检查方法,包括:
[0006]在第一数据接入到数据仓库的接入期间,实时对接入到所述数据仓库的所述第一数据进行数据质量检查;
[0007]若检查到所述第一数据有质量问题,至少中断所述第一数据接入所述数据仓库。
[0008]可选地,所述方法还包括:
[0009]获取所述第一数据的数据质量规则;
[0010]将所述数据质量规则通过规则翻译成质量检查的实时计算算子;
[0011]所述在第一数据接入到数据仓库的接入期间,实时对接入到所述数据仓库的所述第一数据进行数据质量检查,包括
[0012]利用所述实时计算算子在所述接入期间实时对接入到所述数据仓库的所述第一数据的质量指标进行计算。
[0013]可选地,所述若检查到所述第一数据有质量问题,至少中断所述第一数据接入所述数据仓库,包括:
[0014]若所述质量指标达不到预期指标,至少中断所述第一数据接入所述数据仓库。
[0015]可选地,所述方法还包括:
[0016]若检查到所述第一数据有质量问题,在与所述第一数据有数据血缘关系的第二数据接入到所述数据仓库的接入期间,实时对所述第二数据进行数据质量检查。
[0017]可选地,所述方法还包括:
[0018]若所述第二数据有质量问题,至少中断所述第二数据接入所述数据仓库。
[0019]可选地,所述在第一数据接入到数据仓库的接入期间,实时对接入到所述数据仓库的所述第一数据进行数据质量检查,包括:
[0020]在来自实时数据源的所述第一数据接入到所述数据仓库的接入期间,实时对接入到所述数据仓库的数据进行数据质量检查;
[0021]和/或
[0022]将来自离线数据源的所述第一数据接入到所述数据仓库的接入期间,实时对接入到所述数据仓库的数据进行质量检查。
[0023]可选地,所述方法还包括:
[0024]若来自所述离线数据源的所述第一数据有质量问题,中断所述第一数据的离线计算。
[0025]可选地,所述方法还包括:
[0026]对参与离线计算的第三数据在进行离线计算的计算期间,实时对所述第三数据进行数据质量检查;
[0027]若检查到所述第三数据有质量问题,至少中断所述第三数据的离线计算。
[0028]可选地,所述在第一数据接入到数据仓库的接入期间,实时对接入到所述数据仓库的所述第一数据进行数据质量检查,包括:
[0029]在所述第一数据接入到所述数据仓库的接入期间,利用基于hock技术使用于数据引入引擎独立的实时计算引擎实时对接入到所述数据仓库的所述第一数据进行数据质量检查。
[0030]可选地,所述在所述第一数据接入到所述数据仓库的接入期间,利用基于hock技术使用于数据引入引擎独立的实时计算引擎实时对接入到所述数据仓库的所述第一数据进行数据质量检查,包括:
[0031]在所述第一数据接入到所述数据仓库的接入期间,所述实时计算引擎利用流计算方式实时对接入到所述数据仓库的所述第一数据进行数据质量检查。
[0032]可选地,所述若检查到所述第一数据有质量问题,至少中断所述第一数据接入所述数据仓库,包括:
[0033]若检测到所述第一数据有质量问题,利用hock反馈中断所述第一数据接入到所述数据仓库。
[0034]根据本专利技术的第二方面,一种数据检查方法,包括:
[0035]在数据导入工具上显示数据质量规则输入的提示信息;
[0036]接收基于所述提示信息,输入的数据质量规则;
[0037]将数据接入到数据仓库的接入期间,根据所述数据质量规则实时对接入到所述数据仓库的所述第一数据进行数据质量检查。
[0038]可选地,所述方法还包括:
[0039]将所述数据质量规则通过规则翻译成质量检查的实时计算算子;
[0040]所述将数据接入到数据仓库的接入期间,根据所述数据质量规则实时对接入到所述数据仓库的所述第一数据进行数据质量检查,包括:
[0041]在所述接入期间,利用所述实时计算算子实时对接入到所述数据仓库的所述第一数据的质量指标进行计算。
[0042]可选地,所述数据导入工具包括以下至少之一:
[0043]日志的导入工具;
[0044]关系数据库的导入工具
[0045]流数据的导入工具
[0046]消息队列的导入工具。
[0047]可选地,所述数据质量规则包括:
[0048]数据质量指标及与所述数据质量指标对应的指标阈值。
[0049]可选地,所述数据质量指标包括以下至少之一:
[0050]出错行指标;
[0051]空值数指标;
[0052]倾斜程度指标;
[0053]数据变化幅度指标。
[0054]根据本申请第三方面,提供一种数据质量检查装置,包括:
[0055]第一检查模块,用于在第一数据接入到数据仓库的接入期间,实时对接入到所述数据仓库的所述第一数据进行数据质量检查;
[0056]第一中断模块,用于若检查到所述第一数据有质量问题,至少中断所述第一数据接入所述数据仓库。
[0057]可选地,所述装置还包括:
[0058]第一获取模块,用于获取所述第一数据的数据质量规则;
[0059]第一翻译模块,用于将所述数据质量规则通过规则翻译成质量检查的实时计算算子;
[0060]所述第一检查模块,具体用于利用所述实时计算算子在所述接入期间实时对接入到所述数据仓库的所述第一数据的质量指标进行计算。
[0061]可选地,所述第一中断模块,具体用于若所述质量指标达不到预期指标,至少中断所述第一数据接入所述数据仓库。
[0062]可选地,所述装置还包括:
[0063]第二检查模块,用于若检查到所述第一数据有质量问题,在与所述第一数据有数据血缘关系的第二数据接入到所述数据仓库的接入期间,实时对所述第二数据进行数据质量检查。
[0064]可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据质量检查方法,其特征在于,包括:在第一数据接入到数据仓库的接入期间,实时对接入到所述数据仓库的所述第一数据进行数据质量检查;若检查到所述第一数据有质量问题,至少中断所述第一数据接入所述数据仓库。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述第一数据的数据质量规则;将所述数据质量规则通过规则翻译成质量检查的实时计算算子;所述在第一数据接入到数据仓库的接入期间,实时对接入到所述数据仓库的所述第一数据进行数据质量检查,包括:利用所述实时计算算子在所述接入期间实时对接入到所述数据仓库的所述第一数据的质量指标进行计算。3.根据权利要求2所述的方法,其特征在于,所述若检查到所述第一数据有质量问题,至少中断所述第一数据接入所述数据仓库,包括:若所述质量指标达不到预期指标,至少中断所述第一数据接入所述数据仓库。4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:若检查到所述第一数据有质量问题,在与所述第一数据有数据血缘关系的第二数据接入到所述数据仓库的接入期间,实时对所述第二数据进行数据质量检查。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若所述第二数据有质量问题,至少中断所述第二数据接入所述数据仓库。6.根据权利要求1至3任一项所述的方法,其特征在于,所述在第一数据接入到数据仓库的接入期间,实时对接入到所述数据仓库的所述第一数据进行数据质量检查,包括:在来自实时数据源的所述第一数据接入到所述数据仓库的接入期间,实时对接入到所述数据仓库的数据进行数据质量检查;和/或将来自离线数据源的所述第一数据接入到所述数据仓库的接入期间,实时对接入到所述数据仓库的数据进行质量检查。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:若来自所述离线数据源的所述第一数据有质量问题,中断所述第一数据的离线计算。8.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:对参与离线计算的第三数据在进行离线计算的计算期间,实时对所述第三数据进行数据质量检查;若检查到所述第三数据有质量问题,至少中断所述第三数据的离线计算。9.根据权利要求1至3任一项所述的方法,其特征在于,所述在第一数据接入到数据仓库的接入期间,实时对接入到所述数据仓库的所述第一数据进行数据质量检查,包括:在所述第一数据接入到所述数据仓库的接入期间,利用基于hock技术使用于数据引入引擎独立的实时计算引擎实时对接入到所述数据仓库的所述第一数据进行数据质量检查。10.根据权利要求9所述的方法,其特征在于,所述在所述第一数据接入到所述数据仓库的接入期间,利用基于hock技术使用于数据引入引擎独立的实时计算引擎实时对接入到所述数据仓库的所述第一数据进行数据质量检查,包括:
在所述第一数据接入到所述数据仓库的接入期间,所述实时计算引擎利用流计算方式实时对接入到所述数据仓库的所述第一数据进行数据质量检查。11.根据权利要求1至3任一项所述的方法,其特征在于,所述若检查到所述第一数据有质量问题,至少中断所述第一数据接入所述数据仓库,包括:若检测到所述第一数据有质量问题,利用hock反馈中断所述第一数据接入到所述数据仓库。12.一种数据检查方法,其特征在于,包括:在数据导入工具上显示数据质量规则输入的提示信息;接收基于所述提示信息,输入的数据质量规则;将数据接入到数据仓库的接入期间,根据所述数据质量规则实时对接入到所述数据仓库的第一数据进行数据质量检查。13.根据权利要求12所述的方法,其特征在于,所述方法还包括:将所述数据质量规则通过规则翻译成质量检查的实时计算算子;所述将数据接入到数据仓库的接入期间,根据所述数据质量规则实时对接入到所述数据仓库的所述第一数据进行数据质量检查,包括:在所述接入期间,利用所述实时计算算子实时对接入到所述数据仓库的所述第一数据的质量指标进行计算。14.根据权利要求12或13所述的方法,其特征在于,所述数据导入工具包括以下至少之一:日志的导入工具;关系数据库的导入工具;流数据的导入工具;消息队列的导入工具。15.根据权利要求12所述的方法,其特征在于,所述数据质量规则包括:数据质量指标及与所述数据质量指标对应的指标阈值。16.根据权利要求15所述的方法,其特征在于,所述数据质量指标包括以下至少之一:出错行指标;空值数指标;倾斜程度指标;数据变化幅度指标。17.一种数据质量检查装置,其特征在于,...

【专利技术属性】
技术研发人员:扶至钦
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1