【技术实现步骤摘要】
一种基于元数据的异构数据处理方法、系统、设备及介质
[0001]本专利技术涉及一种数据处理
,更具体地说,它涉及一种基于元数据的异构数据处理方法、系统、设备及介质。
技术介绍
[0002]随着信息化、数字化进程的加快,数据呈几何倍增长,数据质量也呈现参差不齐现状,对于如何提升数据质量变得尤为重要,只有确保数据的高质量才能发挥出数据挖掘的价值。
[0003]传统数据质量提升只停留在数据使用层,发现数据错误,即对该部分数据进行修正或处理,未能也无法追查到数据的源头,该方法未能从根本上解决数据质量问题。
[0004]因此,如何从根本上解决数据质量问题成为数据挖掘分析过程中亟待解决的问题。
技术实现思路
[0005]本专利技术的目的是提供一种基于元数据的异构数据处理方法、系统、设备及介质,通过对获取的元数据自身所包含的属性信息、组合信息和关联信息,生成用来校验元数据是否存在质量问题的校验规则,进一步的,依据校验规则对所述多个异构数仓存储的异构数据进行校验,得到异构数据的校验结果(即表征异构数据的质量报告),由此,基于校验结果对异构数据的出错点进行分析,从而确定出相应异构数仓的异构数据的出错点信息,从而实现对数据出错的数仓以及数据的溯源,在基于出错点信息和校验规则对多个异构数仓进行管理,从而从根本上解决了数据质量问题。
[0006]本专利技术的上述技术目的是通过以下技术方案得以实现的:
[0007]本申请的第一方面,提供了一种基于元数据的异构数据处理方法,方法包括: >[0008]获取多个异构数仓存储的异构数据的元数据;
[0009]根据所述元数据所包含的属性信息、组合信息和关联信息,生成元数据的校验规则;
[0010]根据所述校验规则对所述多个异构数仓存储的异构数据进行校验,得到异构数据的校验结果;
[0011]根据所述校验结果对多个异构数仓存储的异构数据的出错点进行分析,得到存储在多个异构数仓的异构数据的出错点信息;
[0012]基于所述出错点信息和校验规则对多个异构数仓进行管理,其中管理包括数据剔除、数据纠正和数据填充中的至少一者。
[0013]在一种实现方案中,在所述根据所述元数据所包含的属性信息、组合信息和关联信息,生成元数据的校验规则之前,方法还包括:基于已构建好的数据分类模型将所述元数据划分为技术元数据、业务元数据和管理元数据;
[0014]分别根据所述技术元数据、业务元数据和管理元数据所包含的属性信息、组合信
息和关联信息,生成所述技术元数据、业务元数据和管理元数据各自对应的校验规则;
[0015]其中,所述技术元数据是指与数据技术相关的元数据,所述技术元数据包括数据表结构、数据类型、数据格式和数据存储位置;所述业务元数据是指与业务相关的元数据,所述业务元数据包括业务规则、业务术语、业务流程和业务数据模型;所述管理元数据是指与数据管理相关的元数据,所述管理元数据包括数据所有权、数据访问权限、数据安全策略和数据生命周期。
[0016]在一种实现方案中,根据所述属性信息、组合信息和关联信息所包含的子信息确定所述校验规则。
[0017]在一种实现方案中,多个异构数仓包括Oracle、MySQL、DB2、SQLServer、DM8及RDMS库中的至少两者,并扩展出元数据模型以获取离线文件或非关系数据源的元数据。
[0018]在一种实现方案中,通过数据访问接口以元数据的名称、代码和类型读取多个异构数仓存储的异构数据的元数据。
[0019]在一种实现方案中,所述校验规则包括数据项名称校验、字段名校验、格式校验、长度校验、空值校验和唯一性校验。
[0020]在一种实现方案中,根据所述校验结果对多个异构数仓存储的异构数据的出错点进行分析,包括:根据所述校验结果确定元数据的出错信息,根据元数据的出错信息定位多个异构数仓存储的异构数据的出错点信息。
[0021]本申请的第二方面,提供了一种基于元数据的异构数据处理系统,系统包括:
[0022]数据获取模块,用于获取多个异构数仓存储的异构数据的元数据;
[0023]处理模块,用于根据所述元数据所包含的属性信息、组合信息和关联信息,生成元数据的校验规则;根据所述校验规则对所述多个异构数仓存储的异构数据进行校验,得到异构数据的校验结果;根据所述校验结果对多个异构数仓存储的异构数据的出错点进行分析,得到存储在多个异构数仓的异构数据的出错点信息;基于所述出错点信息和校验规则对多个异构数仓进行管理,其中管理包括数据剔除、数据纠正和数据填充中的至少一者。
[0024]本申请的第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请的第一方面所述的基于元数据的异构数据处理方法。
[0025]本申请的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行本申请的第一方面所述的基于元数据的异构数据处理方法。
[0026]与现有技术相比,本专利技术具有以下有益效果:
[0027]本专利技术提供一种基于元数据的异构数据处理方法,通过对获取的元数据自身所包含的属性信息、组合信息和关联信息,生成用来校验元数据是否存在质量问题的校验规则,进一步的,依据校验规则对所述多个异构数仓存储的异构数据进行校验,得到异构数据的校验结果(即表征异构数据的质量报告),由此,基于校验结果对异构数据的出错点进行分析,从而确定出相应异构数仓的异构数据的出错点信息,从而实现对数据出错的数仓以及数据的溯源,在基于出错点信息和校验规则对多个异构数仓进行管理,从而从根本上解决了数据质量问题。
[0028]此外,本申请的第二方面至第四方面还提供了一种基于元数据的异构数据处理系
统、设备及介质,具备与上述基于元数据的异构数据处理方法相应的技术效果,此处不再赘述。
附图说明
[0029]此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。在附图中:
[0030]图1示出了本申请实施例提供的基于元数据的异构数据处理方法的流程框图;
[0031]图2示出了本申请实施例提供的基于元数据的异构数据处理方法的流程示意图;
[0032]图3示出了本申请实施例提供的基于元数据的异构数据处理系统的结构框图;
[0033]图4示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0034]为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。在本专利技术的描述中,“多个”的含义是两种或两种以上,除非另有明确具体的限定。
[0035]如
技术介绍
所述,随着信息化、数字化进程的加快,数据呈几何倍增长,数据质量也呈现参差本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于元数据的异构数据处理方法,其特征在于,方法包括:获取多个异构数仓存储的异构数据的元数据;根据所述元数据所包含的属性信息、组合信息和关联信息,生成元数据的校验规则;根据所述校验规则对所述多个异构数仓存储的异构数据进行校验,得到异构数据的校验结果;根据所述校验结果对多个异构数仓存储的异构数据的出错点进行分析,得到存储在多个异构数仓的异构数据的出错点信息;基于所述出错点信息和校验规则对多个异构数仓进行管理,其中管理包括数据剔除、数据纠正和数据填充中的至少一者。2.根据权利要求1所述的方法,其特征在于,在所述根据所述元数据所包含的属性信息、组合信息和关联信息,生成元数据的校验规则之前,方法还包括:基于已构建好的数据分类模型将所述元数据划分为技术元数据、业务元数据和管理元数据;分别根据所述技术元数据、业务元数据和管理元数据所包含的属性信息、组合信息和关联信息,生成所述技术元数据、业务元数据和管理元数据各自对应的校验规则;其中,所述技术元数据是指与数据技术相关的元数据,所述技术元数据包括数据表结构、数据类型、数据格式和数据存储位置;所述业务元数据是指与业务相关的元数据,所述业务元数据包括业务规则、业务术语、业务流程和业务数据模型;所述管理元数据是指与数据管理相关的元数据,所述管理元数据包括数据所有权、数据访问权限、数据安全策略和数据生命周期。3.根据权利要求2所述的方法,其特征在于,根据所述属性信息、组合信息和关联信息所包含的子信息确定所述校验规则。4.根据权利要求1所述的方法,其特征在于,多个异构数仓包括Oracle、MySQL、DB2、SQLServer、DM8及RDMS库中的至少...
【专利技术属性】
技术研发人员:周辉,彭宏,
申请(专利权)人:四川川大智胜系统集成有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。