本发明专利技术的实施例解决了如下技术问题,即标识、收集和管理用于由改善企业方案(其范围从数据管控到业务智能)的较差质量数据的规则。在本发明专利技术的特定实施例中,提供了一种用于产生针对数据集合的数据质量规则的方法。生成候选条件功能依赖关系集合,包括在数据集合的本体中的特定相关度内的属性的候选种子。然后,向数据应用候选条件功能依赖关系,并在其到达静止状态之前对其进行完善,其中在该静止状态处,尽管候选条件功能依赖关系所应用于的数据已经稳定,也不对该候选条件功能依赖关系进行完善。所得到的完善后的候选条件功能依赖关系是针对数据集合和其他相关的数据集合的数据增强规则。在本发明专利技术的另一特定实施例中,提供了一种用于开发数据质量规则的计算机系统,其具有规则库、数据质量规则发现引擎以及用户接口。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及自动化数据清洗,并且更特别地涉及通过应用条件功能依赖关系来进行自动化数据质量增强。
技术介绍
现代社会的特征在于越来越多地依赖于迅速扩张的数据仓库的准确度。IDC确定, 2007年全世界产生的数据量是281艾字节,代表了相对于2006年的56%的年增长率。同时,这一数据的准确度对于现代企业的运转而言越来越重要。近来,当公共可访问数据库表明来自复兴计划的若干拨款被分配给了并不存在的国会选区,美国政府十分尴尬。除了引起尴尬和混淆,较差的数据质量还会引起严重的经济危害。数据可能由于手工输入到系统中或由人为设计的传感器获取的人为错误而被破坏。由于人为错误是不可避免的,因此其是对社会所依赖于的数据的潜在破坏。在大型组织要被迫处理的数据量越来越多的情况下,若干公司提供了帮助针对大型数据库滤除错误和纠正错误的产品和服务。这种公司一般称为数据质量供应商,其提供的滤除和纠正数据库的服务称为数据质量增强。数据质量增强一般是自动化过程,其中计算机对电子存储数据库中的所有数据进行滤除并且自动地标记或删除表现为错误的数据值。数据质量增强中的关键任务是标识对较差质量数据进行有效性验证、清洗和管控的规则。使用上述政府救济计划的示例,充分的规则可以是针对对其发放了资金的选区的任何条目都必须也出现在美国所有国会选区的列表中。可以使用人工或自动化开发来标识数据质量规则。人工开发涉及利用主题专家(SME)的输入或使用数据归档工具的数据或业务分析人员。SME是理解涵盖其精通领域内的信息的数据集合的特征的个人。例如,数据分析人员可以利用公共事业设施领域中的SME来获悉表计的序列号通常被错误地记录,并且表计被连接到具有与该表计的序列号相关的序列号的变换器。然后,分析人员将能够采用这一信息,并且创建数据质量规则,该数据质量规则在数据集合中滤除与所描述模式不适配的序列号。数据归档工具是检查所关心的数据以报告统计数据的计算机程序,该统计数据诸如值频率、两列之间的重合百分比,以及数据固有的其他关系和值。数据归档工具的示例包括 TS Discovery、Informatica IDE/IDQ 以及 Oracle Data Integrator。从数据归档工具搜集的信息能够表明潜在的质量问题。分析人员使用他们从数据归档工具的使用中获得的信息来人工地创建能够增强所检查数据的质量的规则。某些归档器,诸如hformatica Data Explorer,其本身能够自动地推断基本数据质量规则。例如,它们能够设定关于哪些列不能具有空值的规则。然而,这是特别简单的数据质量规则。空值条目是最容易检测的错误类型,其原因在于它们清楚地表明了数据条目疏漏并且它们不具有等同于任何可能正确的条目的值。其他归档器,诸如 TS Discovery, Informatica Data Quality,提供了针对名称和地址有效性验证的有创意 (out-of-the-box)的规则。这些规则同样稍显简陋,其原因在于地址从特征上说是严格管制的,是用于大型商业数据库的典型元素,并且遵循紧密的模式。可用数据归档器不包含针对更复杂或更客户特定的质量问题的规则。这两种获得用于数据质量规则的人工开发的信息的方式具有其缺陷。现代数据归档工具功能极其强大,并且能够为分析人员提供数据集内的大量数据特征和相互关系。然而,创建可操作数据质量规则仍将需要用于解释和应用所获取的统计数据的耗费时间的繁重处理。鉴于信息通常必须通过个人会晤来搜集,这种个人会晤需要分析人员和SME两者的大量时间,从SME获取信息同样可能是耗费时间且困难的。出于显然的原因,分析人员断开与SME的交互并且其本身试图变得精通给定领域的数据库,同样是耗费时间的。学术文献中已经描述了自动化规则开发方法。这些方法中最突出的莫过于对数据进行挖掘以形成关联规则以及对数据进行挖掘以便得到条件功能依赖关系(CFD)。在该领域中存在普遍共识,即关联规则对于解决大型数据库中的数据质量问题而言是不够的。对数据进行挖掘以便得到CFD的过程作为一种用于自动化数据增强的更有前途的方法便出现了。CFD是增强语义相关约束的模式的规则。图1提供了简单CFD的示例。在此情况下,输入数据点101和102具有3个属性,即国家代码(CC)、州(S)以及地区代码(AC)。包括这种数据点的数据集合可以是跟踪企业客户的位置的数据库的一部分。CFD 100基于如下事实来检查数据,即国家代码是针对美国的01,地区代码是408,然后所伴随的州应当为加利福尼亚。向CFD 100应用数据输入101将得到通过输出值103。而向CFD 100应用数据输入102将得到失败输出值104。使CFD的发现自动化的方法有两个主要缺陷。第一个是可能应用于数据集合的 CFD数目随着数据集合中属性数目的增加而呈指数增加。这导致这种方法的复杂度高得几乎令人望而却步。在以上示例中,对于相对简单的三个值的集合,仍然能有12个功能依赖关系。再乘以在美国所服务的超过270个地区代码,可能的CFD的数目将大大超出这一数目。当前的自动化发现方法也不能处理含噪数据。
技术实现思路
在本专利技术的一个实施例中,提供了一种用于产生针对数据集合的数据质量规则的计算机实现的方法。在第一步骤中,通过使用所述数据集合的本体基于候选种子集合生成候选条件功能依赖关系集合。每个候选种子包括从所述数据集合的所有属性的集合提取的在所述本体中具有预定隔离度的属性子集。在第二步骤中,单独向数据集合应用候选条件功能依赖关系以获得针对每个候选条件功能依赖关系的对应结果值集合。在第三步骤中,如果其对应结果值集合未能形成达到预定期望的结果签名,则候选条件功能依赖关系被单独完善(refine)和向数据再次应用。在第四步骤中,当所有候选条件功能依赖关系到达静止状态时,应用和完善终止。在最终步骤中,选择所述候选条件功能依赖关系的相关集合以用作针对所述数据集合的所述数据质量规则。附图说明图1图示了在输入数据上操作的条件功能依赖关系。图2图示了根据本专利技术的用于产生针对数据集合的数据质量规则的方法。图3图示了根据本专利技术的用于产生针对数据集合的数据质量规则的系统。图4图示了根据本专利技术的图形用户接口数据输入。图5图示了根据本专利技术的图形用户接口规则显示。图6图示了用于属性组合的完全连接图。具体实施例方式现在将详细参考所公开专利技术的实施例,附图中图示了其一个或多个示例。每个示例都是以说明本技术的方式而不是以限制本技术的方式提供的。实际上,对本领域技术人员来说明显的是,在不脱离其精神和范围的情况下,可以对本技术进行修改和变更。例如, 作为一个实施例的一部分而图示和描述的特征可以与另一实施例一起使用以产生又一实施例。由此,本主题旨在覆盖在所附权利要求书及其等同形式的范围内的修改和变更。本专利技术的实施例解决了如下技术问题,即标识、收集和管理用于改善针对企业方案(其范围从数据管控到业务智能)的较差质量数据的规则。本专利技术的实施例还显著减少了收集针对企业方案(诸如主数据管理、业务智能等)的数据质量规则所需的人工劳动量。 另外,本专利技术的实施例还支持其他业务需要,诸如保证其数据遵循预定业务逻辑。本专利技术的实施例通过自动地发现可操作数据质量规则和通过提供直观的规则浏览器来管理这些规则而解本文档来自技高网...
【技术保护点】
1.一种用于产生针对数据集合的数据质量规则的计算机实现的方法,包括:通过使用所述数据集合的本体、基于候选种子集合来生成候选条件功能依赖关系集合,所述候选种子包括从所述数据集合的属性集合提取的、在所述本体中具有预定隔离度的属性子集;单独向所述数据集合应用所述候选条件功能依赖关系,以获得针对所述候选条件功能依赖关系的对应结果值集合;如果所述对应结果值集合不具有达到预定期望的结果签名,则单独完善所述候选条件功能依赖关系,并且重复所述应用;当所述候选条件功能依赖关系单独到达静止状态时,单独终止对所述候选条件功能依赖关系的所述完善和应用;以及选择所述候选条件功能依赖关系的相关集合以用作针对所述数据集合的所述数据质量规则。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:P·ZC·耶,C·A·普里,
申请(专利权)人:埃森哲环球服务有限公司,
类型:发明
国别省市:IE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。