指定逻辑验证规则并将逻辑验证规则应用于数据制造技术

技术编号:13969227 阅读:76 留言:0更新日期:2016-11-10 03:09
用于指定逻辑规则的方法、系统以及包括编码在计算机存储介质上的计算机程序的设备,所述方法其中之一包括定义基于术语来应用操作的逻辑规则。所述方法包括定义字段和术语之间的映射,该映射包括字段和所述术语之间的映射。所述方法包括与术语相关联地存储逻辑规则。所述方法还包括将逻辑规则应用于第一字段所标识的数据,其中,各字段被分配至各术语。

【技术实现步骤摘要】
【国外来华专利技术】
本说明书涉及指定规则并将规则应用于数据。
技术介绍
包括商业应用程序的许多现代应用程序对可以根据各种源编译而来的大的数据的集合(即,“数据集”)进行处理。向数据集提供数据的各种源可以具有不同水平的数据质量。为了确保应用程序恰当地工作,应监视数据集中的数据质量以及/或者将数据集中的数据质量维持在足够水平。为了监视数据质量或者将数据质量维持在足够水平,数据验证系统可以对数据集进行处理。在向应用程序提供数据集之前,这种系统对数据集应用验证规则。在一些示例中,数据验证系统使用验证规则的结果来计算数据质量的度量并且在数据质量的度量降至预定阈值以下的情况下向应用程序的管理者发出警告。在其它示例中,数据验证系统包括用于应对不符合一个或多个验证规则的数据的模块。例如,数据验证系统可以丢弃或修复不符合一个或多个验证规则的数据。通常,数据验证系统所应用的验证规则是由数据验证系统的用户或管理者所定义的。
技术实现思路
通常,本说明书中所述的主题的一个创新方面可以实现为以下方法,所述方法包括接收指定一个或多个操作的逻辑规则的动作,其中至少一个所述操作要应用于分配至术语的值。所述方法包括与所述术语相关联地存储所述逻辑规则的动作。所述方法包括定义字段和术语之间的映射的动作,所述映射包括字段和所述术语之间的映射。所述方法还包括将所述逻辑规则应用于第一字段所标识的数据的动作,其中各字段被分配至各术语。该方面的其它实施例包括各自被配置为进行该方法的动作的相应的计算机系统、设备和记录在一个或多个计算机存储装置上的计算机程序。一个或多个计算机的系统可被配置为通过将软件、固件、硬件或它们的组合安装在该系统上来进行特定动作,其中该一个或多个计算机在工作时使该系统进行这些动作。一个或多个计算机程序可被配置为通过包括如下指令来进行特定动作,其中这些指令在由数据处理设备执行的情况下使设备进行这些动作。上述和其它实施例可以各自可选地以单独或组合方式包括以下特征中的一个或多个。所述逻辑规则还可以基于第二术语来应用操作,以及所述映射还包括第二字段和所述第二术语之间的映射。所述逻辑规则可以包括一个或多个验证测试,以及将所述一个或多个验证测试中的第一验证测试应用于所述术语是基于所述第二术语的。方法还可以包括存储所述数据集中的字段与相应的术语之间的映射的动作。方法还可以包括基于术语和字段之间的映射来选择所述逻辑规则的动作。方法还可以包括基于术语和字段之间的映射来呈现潜在逻辑规则的列表的动作。所公开的系统的方面可以具有以下示例性优点中的一个或多个。用户接口可以使得商业用户能够识别验证规则。逻辑规则可以以灵活的方式与商业术语相关联。数据集中的字段也可以以灵活的方式与商业术语相关联。可以基于这些关联来确定默认验证规则。逻辑规则连同通常与模块化编程相关联的其它益处一起,可以减少生成定制验证规则所花费的时间,减少验证数据集合所花费的时间,可以在验证规则的多次使用之间提供一致性,并且鼓励改进验证规则自身的质量。由于无效数据可以导致应用程序的性能差,因此对数据集进行预验证可以提高使用该数据集的应用程序的性能。使验证规则模块化可以使公司能够开发用于对这些规则进行开发、测试并且将这些规则推广到生产中的工作流程。另外,在改进并改变这些验证规则时,可以在单个位置处改变这些验证规则,由此提高这些规则的可维护性。一致的规则可以改进数据质量。根据以下说明,以及根据权利要求书,本专利技术的其它特征和优点将变得明显。附图说明图1是用于指定对数据进行验证所用的验证规则的系统的框图。图2是用于指定对数据进行验证所用的逻辑规则的用户接口的示例。图3A~3B例示创建逻辑规则的示例。图4例示用于向字段分配逻辑规则的示例用户接口。图5是例示数据集中的字段至商业术语的映射的概念图。具体实施方式数据处理系统从不同的源接受数据并且基于该数据产生输出。系统所处理的数据可以包括异常、错误或问题。这些数据质量问题例如可以由于如下原因而引起:由诸如打字错误等的不准确的输入、诸如数据损坏等的机器故障所引起的错误以及由诸如数据的编码的不正确的识别等的转译错误所引起的错误。错误还可以由于如下原因而引起:丢失或未报告的数据、不恰当地格式化的数据、导致在数据消费方处得到误解释数据的数据产生方处的规格的变化、导致与数据不匹配的参考代码集中的错误、同步问题(例如,新的参考数据没有按时出现并且源数据与较旧的参考数据不匹配)、新代码值的引入等。通常,数据质量系统的目的是有时作为数据改进程序(被设计为促使数据质量问题的数量随着时间的经过而减少的程序)的一部分来检测需要测量的数据的问题。数据验证是用以测量数据质量的处理。通常,针对数据源执行一个或多个数据验证测试。对数据的质量进行量化,并且在需要的情况下可以采取行动来改进数据的质量。用户接口可以简化创建验证规则的处理。通常,验证规则是可以应用于数据以确定数据质量的一个或多个验证测试的集合。例如,验证规则可以包括判断数据的字段是否具有特定数据类型的验证测试以及判断数据的字段是否具有特定大小的验证测试。一个有用的参考是内容通过引用包含于此的2007年4月10日提交的标题为“EDITING AND COMPILING LOGICAL RULES”的美国专利8,069,129特别是第6~21栏中所述的用于编辑并编译逻辑规则的系统。这里所述的系统、方法和介质与现有技术相比具有以下优点中的至少一部分。用户接口可以使得商业用户能够识别验证规则。逻辑规则可以与商业术语相关联。数据集中的字段也可以与商业术语相关联。可以基于这些关联来确定默认验证规则。逻辑规则可以减少验证数据集所花费的时间。对数据集进行验证可以提高使用该数据集的应用程序的性能。另一有用的参考是2012年10月17日提交的标题为“SPECIFYING AND APPLYING RULES TO DATA”的美国专利申请13/653,995中所述的用于指定规则并将规则应用于数据的系统。商业术语表示数据所体现的概念。例如,命名为“cust_tbl”的关系型数据库表可以包括命名为“phone_no”的字段。在“phone_no”字段中具有值的“cust_tbl”中的行表示存在具有该特定电话号码的顾客。在本示例中,“顾客(customer)”是至少在“cust_tbl”中所体现的商业术语并且“电话号码(telephone number)”是“phone_no”字段中所体现的商业术语。可以使用商业术语和概念来构建验证规则并且随后将该验证规则应用于数据。以这种方式,商业用户可以在需要来自计算机专家的极少帮助或无需来自计算机专家的帮助的情况下构建逻辑规则。通常,可以使用系统(例如图1所示的系统)来指定逻辑验证规则。图2例示可以用于指定逻辑验证规则的用户接口的示例。图3A和3B提供逻辑规则的具体示例。图3A例示完全针对商业术语所生成的逻辑验证规则。图3B例示使用数据集中的数据所生成的然后一般化为逻辑规则的逻辑验证规则。图3B还显示逻辑验证规则的创建期间来自数据集的测试数据。在定义了逻辑验证规则之后,可以将该规则应用于各种数据集合。图4例示用于将逻辑验证规则应用于数据集合的用户接口的示例。在一些实现中,数据集中的字段可以映射至商业术语,以使得可以通过本文档来自技高网...

【技术保护点】
一种计算机实现的方法,用于指定逻辑规则,所述方法包括以下步骤:接收指定一个或多个操作的逻辑规则,其中至少一个所述操作要应用于分配至术语的值;与所述术语相关联地存储所述逻辑规则;定义字段和术语之间的映射,所述映射包括字段和所述术语之间的映射;以及将所述逻辑规则应用于第一字段所标识的数据,其中各字段被分配至各术语。

【技术特征摘要】
【国外来华专利技术】2014.03.13 US 14/208,1471.一种计算机实现的方法,用于指定逻辑规则,所述方法包括以下步骤:接收指定一个或多个操作的逻辑规则,其中至少一个所述操作要应用于分配至术语的值;与所述术语相关联地存储所述逻辑规则;定义字段和术语之间的映射,所述映射包括字段和所述术语之间的映射;以及将所述逻辑规则应用于第一字段所标识的数据,其中各字段被分配至各术语。2.根据权利要求1所述的方法,其中,所述逻辑规则还基于第二术语来应用操作,以及所述映射还包括第二字段和所述第二术语之间的映射。3.根据权利要求2所述的方法,其中,所述逻辑规则包括一个或多个验证测试,以及将一个或多个验证测试中的第一验证测试应用于所述术语是基于所述第二术语的。4.根据权利要求1所述的方法,其中,还包括以下步骤:存储数据集中的字段与相应的术语之间的映射。5.根据权利要求1所述的方法,其中,还包括以下步骤:基于术语和字段之间的映射来选择所述逻辑规则。6.根据权利要求1所述的方法,其中,还包括以下步骤:基于术语和字段之间的映射来呈现潜在逻辑规则的列表。7.一种利用计算机程序指令来编码的计算机存储介质,所述计算机程序指令在由一个或多个计算机执行的情况下使得所述一个或多个计算机进行包括以下内容的操作:接收指定一个或多个操作的逻辑规则,其中至少一个所述操作要应用于分配至术语的值;与所述术语相关联地存储所述逻辑规则;定义字段和术语之间的映射,所述映射包括字段和所述术语之间的映射;以及将所述逻辑规则应用于第一字段所标识的数据,其中各字段被分配至各术语。8.根据权利要求7所述的计算机存储介质,其中,所述逻辑规则还基于第二术语来应用操作,以及所述映射还包括第二字段和所述第二术语之间的映射。9.根据权利要求8所述的计算机存储介质,其中,所述逻辑规则包括一个或多个验证测试,以及将一个或多个验证测试中的第...

【专利技术属性】
技术研发人员:乔尔·古尔德R·普罗科普斯
申请(专利权)人:起元技术有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1