表征数据存储系统中的数据源技术方案

技术编号:11675544 阅读:163 留言:0更新日期:2015-07-06 01:43
表征数据包括:从接口读取数据到数据存储系统,并存储两组或更多组汇总数据(200A-200D),所述汇总数据用于汇总存储在所述数据存储系统中的不同相应数据源的数据;以及处理所存储的各组汇总数据,以生成用于表征来自所述数据存储系统中多个数据源的数据的系统信息(208)。所述处理包括:分析所存储的各组汇总数据,以选择存储了满足预定准则的数据的两个或更多个数据源,以及至少部分基于来自用于汇总所选择的数据源中的第一数据源的所存储的一组汇总数据的值与来自用于汇总所选择的数据源中的第二数据源的所存储的一组汇总数据的值之间的比较,来生成所述系统信息,所述系统信息包括识别包括在不同数据源中的记录的字段之间潜在的关系的信息。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】表征数据存储系统中的数据源相关申请的交叉引用本申请要求2012年10月22日提交的序列号为61/716,909的美国申请的优先权,其通过引用合并于此。
技术介绍
本说明书涉及表征(characterizing)数据存储系统中的数据源。存储的数据集常包括各种特性未知的数据。例如,数据集的取值范围或典型值、数据集内的不同字段之间的关系、或不同字段中值之间的依赖关系可能是未知的。数据剖析(data profiling)可涉及检查数据集的源以确定这些特性。
技术实现思路
在一个方面中,一般地,一种用于表征数据的方法,包括:从接口读取数据到数据存储系统,并存储两组或更多组汇总数据,所述汇总数据用于汇总存储在所述数据存储系统中的不同相应数据源的数据;以及使用至少一个处理器处理所存储的各组汇总数据,以生成用于表征来自所述数据存储系统中多个数据源的数据的系统信息。所述处理包括:分析所存储的各组汇总数据,以选择存储了满足预定准则的数据的两个或更多个数据源,以及至少部分基于来自用于汇总所选择的数据源中的第一数据源的所存储的一组汇总数据的值与来自用于汇总所选择的数据源中的第二数据源的所存储的一组汇总数据的值之间的比较,来生成所述系统信息,所述系统信息包括用于识别包括在不同数据源中的记录的字段之间潜在的关系的信息。各个方面可以包括一个或多个以下特征。所述处理还包括:存储对应于相应各组汇总数据的数据单元,所述数据单元中的至少一些数据单元包括用于描述与对应的一组汇总数据相关联的一个或多个特性的描述性信息,以及基于从所存储的数据单元聚合得到的所述描述性信息来生成所述系统信息。所述处理还包括方法:应用一个或多个规则到两个或更多个第二组汇总数据,聚合所述第二组汇总数据以生成第三组汇总数据,以及存储所述第三组汇总数据。两个或更多个第二组汇总数据由相同记录格式的两个或更多个数据源推导出。所述一个或多个规则对所述两个或更多个第二组汇总数据之间的一个或多个所选择的字段的值进行比较。用于汇总存储在特定的数据源中的数据的所存储的一组汇总数据,对于所述特定的数据源中记录的至少一个所选择的字段而言,包括值条目的相应列表,每个值条目包括在所选择的字段中出现的值。对应于特定的数据源的值条目列表中每个值条目还包括:在所选择的字段中出现该值的记录的数量的计数。对应于特定的数据源的值条目列表中每个值条目还包括:识别在所选择的字段中出现该值的记录在所述特定的数据源内相应位置的位置信息。所述位置信息包括所识别出的相应位置的比特向量表示。所述比特向量表示包括经压缩的比特向量。所述位置信息指向不再存储数据的位置,基于已存储的副本来重构该位置信息所指向的数据。所述处理还包括:将一个或多个字段添加到所述多个数据源中的至少一个数据源的记录。所添加的字段填充有由所述至少一个数据源的一个或多个所选择的字段或字段的片段计算出的数据。所添加的字段填充有由所述至少一个数据源的一个或多个所选择的字段或字段的片段计算出的数据,并填充有来自所述至少一个数据源以外的数据(例如,来自查找以丰富该记录)。所述处理还包括:将所述一个或多个字段添加到第一组汇总数据。在另一方面中,一般地,一种用于表征数据的方法,包括:从接口读取数据到数据存储系统,并存储两组或更多组汇总数据,所述汇总数据用于汇总存储在所述数据存储系统中的不同相应数据源的数据;以及使用至少一个处理器处理所存储的各组汇总数据,以生成用于表征来自所述数据存储系统中多个数据源的数据的系统信息。所述处理包括:存储对应于相应各组汇总数据的数据单元,所述数据单元中的至少一些数据单元包括用于描述与对应的一组汇总数据相关联的一个或多个特性的描述性信息,以及基于从所存储的数据单元聚合得到的所述描述性信息来生成所述系统信息。各个方面可以包括一个或多个特征。用于汇总第一数据源中存储的数据的至少第一组汇总数据,对于所述第一数据源中存储的记录的至少一个字段而言,包括在所述字段中出现的特异值的列表以及每个特异值所出现的记录的数量的相应计数。用于描述与所述第一组汇总数据相关联的一个或多个特性的描述性信息包括:用于描述与所述第一组汇总数据相关联的一个或多个潜在问题的问题信息。所述一个或多个潜在问题包括:被检测为候选主关键字字段的字段中存在重复值。用于描述与所述第一组汇总数据相关联的一个或多个特性的描述性信息包括:用于描述所述第一数据源中存储的记录的字段的填充度的填充信息。用于描述与所述第一组汇总数据相关联的一个或多个特性的描述性信息包括:用于描述所述第一数据源中存储的记录的字段中出现的值的唯一性程度的唯一性信息。用于描述与所述第一组汇总数据相关联的一个或多个特性的描述性信息包括:用于描述对所述第一数据源中存储的记录的字段中出现的值加以表征的一个或多个重复模式的模式信息。在另一方面,一般地,一种用于表征数据的计算机程序,存储在计算机可读存储介质上,所述计算机程序包括用于使得计算机系统执行上述方法中任一种的各个步骤的指令。在另一方面,一般地,一种用于表征数据的计算系统,所述计算系统包括:数据存储系统,和被配置为从数据存储系统接收数据的输入设备或端口 ;以及至少一个处理器,被配置为实施上述方法中任一种的各个步骤。 各个方面可以包括一个或多个以下优点。在一些数据处理和/或软件开发环境中,数据质量跟踪程序中的一个方面包括在数据存储系统内对数据源(多个)进行剖析,以生成特征描述,其使得该程序能够对数据质量进行量化。特征描述中的信息和从特征描述中提取的数据质量信息使得用户或数据分析员能够更好地理解该数据。除了特征描述中的信息以外,诸如唯一值和特异值的计数、最大和最小值或共同和非共同值的列表、字段特定验证规则(例如,“在信用卡号字段中的值必须是16-位数字”)等可以在剖析之前推断出,并且特征描述将包括逐个字段基础上的每个验证规则的无效例的计数。从长远来看,因为对具有相同格式和出处的一系列数据源进行了剖析,所以数据质量指标(例如,“具有无效的信用卡号的记录的分数比例(fract1n)”)可以被定义和用于随着时间的推移监测数据质量。对于某些程序,数据剖析和数据质量跟踪基本上在逐个字段基础上(因此在一次一个源的基础上)构思而成,(尽管允许涉及跨越源配对的字段的规则)。数据剖析中的验证规则被应用于字段,或字段的组合、字段级,并且在剖析之前被指定,并用作对字段特定值进行分类。多个验证规则可被应用到同一字段,导致包含在被分析的记录的该字段中的值的更多样的分类,而不是简单地分为有效的或无效的。在剖析之后,在为数据源中的特定字段初始定义之后,可应用数据质量度量。数据质量度量的值可聚合到一定层级上的数据质量测量值,以给出多组相关字段视图。例如,顾客数据中“first_name (名字)”和“last_name (姓氏)”字段的关于质量和填充度的字段特定数据质量度量能够被聚合到“顾客姓名”的数据质量测量值,其依次被与“顾客地址”的类似的经聚合的数据质量测量值结合,以计算“顾客信息”的数据质量测量值。汇总仍然是数据特定的:数据质量测量值“顾客信息”的意思和用途来源于包含顾客数据的字段中的原始数据(相对于例如生成数据而言)。然而,在某些情况下,数据质量的系统级视图是有用的。例如,在第本文档来自技高网...

【技术保护点】
一种用于表征数据的方法,该方法包括:从接口读取数据到数据存储系统,并存储两组或更多组汇总数据,所述汇总数据用于汇总存储在所述数据存储系统中的不同相应数据源的数据;以及使用至少一个处理器处理所存储的各组汇总数据,以生成用于表征来自所述数据存储系统中多个数据源的数据的系统信息,所述处理包括:分析所存储的各组汇总数据,以选择存储了满足预定准则的数据的两个或更多个数据源,以及至少部分基于来自用于汇总所选择的数据源中的第一数据源的所存储的一组汇总数据的值与来自用于汇总所选择的数据源中的第二数据源的所存储的一组汇总数据的值之间的比较,来生成所述系统信息,所述系统信息包括用于识别包括在不同数据源中的记录的字段之间潜在的关系的信息。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:阿伦·安德森
申请(专利权)人:起元科技有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1