表征数据存储系统中的数据源技术方案

技术编号：11675544 阅读：180 留言：0更新日期：2015-07-06 01:43

表征数据包括：从接口读取数据到数据存储系统，并存储两组或更多组汇总数据(200A-200D)，所述汇总数据用于汇总存储在所述数据存储系统中的不同相应数据源的数据；以及处理所存储的各组汇总数据，以生成用于表征来自所述数据存储系统中多个数据源的数据的系统信息(208)。所述处理包括：分析所存储的各组汇总数据，以选择存储了满足预定准则的数据的两个或更多个数据源，以及至少部分基于来自用于汇总所选择的数据源中的第一数据源的所存储的一组汇总数据的值与来自用于汇总所选择的数据源中的第二数据源的所存储的一组汇总数据的值之间的比较，来生成所述系统信息，所述系统信息包括识别包括在不同数据源中的记录的字段之间潜在的关系的信息。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】表征数据存储系统中的数据源相关申请的交叉引用本申请要求2012年10月22日提交的序列号为61/716，909的美国申请的优先权，其通过引用合并于此。
技术介绍
本说明书涉及表征(characterizing)数据存储系统中的数据源。存储的数据集常包括各种特性未知的数据。例如，数据集的取值范围或典型值、数据集内的不同字段之间的关系、或不同字段中值之间的依赖关系可能是未知的。数据剖析(data profiling)可涉及检查数据集的源以确定这些特性。
技术实现思路
在一个方面中，一般地，一种用于表征数据的方法，包括:从接口读取数据到数据存储系统，并存储两组或更多组汇总数据，所述汇总数据用于汇总存储在所述数据存储系统中的不同相应数据源的数据；以及使用至少一个处理器处理所存储的各组汇总数据，以生成用于表征来自所述数据存储系统中多个数据源的数据的系统信息。所述处理包括:分析所存储的各组汇总数据，以选择存储了满足预定准则的数据的两个或更多个数据源，以及至少部分基于来自用于汇总所选择的数据源中的第一数据源的所存储的一组汇总数据的值与来自用于汇总所选择的数据源中的第二数据源的所存储的一组汇总数据的值之间的比较，来生成所述系统信息，所述系统信息包括用于识别包括在不同数据源中的记录的字段之间潜在的关系的信息。各个方面可以包括一个或多个以下特征。所述处理还包括:存储对应于相应各组汇总数据的数据单元，所述数据单元中的至少一些数据单元包括用于描述与对应的一组汇总数据相关联的一个或多个特性的描述性信息，以及基于从所存储的数据单元聚合得到的所述描述性信息来生成所述系统信息。...

【技术保护点】
一种用于表征数据的方法，该方法包括：从接口读取数据到数据存储系统，并存储两组或更多组汇总数据，所述汇总数据用于汇总存储在所述数据存储系统中的不同相应数据源的数据；以及使用至少一个处理器处理所存储的各组汇总数据，以生成用于表征来自所述数据存储系统中多个数据源的数据的系统信息，所述处理包括：分析所存储的各组汇总数据，以选择存储了满足预定准则的数据的两个或更多个数据源，以及至少部分基于来自用于汇总所选择的数据源中的第一数据源的所存储的一组汇总数据的值与来自用于汇总所选择的数据源中的第二数据源的所存储的一组汇总数据的值之间的比较，来生成所述系统信息，所述系统信息包括用于识别包括在不同数据源中的记录的字段之间潜在的关系的信息。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：阿伦·安德森，
申请(专利权)人：起元科技有限公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人