经由基数估计的有效联结路径确定制造技术

技术编号:16388521 阅读:52 留言:0更新日期:2017-10-16 09:00
诸如超级重对数等概率计数结构可以在有关选择的一组列中的每一个的表格扫描期间形成。所述列可以基于初始相关性估计选择,所述初始相关性估计可能基于所述各自列的数据类型。列的交集或并集的估计的基数可以基于所述概率数据结构的交集形成。联结路径可以基于所述列的交集或并集的所述估计的基数确定。

【技术实现步骤摘要】
【国外来华专利技术】经由基数估计的有效联结路径确定相关申请的交叉引用本申请要求于2014年12月22日提交的美国专利申请No.14/578,841的利益,所述美国专利申请的公开内容以引用的方式整体并入本文中。
技术介绍
数据仓库和在线分析处理(“OLAP”)系统可能包括允许分析查询的自动生成的各种工具。在一些情况下,这些工具可能依赖于用户提供有关将分析的数据的结构的各种细节。然而,提供该信息可能是参与的过程。在其它情况下,工具可以使用明确定义的模式信息诸如主键和外键关系自动地生成分析查询。然而,即使未明确定义,在分析上有用的关系可能仍然存在。可能还存在分析工具的用户不知道的分析上有用的关系。附图说明当结合附图进行阅读时,以下详述可以更好地理解。出于说明的目的,附图中示出本公开的方面的各种示例,然而本专利技术并不限于公开的特定方法和手段。图1是描绘用于通过使用概率计数结构以估计两个列内的字段重合从而识别联结关系的系统和过程的实施方案的框图。图2是描绘基于使用基数估计计算的估计的字段重合对两个列之间的联结路径进行识别的框图。图3描绘用于计算概率计数结构的交集和并集的过程。图4描绘用于使用概率计数结构识别联结路径的过程的实施方案。图5描绘用于识别多个列中的两个之间的联结路径的过程的实施方案。图6是描绘可以实践本公开的方面的计算环境的实施方案的框图。图7是描绘可以实践本公开的方面的计算系统的实施方案的框图。具体实施方式本公开的方面可以被采用以识别可以用于在事务数据上执行分析操作的联结关系。联结关系可以用于各种目的,诸如用于生成分析查询。在一些情况下,联结关系可以用于生成可用于执行分析的分层。本公开的实施方案可以利用诸如超级重对数(hyperloglog)等概率数据结构来识别列之间的联结关系。实施方案可以为每一潜在相关的列生成概率数据结构,其中初始相关性估计可能基于诸如共同的数据类型等因素。实施方案可以基于两个或多个概率数据结构的交集或基于交集的并集估计列值之间的重合。然后可以将列值之间的重合用作用于识别列之间的联结关系的依据。概率数据结构可能包括与诸如近似法或随机化等各种统计技术有关的那些结构,以估计集合的基数。数据集的基数可能指代集合内的截然不同的值的数量。概率数据结构的示例包括与超级重对数、重对数(loglog)以及布隆过滤器技术有关的那些。术语超级重对数、重对数、最小哈希以及布隆过滤器可以用于指代对应于所述技术的结构。概率数据结构可能包括若干桶。每一桶可能对应于数据流的细分并且可能包含有关细分内的估计的基数的信息。所述数据流可以基于多种准则进行细分。在一些情况下,所述细分可能是基本上随机的,在这种情况下桶可能对应于数据集的基本上随机的部分。这例如当数据流使用某些哈希函数进行细分时可能是如此情况。在其它情况下,细分可能基于诸如键范围等非随机准则。通常来说,可以通过扫描大的(且在一些情况下非常大的)数据集获得数据流。概率数据结构可以被用于以存储器使用高效的方式估计大数据集的基数。然而,基数估计的准确度可能取决于数据流中的细分的数量和概率数据结构中的对应桶的数量。实施方案可以利用多个概率数据结构以形成多个数据流中的数据之间的重合的估计。如本文所使用,术语数据流可能适用于来自数据库管理系统的列数据。因此,实施方案可以利用多个概率数据结构以形成多个数据列中的数据之间的重合估计。图1是描绘用于通过使用概率计数结构以估计两个列内的字段重合从而识别联结关系的系统和过程的实施方案的框图。特定行内的列的值,其可能被称作字段,可能与另一字段重合,前提是两个字段在行内具有相同的值。实施方案可以基于重合频率确定两个列之间存在联结路径。在图1中,表格100可能包括某一数量的行114。每一行可能包括某一数量的列,诸如列102至106。特定列和特定行的交集可以被描述成字段。术语字段可以用于描述行和列的交集或在此种交集处的值。在图1中,字段108可能对应于列102,字段110可能对应于列104,且字段112可能对应于列106。在各种实施方案中,表格100的数据可以呈行向格式和/或列向格式存储在一个或多个存储设备上。实施方案可以基于初始相关性估计识别某些列以用于分析。例如,实施方案可以确定列102和列106是潜在相关的。在一些情况下,初始估计可能基于数据类型。联结路径可能更有可能存在于相同数据类型、类似数据类型或可以转换成共同数据类型的不同数据类型的列之间。举非限制性例子来说,可以假定描绘的列102和106二者具有诸如整数数据类型等相同数据类型。概率计数技术可以被利用以确定特定列内的值的基数。例如,概率计数结构116可以被形成用于字段112,并且用于提供对应于列106的基数估计。类似地,概率计数结构128可以被形成用于字段108,并且用于提供对应于列102的基数估计。有关列的基数估计可能指示列的字段内的若干独特值。概率计数结构116可能包括若干桶118至126。诸如桶120等个别桶可能对应于可能存在于字段112中的一系列值的基数或字段112中的一系列行的基数。实施方案可能包括分析模块146。分析模块146可能包括可以计算概率计数结构116和概率计数结构128的交集的交集/并集程序140。这些结构中的任何一个可以被直观化为矢量。两个矢量的交集可能包括新矢量,所述新矢量的要素包括两个原始矢量的对应要素的交集。例如,交集可以被计算成矢量,所述矢量的五个要素包括桶118和130、桶120和132、桶122和134、桶124和136以及桶126和138的交集。在图1中,概率计数结构116和128被描绘成分别具有五个桶。在各种情况和实施方案中,可以利用更多或更少的桶。分析模块146可能包括字段重合估计程序142。估计字段重合可能涉及利用概率数据结构116和128的交集。所述交集可能例如被用于使用容斥原理确定字段108和112的并集的基数的估计。实施方案可以利用字段108和112的并集的估计的基数。可能包括在分析模块146中的联结路径确定程序144可以基于并集的估计的基数或基于交集而无需确定并集来识别列102与列106之间的联结路径。图2是描绘基于使用基数估计计算的估计的字段重合对两个列之间的联结路径进行识别的框图。列200和列202可以被分析以确定两个列200与202之间是否存在自然联结路径。列200可以被分析以形成基数估计220。基数估计220可能包括列200的总体基数的指示。类似地,基数估计222可能包括列202的总体基数的指示。例如,在图2中,列200据称可能具有为2的整体基数,且在字母表的“A至C”范围内具有为1的基数,因为字段204、206和210共享相同的值“A”,且字段208具有值“X”。列202据称可能具有为3的整体基数,且在“A至C”范围内具有为2的基数,因为字段212和218共享值“A”,字段214具有值“B”,且字段216具有值“Y”。应了解,这些示例意在对一般原理进行说明,且不应被理解成是对本公开的范围的限制。在本文所描述的技术的应用中,可能存在大量的字段值,且可能存在高基数值和可以计算基数的许多范围。基于诸如“A至C”范围等各自范围中的估计的基数,实施方案可以执行联结路径确定224以识别涉及列200和列202的联结路径。联结路径确定22本文档来自技高网...
经由基数估计的有效联结路径确定

【技术保护点】
一种用于识别事务数据中的分析关系的系统,所述系统包括:一个或多个计算节点,其维持包括多个行的表格;上面存储有计算机可读指令的一个或多个存储器,所述计算机可读指令当由计算设备执行时引起所述系统至少:选择所述多个行中的第一列和第二列,其中至少部分基于所述第一列与所述第二列之间的第一相关性估计选择所述第一列和所述第二列;至少部分基于所述多个行中的第一多个字段形成第一超级重对数,所述第一多个字段对应于所述第一列;至少部分基于所述多个行中的第二多个字段形成第二超级重对数,所述第二多个字段对应于所述第二列;计算所述第一超级重对数和所述第二超级重对数的交集;以及至少部分基于所述第一多个字段中的字段与所述第二多个字段中的字段之间的第二重合估计识别所述第一列与所述第二列之间的联结路径,所述第二估计至少部分基于所述交集。

【技术特征摘要】
【国外来华专利技术】2014.12.22 US 14/578,8411.一种用于识别事务数据中的分析关系的系统,所述系统包括:一个或多个计算节点,其维持包括多个行的表格;上面存储有计算机可读指令的一个或多个存储器,所述计算机可读指令当由计算设备执行时引起所述系统至少:选择所述多个行中的第一列和第二列,其中至少部分基于所述第一列与所述第二列之间的第一相关性估计选择所述第一列和所述第二列;至少部分基于所述多个行中的第一多个字段形成第一超级重对数,所述第一多个字段对应于所述第一列;至少部分基于所述多个行中的第二多个字段形成第二超级重对数,所述第二多个字段对应于所述第二列;计算所述第一超级重对数和所述第二超级重对数的交集;以及至少部分基于所述第一多个字段中的字段与所述第二多个字段中的字段之间的第二重合估计识别所述第一列与所述第二列之间的联结路径,所述第二估计至少部分基于所述交集。2.如权利要求1所述的系统,其进一步包括上面存储有计算机可读指令的一个或多个存储器,所述计算机可读指令当由所述一个或多个计算节点执行时引起所述系统至少:基于所述第一列和所述第二列共同的数据类型形成所述第一相关性估计。3.如权利要求1所述的系统,其进一步包括上面存储有计算机可读指令的一个或多个存储器,所述计算机可读指令当由所述一个或多个计算节点执行时引起所述系统至少:通过至少将有关所述第一列和所述第二列的所述第二重合估计与有关两个或多个额外列的额外重合估计进行比较来识别所述联结路径。4.如权利要求1所述的系统,其进一步包括上面存储有计算机可读指令的一个或多个存储器,所述计算机可读指令当由所述一个或多个计算节点执行时引起所述系统至少:通过至少从所述第一超级重对数和所述第二超级重对数的并集减去所述第一超级重对数和所述第二超级重对数的所述交集来形成所述第二重合估计。5.如权利要求1所述的系统,其进一步包括上面存储有计算机可读指令的一个或多个存储器,所述计算机可读指令当由所述一个或多个计算节点执行时引起所述系统至少:通过至少执行所述多个行的第一扫描来形成多个超级重对数;以及通过至少执行所述多个行的第二扫描来形成所述第一超级重对数,其中所述第一超级重对数的大小大于在所述第一扫描期间形成的所述多个超级重对数中的超级重对数的大小。6.一种系统,其包括:一个或多个处理器;以及一个或多个存储器,所述存储器上存储有指令,所述指令当由一个或多个计算设备执行时引起所述一个或多个计算设备至少:至少部分基于多个行中的第一多个字段形成第一概率计数结构,所述...

【专利技术属性】
技术研发人员:阿努拉格·温德拉斯·古普塔蒂莫西·安德鲁·拉斯斯里尼瓦桑·孙达尔·拉加万桑托什·凯克
申请(专利权)人:亚马逊技术有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1