【技术实现步骤摘要】
【国外来华专利技术】经由基数估计的有效联结路径确定相关申请的交叉引用本申请要求于2014年12月22日提交的美国专利申请No.14/578,841的利益,所述美国专利申请的公开内容以引用的方式整体并入本文中。
技术介绍
数据仓库和在线分析处理(“OLAP”)系统可能包括允许分析查询的自动生成的各种工具。在一些情况下,这些工具可能依赖于用户提供有关将分析的数据的结构的各种细节。然而,提供该信息可能是参与的过程。在其它情况下,工具可以使用明确定义的模式信息诸如主键和外键关系自动地生成分析查询。然而,即使未明确定义,在分析上有用的关系可能仍然存在。可能还存在分析工具的用户不知道的分析上有用的关系。附图说明当结合附图进行阅读时,以下详述可以更好地理解。出于说明的目的,附图中示出本公开的方面的各种示例,然而本专利技术并不限于公开的特定方法和手段。图1是描绘用于通过使用概率计数结构以估计两个列内的字段重合从而识别联结关系的系统和过程的实施方案的框图。图2是描绘基于使用基数估计计算的估计的字段重合对两个列之间的联结路径进行识别的框图。图3描绘用于计算概率计数结构的交集和并集的过程。图4描绘用于使用概率计数结构识别联结路径的过程的实施方案。图5描绘用于识别多个列中的两个之间的联结路径的过程的实施方案。图6是描绘可以实践本公开的方面的计算环境的实施方案的框图。图7是描绘可以实践本公开的方面的计算系统的实施方案的框图。具体实施方式本公开的方面可以被采用以识别可以用于在事务数据上执行分析操作的联结关系。联结关系可以用于各种目的,诸如用于生成分析查询。在一些情况下,联结关系可以用于生成可用于执行分析的分层 ...
【技术保护点】
一种用于识别事务数据中的分析关系的系统,所述系统包括:一个或多个计算节点,其维持包括多个行的表格;上面存储有计算机可读指令的一个或多个存储器,所述计算机可读指令当由计算设备执行时引起所述系统至少:选择所述多个行中的第一列和第二列,其中至少部分基于所述第一列与所述第二列之间的第一相关性估计选择所述第一列和所述第二列;至少部分基于所述多个行中的第一多个字段形成第一超级重对数,所述第一多个字段对应于所述第一列;至少部分基于所述多个行中的第二多个字段形成第二超级重对数,所述第二多个字段对应于所述第二列;计算所述第一超级重对数和所述第二超级重对数的交集;以及至少部分基于所述第一多个字段中的字段与所述第二多个字段中的字段之间的第二重合估计识别所述第一列与所述第二列之间的联结路径,所述第二估计至少部分基于所述交集。
【技术特征摘要】
【国外来华专利技术】2014.12.22 US 14/578,8411.一种用于识别事务数据中的分析关系的系统,所述系统包括:一个或多个计算节点,其维持包括多个行的表格;上面存储有计算机可读指令的一个或多个存储器,所述计算机可读指令当由计算设备执行时引起所述系统至少:选择所述多个行中的第一列和第二列,其中至少部分基于所述第一列与所述第二列之间的第一相关性估计选择所述第一列和所述第二列;至少部分基于所述多个行中的第一多个字段形成第一超级重对数,所述第一多个字段对应于所述第一列;至少部分基于所述多个行中的第二多个字段形成第二超级重对数,所述第二多个字段对应于所述第二列;计算所述第一超级重对数和所述第二超级重对数的交集;以及至少部分基于所述第一多个字段中的字段与所述第二多个字段中的字段之间的第二重合估计识别所述第一列与所述第二列之间的联结路径,所述第二估计至少部分基于所述交集。2.如权利要求1所述的系统,其进一步包括上面存储有计算机可读指令的一个或多个存储器,所述计算机可读指令当由所述一个或多个计算节点执行时引起所述系统至少:基于所述第一列和所述第二列共同的数据类型形成所述第一相关性估计。3.如权利要求1所述的系统,其进一步包括上面存储有计算机可读指令的一个或多个存储器,所述计算机可读指令当由所述一个或多个计算节点执行时引起所述系统至少:通过至少将有关所述第一列和所述第二列的所述第二重合估计与有关两个或多个额外列的额外重合估计进行比较来识别所述联结路径。4.如权利要求1所述的系统,其进一步包括上面存储有计算机可读指令的一个或多个存储器,所述计算机可读指令当由所述一个或多个计算节点执行时引起所述系统至少:通过至少从所述第一超级重对数和所述第二超级重对数的并集减去所述第一超级重对数和所述第二超级重对数的所述交集来形成所述第二重合估计。5.如权利要求1所述的系统,其进一步包括上面存储有计算机可读指令的一个或多个存储器,所述计算机可读指令当由所述一个或多个计算节点执行时引起所述系统至少:通过至少执行所述多个行的第一扫描来形成多个超级重对数;以及通过至少执行所述多个行的第二扫描来形成所述第一超级重对数,其中所述第一超级重对数的大小大于在所述第一扫描期间形成的所述多个超级重对数中的超级重对数的大小。6.一种系统,其包括:一个或多个处理器;以及一个或多个存储器,所述存储器上存储有指令,所述指令当由一个或多个计算设备执行时引起所述一个或多个计算设备至少:至少部分基于多个行中的第一多个字段形成第一概率计数结构,所述...
【专利技术属性】
技术研发人员:阿努拉格·温德拉斯·古普塔,蒂莫西·安德鲁·拉斯,斯里尼瓦桑·孙达尔·拉加万,桑托什·凯克,
申请(专利权)人:亚马逊技术有限公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。