一种用于实现数据仓储系统的设备和方法。根据第一实施例,一种系统可以包括:多个数据仓库;和数据仓库管理器,其被配置成从一个或更多个数据源提取数据集合以存储在所述多个数据仓库中的一个或更多个中。包括所述多个数据仓库中的两个或更多个数据仓库的第一子集中的每个数据仓库都被配置成存储由所述数据仓库管理器提取的第一数据集合的相应副本。此外,所述数据仓库管理器还可以被配置成在所述第一数据集合的每个相应副本被存储到所述第一子集中的对应数据仓库之前允许由数据仓库的所述第一子集中的一个数据仓库对依赖于所述第一数据集合的查询进行评估。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及计算机系统,更具体地说,涉及数据仓储系统的实现。
技术介绍
随着企业内的商业机能数量的增加,企业所产生的数据量也相应 地增加了。这种数据可能分布在整个企业内,例如在由不同部门或地 理单元实现的数据库系统和其他类型的系统内。在某些情况下,可以 跨越现有系统或位置之间的自然边界对企业数据进行有用分析。为了 便于进行这种分析,可以采用数据仓储系统将来自多个不同系统或位 置的数据汇集在单个系统内,如单个数据库内。随后,分析工具可以 将该单个、经汇集的系统而不是各种分布式数据源作为目标,这可以 简化分析工具的设计并改进分析性能。通常,数据仓储系统利用被配置成提供所需分析性能的高端计算 机系统来支持对非常大量的数据的存储和查询。然而,非常适合于特 定数据仓储应用的高端系统的采购和维护费用可能是高昂的,并且可 能无法随着企业的数据仓储需求的增长而扩缩。如果例如由于昂贵而 只提供单个数据仓储系统,那么在该单个仓库发生故障时会损害数据 可用性。另一方面,如果提供多个数据仓储系统,那么分析应用会丧 失采用单个、经汇集的数据源的简单性。例如,可能需要将分析应用 配置成对多个数据仓库内的期望数据的位置进行跟踪。
技术实现思路
公开了用于实现数据仓储系统的设备和方法的各种实施例。根据一个实施例, 一种系统可以包括若干数据仓库;和数据仓库管理器, 其被配置成从一个或更多个数据源提取数据集合以存储在所述多个数据仓库中的一个或更多个中。两个或更多个数据仓库中的每一个都可 被配置成存储由所迷数据仓库管理器提取的数据集合的相应副本。此 外,所述数据仓库管理器可以被配置成在所述数据集合的每个相应副 本被存储到对应的一个另外数据仓库之前允许由所述多个数据仓库中 的一个数据仓库对依赖于所述数据集合的查询进行评估。类似地,所 述数据仓库管理器还可以被配置成在已将所述数据集合的修改复制到 对应的另外数据仓库之前允许由所述多个数据仓库中的 一个数据仓库 对依赖于所述数据集合的查询进行评估。还构思了 一种方法,根据一个实施例,该方法可以包括以下步骤 从一个或更多个数据源提取数据集合以存储在一个或更多个数据仓库 中;将第 一数据集合的相应副本存储在包括两个或更多个数据仓库的 第一子集中的每个数据仓库中;以及在所述第一数据集合的每个相应 副本被存储到所述第 一子集中的对应数据仓库之前允许由数据仓库的 所述第 一子集中的一个数据仓库对依赖于所述第 一数据集合的查询进 行评估。根据第二实施例, 一种系统可以包括多个数据仓库,其被配置 成存储从一个或更多个数据源提取的数据集合;和数据仓库管理器, 其被配置成将所述多个数据仓库作为单个数据仓库呈现给客户机。所 述多个数据仓库内的所述数据集合的位置对于所述客户机来说可以是 透明的。而且,在给定时刻,由第一数据仓库存储的并且在所述给定 时刻可供所述客户机进行查询的第 一数据集合可能与由第二数据仓库 存储的并且在所述给定时刻也可供所述客户机进行查询的第二数据集 合不相似。所述数据仓库管理器还可以被配置成响应于接收到来自所 述客户机的针对由所述多个数据仓库中的一个或更多个数据仓库所存 储的数据集合的查询的接收,对所述多个数据仓库中的能够对所述查 询进行评估的一个特定数据仓库进行识别并将所述查询传送给所述特 定数据仓库以进行评估。还构思了一种方法,根据一个实施例,该方法可以包括以下步骤 从一个或更多个数据源提取数据集合以存储在一个或更多个数据仓库中,并将所述多个数据仓库作为单个数据仓库呈现给客户机。所述多 个数据仓库内的所述数据集合的位置对于所述客户机来说可以是透明 的。响应于对来自所述客户机的针对由所述多个数据仓库中的 一个或 更多个数据仓库所存储的数据集合的查询的接收,该方法还可以包括以下步骤对所述多个数据仓库中的能够对所述查询进行评估的一个评估。在给定时刻,、由第一数据仓库存储的并且在所述给定时刻可供 所述客户机进行查询的第 一数据集合可能与由笫二数据仓库存储的并 且在所述给定时刻可供所述客户机进行查询的第二数据集合不相似。附图说明图l是例示了数据仓储系统的一个实施例的框图。 图2是例示了跨越多个数据仓库的数据集合复制处理的一个实施 例的框图。图3是例示了利用粗同步将所提取的数据存储在数据仓库中的方 法的一个实施例的流程图。图4是例示了利用粗同步对由数据仓库存储的数据进行查询的方 法的一个实施例的流程图。图5A是例示了在粗同步下在数据集合更新与查询之间的关系的 一个实施例的时序图。图5B到5D是例示了利用粗同步而复制的数据集合的一个示例 性实施例的框图。图6是例示了将数据仓库可视化给客户的方法的 一个实施例的流程图。图7是例示了数据仓库计算集群的一个实施例的框图。 图8是例示了计算机系统的示例性实施例的框图。 尽管本专利技术容许各种修改和另选形式,但是在附图中以示例的方 式示出了其特定实施例,在此将对这些具体实施例进行详细描述。然 而,应当理解,附图及其详细描述并不旨在将本专利技术局限于所公开的具体形式,而是相反,旨在覆盖落在如所附权利要求所限定的本专利技术 的精神和范围内的所有变型例、等同物以及另选例。具体实施方式 数据仓储系统的概述在某些复杂的企业计算环境中,各种数据源可能分布在整个企业 内。例如,企业可能对于不同的商业机能(如会计、财务、电子商务、 人力资源、采购、制造、分发等)实现多个独立的计算机系统和/或应 用。此外,这种系统和/或应用可能在地理上是分散的和重复的,例如 在各分发地点处提供有分发管理系统。在某些这种企业中,数据库或 其他数据存储体以及分析工具和其他应用可能对于一地点或机能来说 是专用的,并且可以外部地与其他机能或地点的系统相交互。为特定商业机能或地点只提供其执行其大部分任务所需要的数 据和资源可以避免在企业内对过度或冗余资源进行分配。然而,在某 些情况下,可能需要对来自整个企业的数据作为整体进行分析。例如, 对企业范围的财务或生产趋势的分析可能依赖于在多个不同地点处或 跨越不同部门所产生和保持的数据。在某些情况下,可以将数据分析 工具配置成对跨越多个商业机能的复杂相互关系进行检测,这种相互 关系不能直接通过对孤立的单个机能的分析辨别出。例如,在员工经 验与培训(由人力资源来跟踪)、分发生产率与财务业绩(例如,由 于分发错误而导致的产品回报额的减少)之间可能存在关系。可以通 过对来自这些机能中的每一个的数据集体地针对互相关性进行检查来 识别这种关系。在某些实施例中,企业可以提供集中化数据仓储系统以便于对企 业范围的数据进行处理和分析。 一般来讲,数据仓库可以包括被配置 成将存储在一个或更多个数据源中的数据汇集起来的数据库或其他数 据储存库。数据源自身可以是企业内的存储或产生数据的其他数据库 或其他应用。通常,存储在数据仓库内的数据是存储在企业内的其他 地方的数据的衍生物。然而,在某些情况下,也可以将数据仓库配置成用作针对某些数据(如企业范围的分析数据,或者甚至企业机能或 地点数据)的主储存器。在图1中例示了数据仓库系统的一个实施例。在所例示的实施例中,数据仓库系统100包括被配置成与由图1中的数据仓库120a到 120d表示的多个数据仓库相交互的数据仓库管理器110。图l所例示 的本文档来自技高网...
【技术保护点】
一种系统,该系统包括:多个数据仓库;和数据仓库管理器,其被配置成从一个或更多个数据源提取数据集合以存储在所述多个数据仓库中的一个或更多个中;其中包括所述多个数据仓库中的两个或更多个数据仓库的第一子集中的每个数据仓库都被配置成存储由所述数据仓库管理器提取的第一数据集合的相应副本;并且其中所述数据仓库管理器还被配置成在所述第一数据集合的每个相应副本已被存储到所述第一子集中的对应数据仓库之前允许由数据仓库的所述第一子集中的一个数据仓库对依赖于所述第一数据集合的查询进行评估。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:克里斯托弗R贝尔,保罗J博得,马克E邓拉普,
申请(专利权)人:亚马逊科技公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。