用于进行数据仓储的系统和方法技术方案

技术编号:6184344 阅读:209 留言:0更新日期:2012-04-11 18:40
一种用于实现数据仓储系统的系统和方法。根据第一实施例,一种系统可以包括:多个数据仓库;和数据仓库管理器,其被配置成从一个或更多个数据源提取数据集合以存储在所述多个数据仓库中的一个或更多个中。包括所述多个数据仓库中的两个或更多个数据仓库的第一子集中的每个数据仓库都被配置成存储由所述数据仓库管理器提取的第一数据集合的相应副本。此外,所述数据仓库管理器还可以被配置成在所述第一数据集合的每个相应副本被存储到所述第一子集中的对应数据仓库之前允许由数据仓库的所述第一子集中的一个数据仓库对依赖于所述第一数据集合的查询进行评估。

【技术实现步骤摘要】

本专利技术涉及计算机系统,更具体地说,涉及数据仓储系统的实现。
技术介绍
随着企业内的商业机能数量的增加,企业所产生的数据量也相应地增加了。这种 数据可能分布在整个企业内,例如在由不同部门或地理单元实现的数据库系统和其他类型 的系统内。在某些情况下,可以跨越现有系统或位置之间的自然边界对企业数据进行有用 分析。为了便于进行这种分析,可以采用数据仓储系统将来自多个不同系统或位置的数据 汇集在单个系统内,如单个数据库内。随后,分析工具可以将该单个、经汇集的系统而不是 各种分布式数据源作为目标,这可以简化分析工具的设计并改进分析性能。通常,数据仓储系统利用被配置成提供所需分析性能的高端计算机系统来支持对 非常大量的数据的存储和查询。然而,非常适合于特定数据仓储应用的高端系统的采购和 维护费用可能是高昂的,并且可能无法随着企业的数据仓储需求的增长而扩缩。如果例如 由于昂贵而只提供单个数据仓储系统,那么在该单个仓库发生故障时会损害数据可用性。 另一方面,如果提供多个数据仓储系统,那么分析应用会丧失采用单个、经汇集的数据源的 简单性。例如,可能需要将分析应用配置成对多个数据仓库内的期望数据的位置进行跟踪。
技术实现思路
公开了用于实现数据仓储系统的设备和方法的各种实施例。根据一个实施例,一 种系统可以包括若干数据仓库;和数据仓库管理器,其被配置成从一个或更多个数据源 提取数据集合以存储在所述多个数据仓库中的一个或更多个中。两个或更多个数据仓库中 的每一个都可被配置成存储由所述数据仓库管理器提取的数据集合的相应副本。此外,所 述数据仓库管理器可以被配置成在所述数据集合的每个相应副本被存储到对应的一个另 外数据仓库之前允许由所述多个数据仓库中的一个数据仓库对依赖于所述数据集合的查 询进行评估。类似地,所述数据仓库管理器还可以被配置成在已将所述数据集合的修改复 制到对应的另外数据仓库之前允许由所述多个数据仓库中的一个数据仓库对依赖于所述 数据集合的查询进行评估。还构思了一种方法,根据一个实施例,该方法可以包括以下步骤从一个或更多个 数据源提取数据集合以存储在一个或更多个数据仓库中;将第一数据集合的相应副本存储 在包括两个或更多个数据仓库的第一子集中的每个数据仓库中;以及在所述第一数据集合 的每个相应副本被存储到所述第一子集中的对应数据仓库之前允许由数据仓库的所述第 一子集中的一个数据仓库对依赖于所述第一数据集合的查询进行评估。根据第二实施例,一种系统可以包括多个数据仓库,其被配置成存储从一个或更多个数据源提取的数据集合;和数据仓库管理器,其被配置成将所述多个数据仓库作为单 个数据仓库呈现给客户机。所述多个数据仓库内的所述数据集合的位置对于所述客户机来 说可以是透明的。而且,在给定时刻,由第一数据仓库存储的并且在所述给定时刻可供所述 客户机进行查询的第一数据集合可能与由第二数据仓库存储的并且在所述给定时刻也可 供所述客户机进行查询的第二数据集合不相似。所述数据仓库管理器还可以被配置成响应 于接收到来自所述客户机的针对由所述多个数据仓库中的一个或更多个数据仓库所存储 的数据集合的查询的接收,对所述多个数据仓库中的能够对所述查询进行评估的一个特定 数据仓库进行识别并将所述查询传送给所述特定数据仓库以进行评估。还构思了一种方法,根据一个实施例,该方法可以包括以下步骤从一个或更多个 数据源提取数据集合以存储在一个或更多个数据仓库中,并将所述多个数据仓库作为单个 数据仓库呈现给客户机。所述多个数据仓库内的所述数据集合的位置对于所述客户机来说 可以是透明的。响应于对来自所述客户机的针对由所述多个数据仓库中的一个或更多个数 据仓库所存储的数据集合的查询的接收,该方法还可以包括以下步骤对所述多个数据仓 库中的能够对所述查询进行评估的一个特定数据仓库进行识别并将所述查询传送给所述 特定数据仓库以进行评估。在给定时刻,由第一数据仓库存储的并且在所述给定时刻可供 所述客户机进行查询的第一数据集合可能与由第二数据仓库存储的并且在所述给定时刻 可供所述客户机进行查询的第二数据集合不相似。附图说明图1是例示了数据仓储系统的一个实施例的框图。图2是例示了跨越多个数据仓库的数据集合复制处理的一个实施例的框图。图3是例示了利用粗同步将所提取的数据存储在数据仓库中的方法的一个实施 例的流程图。图4是例示了利用粗同步对由数据仓库存储的数据进行查询的方法的一个实施 例的流程图。图5A是例示了在粗同步下在数据集合更新与查询之间的关系的一个实施例的时 序图。图5B到5D是例示了利用粗同步而复制的数据集合的一个示例性实施例的框图。图6是例示了将数据仓库可视化给客户的方法的一个实施例的流程图。图7是例示了数据仓库计算集群的一个实施例的框图。图8是例示了计算机系统的示例性实施例的框图。尽管本专利技术容许各种修改和另选形式,但是在附图中以示例的方式示出了其特定 实施例,在此将对这些具体实施例进行详细描述。然而,应当理解,附图及其详细描述并不 旨在将本专利技术局限于所公开的具体形式,而是相反,旨在覆盖落在如所附权利要求所限定 的本专利技术的精神和范围内的所有变型例、等同物以及另选例。具体实施例方式数据仓储系统的概述在某些复杂的企业计算环境中,各种数据源可能分布在整个企业内。例如,企业可 7能对于不同的商业机能(如会计、财务、电子商务、人力资源、采购、制造、分发等)实现多个 独立的计算机系统和/或应用。此外,这种系统和/或应用可能在地理上是分散的和重复 的,例如在各分发地点处提供有分发管理系统。在某些这种企业中,数据库或其他数据存储 体以及分析工具和其他应用可能对于一地点或机能来说是专用的,并且可以外部地与其他 机能或地点的系统相交互。为特定商业机能或地点只提供其执行其大部分任务所需要的数据和资源可以避 免在企业内对过度或冗余资源进行分配。然而,在某些情况下,可能需要对来自整个企业的 数据作为整体进行分析。例如,对企业范围的财务或生产趋势的分析可能依赖于在多个不 同地点处或跨越不同部门所产生和保持的数据。在某些情况下,可以将数据分析工具配置 成对跨越多个商业机能的复杂相互关系进行检测,这种相互关系不能直接通过对孤立的单 个机能的分析辨别出。例如,在员工经验与培训(由人力资源来跟踪)、分发生产率与财务 业绩(例如,由于分发错误而导致的产品回报额的减少)之间可能存在关系。可以通过对 来自这些机能中的每一个的数据集体地针对互相关性进行检查来识别这种关系。在某些实施例中,企业可以提供集中化数据仓储系统以便于对企业范围的数据进 行处理和分析。一般来讲,数据仓库可以包括被配置成将存储在一个或更多个数据源中的 数据汇集起来的数据库或其他数据储存库。数据源自身可以是企业内的存储或产生数据的 其他数据库或其他应用。通常,存储在数据仓库内的数据是存储在企业内的其他地方的数 据的衍生物。然而,在某些情况下,也可以将数据仓库配置成用作针对某些数据(如企业范 围的分析数据,或者甚至企业机能或地点数据)的主储存器。在图1中例示了数据仓库系统的一个实施例。在所例示的实施例中,数据仓库系 统100包括被配置成与由图1中的数据仓库120a到120d表示的多个数据仓库相交互的数 据仓库管理器110。图1所例示的数本文档来自技高网...

【技术保护点】
1.一种系统,该系统包括:多个数据仓库,其被配置成存储从一个或更多个数据源提取的数据集合;以及数据仓库管理器,其被配置成将所述多个数据仓库作为单个数据仓库呈现给客户机,其中所述多个数据仓库内的所述数据集合的位置对于所述客户机是透明的;其中,在给定时刻,由所述多个数据仓库中的第一数据仓库存储的并且在所述给定时刻可供所述客户机进行查询的第一数据集合与由所述多个数据仓库中的第二数据仓库存储的并且在所述给定时刻可供所述客户机进行查询的第二数据集合不相似;并且其中,响应于接收到来自所述客户机的针对由所述多个数据仓库中的一个或更多个数据仓库存储的数据集合的查询,所述数据仓库管理器还被配置成识别所述多个数据仓库中的能够对所述查询进行评估的一个特定数据仓库,并将所述查询传送给所述特定数据仓库以进行评估。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:克里斯托弗·R·贝尔保罗·J·博得马克·E·邓拉普
申请(专利权)人:亚马逊科技公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1