当前位置: 首页 > 专利查询>微软公司专利>正文

结合多维表达式和数据挖掘扩展来挖掘OLAP立方体制造技术

技术编号:2856912 阅读:197 留言:0更新日期:2012-04-11 18:40
一种结合多维表达式(例如MDX)和数据挖掘扩展(例如DMX)用于对驻留于OLAP立方体的数据执行数据挖掘操作的语言模式。该模式提供的〈source-data-query〉可不仅是关系查询,而且是例如使用MDX形成的多维查询。描述了模型创建、训练以及预测的操作。

【技术实现步骤摘要】

本专利技术涉及数据库,尤其涉及用于搜索和分析数据库的方法。
技术介绍
诸如因特网的全球通信网络的出现一直维持着大量信息的交换。另外,存储和维护这样信息的成本已下降,导致需访问巨大的数据存储结构。大量的数据可以一个数据仓库的方式来存储,即一般表示机构商务历史的数据仓库。该历史数据可用来作支持从各个机构的战略计划到业绩评估的多层次商业决策的分析。它还可涉及获得存储在关系数据库中的数据并处理该数据,以使其成为用于查询和分析的更有效工具。为了以较小规模更有效地管理数据仓库,采用了数据中心的概念,其中仅管理该数据的目标子集。尽管许多用于数据定义和处理的语言,诸如结构化查询语言(SQL),被设计成检索两维数据,但在另一方面,多维数据可由两维以上的结构来表示。这些多维结构称之为立方体(cube)。立方体是一种类似于3D电子表格来表示数据的多维数据库,而不是关系数据库。通过采用维数和度量的概念,立方体使得数据的不同示图能够快速显示。维数定义立方体的结构(例如地理位置或产品类型),而度量向终端用户提供感兴趣的量值(例如销售额、库存量、以及总支出)。立方体中的单元位置由维数成员的交叉来定义,而度量值可合计提供单元中的值。数据仓库或数据中心的信息可使用在线分析处理(OLAP)来处理。OLAP按立方体查看数据。OLAP使数据仓库和数据中心能有效地用于在线分析,并对迭代式复杂分析查询提供快速响应。OLAP系统提供支持实时分析的速度和灵活性。可便于OLAP作多维查询和分析的一常规体系架构是MDX(多维表达式)。MDX是一种语法,它支持多维对象和数据的定义和处理从而便于更简便及更直觉地访问来自多维的数据。MDX在许多方式上与SQL(结构化查询语言)语法相似(但并不是SQL语言的扩展)。像SQL查询一样,每个MDX查询都需要数据请求(SELECT语句)、起点(FROM语句)、和过滤器(WHERE语句)。这些和其它关键字提供用以从立方体提取数据特定部分来进行分析的工具。MDX还提供用于处理被查询数据的健壮的功能集,以及使用用户所定义的功能来扩展MDX的能力。数据挖掘与在数据中查找感兴趣结构(例如模式和规则)有关,这样的结构可解释为有关数据的知识或可用以预测与数据相关的事件。这些结构采用数据集简明描述的模式形式。数据挖掘使得大型数据库的浏览和开采对那些具有数据但却没有统计学或数据分析的若干年经验的人而言简单、方便和实用。由数据挖掘算法所提取的“知识”可具有许多形式和许多用途。它可以是一组规则、决策树、回归模型或一组关联等等的形式。它可用以产生数据的概述,或得以洞察先前未知的相互关系。它还可用以预测与数据有关的事件—例如,丢失数据、某些信息未知的记录等等。有许多不同的数据挖掘技术,其中大多数源自机器学习、统计学、以及数据库编程领域。所需要的是一种便于跨OLAP立方体数据挖掘操作的交互方案。
技术实现思路
以下呈现了本专利技术的简化概述,以便提供对本专利技术某些方面的基本理解。该概述不是本专利技术的扩展性纵览。它并非旨在标识本专利技术的关键或主要元素,或旨在呈现本专利技术的范围。其唯一目的是以简化形式呈现了本专利技术的某些概念,作为以下提供的更详细描述的前言。在此揭示和声明的本专利技术在其一方面中包括一种正式语言,它结合多维扩展(例如MDX)和数据挖掘扩展(例如DMX)用于在驻留于OLAP立方体的数据上执行数据挖掘操作。数据挖掘操作一般在由<source-data-query>指示的源数据集上执行操作。到此为止,<source-data-query>元素是限于直接根据关系数据库动作的关系查询,或取得关系查询并使它们形成嵌套行集合的SHAPE语句。本专利技术提供的<source-data-query>可不仅是关系查询,而且是例如使用MDX形成的多维查询。在本专利技术另一方面,数据挖掘模型可用以根据OLAP立方体中包含的数据来执行预测。在其中另一方面,对于模型创建,本专利技术声明在创建之后直到训练阶段结束为止源数据类型都是未知的且不作设置。在常规系统中,模型的“类型”在创建之后即暗示,其源于关系或源于OLAP的模型。此外,挖掘模型可不管其关系或多维性质而由任意数据源来进行训练。列绑定可通过明确多维和关系源中的列顺序来进行一致的处理,而不像常规系统中三维列绑定是通过挖掘模型和OLAP立方体的名字匹配来暗示的。还有,挖掘模型可不管其关系或多维性质而取作用于预测的数据源、任意数据源。所揭示体系架构使得预测能使用DMX进行,并使OLAP立方体能作源于任何模型的预测而不管它是如何创建或训练的。通常,对OLAP立方体中数据的预测可以MDX的方式执行,且仅使用对同一立方体训练的挖掘模型。为实现前述及相关结果,本方面的某些说明性方面结合以下说明书和附图在此说明。但这些方面仅仅示出了本专利技术诸原理可在其中采用的各种方式的其中几种,且本专利技术旨在包括所有这些方面及其等效方案。结合附图参阅本专利技术的以下详细说明,本专利技术的其它优点和新颖特征会变得显而易见。附图说明图1示出根据本专利技术便于多维表达式和数据挖掘扩展结合的系统。图2示出根据本专利技术一多维数据挖掘方法的流程图。图3示出根据本专利技术将多维表达式用作数据挖掘扩展的输入的示例性方法的流程图。图4示出执行所揭示体系架构的计算机操作的框图。图5示出根据本专利技术示例性计算环境的示意框图。具体实施例方式现在本专利技术参照附图进行描述,其中相同参考标记贯穿全文用来表示相同元件。在以下描述中为了进行解释,许多特定细节被陈述以便提供本专利技术的全面理解。然而,很显然,没有这些特定细节也可实现本专利技术。在其它实例中,众所周知的结构和装置被以框图形式显示,用来有助于描述本专利技术。当用于本专利技术时,术语“组件”和“系统”旨在指计算机相关实体硬件、硬件和软件的组合、软件、或执行中的软件。例如,组件可以是,但不限于是,运行于处理器的过程、处理器、对象、可执行组件、执行线程、程序和/或计算机。作为说明,运行于服务器上的应用和服务器都是组件。一个或多个组件可驻留于执行的过程和/或线程中,且组件可在一台计算机上本地化和/或分布在两台或多台计算机之间。本专利技术提供用于结合多维表达式和数据挖掘扩展的体系架构,以在驻留于OLAP立方体的数据上执行数据挖掘操作。目前,<source-data-query>元素是限于直接对关系数据库动作的关系查询,或取得关系查询并使它们形成嵌套行集合的SHAPE语句。本专利技术提供的<source-data-query>可不仅是关系查询,而且是例如使用多维扩展形成的多维查询。一种这样的方法可通过MDX和DMX实现。MDX是多维表达式的首字母缩写词,由微软公司的OLAP规范的OLE DB定义,在此全文引入作为参考。DMX是数据挖掘规范的首字母缩写词,由微软公司的数据挖掘规范的OLE DB定义,在此全文引入作为参考。为了本说明书,描述模型创建、模型训练、以及根据新数据的预测的操作。在DMX中,这些操作使用语句CREATE MINGING MODEL、INSERT INTO、以及SELCT...PREDICTION JOIN来执行。例如CREATE MI本文档来自技高网
...

【技术保护点】
一种便于在多维数据立方体上作数据挖掘的系统,其特征在于,包括结合多维表达式和数据挖掘扩展以便于所述多维数据立方体的数据挖掘的一组件。

【技术特征摘要】
US 2004-6-22 10/873,6761.一种便于在多维数据立方体上作数据挖掘的系统,其特征在于,包括结合多维表达式和数据挖掘扩展以便于所述多维数据立方体的数据挖掘的一组件。2.如权利要求1所述的系统,其特征在于,所述多维数据立方体是在线分析处理(OLAP)立方体。3.如权利要求1所述的系统,其特征在于,所述组件便于数据立方体上多维查询和关系查询的至少之一。4.如权利要求1所述的系统,其特征在于,所述组件便于可在创建时间和训练时间之一上给出其源数据类型的数据挖掘模型的创建。5.如权利要求1所述的系统,其特征在于,所述组件便于与在其上训练的任何源结构独立的数据挖掘模型的创建。6.如权利要求1所述的系统,其特征在于,所述组件便于从任意数据源训练的数据挖掘模型的创建。7.如权利要求6所述的系统,其特征在于,所述任意数据源是关系的和多维的之一。8.如权利要求1所述的系统,其特征在于,所述组件便于一数据挖掘模型的创建,所述模型使用在关系数据源和多维数据源的至少之一中明确列顺序来进行一致处理的列绑定来训练。9.如权利要求1所述的系统,其特征在于,所述组件便于取得任意数据源用于预测过程的数据挖掘模型的创建。10.如权利要求9所述的系统,其特征在于,所述任意数据源是关系的和多维的之一。11.如权利要求9所述的系统,其特征在于,所述预测过程使用所述数据挖掘扩展进行。12.如权利要求1所述的系统,其特征在于,所述数据立方体可不管所述数据挖掘模型是如何创建或训练的而作源于任何数据挖掘模型的预测。13.如权利要求1所述的系统,其特征在于,所述组件便于三维表达式查询作为所述数据挖掘扩展的输入。14.如权利要求13所述的系统,其特征在于,所述输入用多维扩展查询替换关系查询。15.如权利要求13所述的系统,其特征在于,所述输入是通过将形式查询重写为嵌套表格的多维表达式。16.如权利要求13所述的系统,其特征在于,所述输入通过仅由名字绑定的语句。17.如权利要求1所述的系统,其特征在于,所述组件便于使用所述多维表达式形成的可以是关系查询和多维查询的源/数据/查询元素。18.一种具有存储其上的计算机可执行指令的计算机可读介质,其特征在于,所述指令用于实现如权利要求1所述的系统。19.一种采用如权利要求1所述系统的计算机。20.如权利要求1所述的系统,其特征在于,所述多维表达式和数据挖掘扩展与MDX和DMX的至少之一相对应。21.如权利要求1所述的系统,其特征在于,所述组件便于由关系数据源训练的数据模型的创建,并且其中模型可应用于OLAP立方体的预测。22.如权利要求1所述的系统,其特征在于,所述组件便于由OLAP数据源训练的数据模型的创建,并且其中模型可应用于关系数据预测。23.一种便于OLAP立方体的数据挖掘的系统,其特征在于,包括执行一模式的组件,所述模式结合MDX表达式的多维表达式和DMX扩展的数据挖掘扩展,以便于OLAP数...

【专利技术属性】
技术研发人员:CJ麦克伦南P金唐朝晖
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1