用于通过在柱状数据结构中提供数据记录而确定规则的方法技术

技术编号:9622158 阅读:207 留言:0更新日期:2014-01-30 12:19
本发明专利技术提供一种用于确定第一规则(401-407)的计算机实现的方法,其中每个第一规则包括源属性值对和目的属性值对。列式数据库包括多个(214;609)列式数据结构(109,110;225,226,227),每个列式数据结构与一个列属性(215-224)相关联并且包括一个或者多个列条目(235)。第一数据记录(213,230-234)被存储在所述列式数据库中。存在掩码数据结构(320-323),以及每个掩码数据结构具有与所述列式数据结构中的一个列式数据结构相同的结构。所述掩码数据结构包括一个或者多个第二属性值对。通过求交所述列式数据结构和所述掩码数据结构,选择第二数据记录作为所述第一数据记录的子集。选择列属性中的一个以及包含在与所述列属性相关联的所述列式数据结构中的一个值,作为所述目的属性值对。创建针对所述第二数据记录的每个第一属性值对的一个第二规则。针对每个第二规则而计算同现计数。选择一个或者多个所述第二规则作为所述第一规则。

Method for determining rules by providing data records in a columnar data structure

The present invention provides a computer implementation method for determining the first rule (401-407), wherein each first rule comprises a source attribute value pair and a destination property value pair. Column database includes a plurality of columns (214; 609) data structure (109110; 225226227), each column type data structure and a list of attributes (215-224) related to and including one or more entries listed (235). The first data record (213230-234) is stored in the column database. The presence mask data structure (320-323), and each mask data structure has the same structure as one of the column data structures in the column data structure. The mask data structure includes one or more second attribute value pairs. By accessing the column data structure and the mask data structure, second data records are selected as subsets of the first data record. One of the column attributes is selected, and a value contained in the column data structure associated with the column attribute is used as the destination property value pair. A second rule for each first attribute value pair for the second data record is created. The co-occurrence count is computed for each of the second rules. One or more of the second rules are selected as the first rule.

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及数据挖掘领域,并且更具体地,涉及规则确定的领域。
技术介绍
数据挖掘是从大数据集提取模式(pattern)的过程。数据挖掘允许从为数众多的数据提取知识,由于该数据的结构和/或数量,因而该数据不适合于人类解译或者评估。数据挖掘中的一个问题在于,非假设驱动的方案(non-hypothesis driven)倾向于较慢,并且由此不能交互式使用。基于假设驱动的方案(例如,使用OLAP立方体)典型地需要较少计算能力,但是受限于假设的存在和使用。然而,通常,此类假设并非已知,而是作为数据挖掘的目标用于自动确定似是而非的假设,并且用于进一步基于所述假设来执行向下钻取分析。由于由非假设驱动的方案需要大量处理能力,针对实时地并且交互式的非假设驱动的数据挖掘方案存在需求,要求其能够处理大量数据。US20100235335公开了一种支持高的吞吐量读取性能的提供列存储数据库系统的方法。US20050278286公开了一种在构造用于过滤数据库列的查询以及用于向用户显示经过滤的信息期间,提供数据挖掘接口的方法。现有技术的列式数据库系统不能提供新候选规则的交互式实时标识。例如,已知的列式数据库为Vertica、ParAccel> Infobright、Sybase IQ 等。
技术实现思路
本专利技术的实施方式的一个目的在于,提供一种用于自动确定规则的改进的计算机实现的方法、数据处理系统和相应的计算机程序产品。所述目的通过独立权利要求的主题而实现。在从属权利要求中描述了实施方式的优势。本专利技术的实施方式提供了一种适合于解决各种数据挖掘相关问题的实时交互分析。例如,可以快速标识在制造场合中导致问题的关键影响因素。可以标识共享给定行为的客户,并且可以标识并且在未来分析中跳过对于所选择属性值并不显著的信息。“面向列的数据库”或者“列式数据库”是存储其内容的数据库,S卩,通过列而不是行来包括属性值配对的数据记录。数据库必须将其二维表转换为一维的字节序列,以便将其数据内容写入至RAM和/或硬盘驱动。面向行的数据库将行中的全部值序列化在一起,继而处理下一行中的值,以此类推。相比于面向行的数据库,面向列的数据库将列的全部值以串行方式一起写入到存储器,继而处理下一列的值,以此类推。如在此使用的“列式数据结构”是表数据结构,其具有所指派的列特定的属性(也被称作“列属性”)并且包括列条目的集合,由此每个列条目包括这样的数据值,该数据值对于所述列式数据结构是唯一的并且已经被指派给一个或者多个数据记录的相应“记录属性”。在此使用的表达式“匹配属性值对”是指包括第一和第二属性值对并且返回布尔值“真”或者“假”响应的任何表达式。例如,此类比较可以包括:第一步,确定第一和第二属性值对是否相等;并且可以包括第二步,另外确定第一属性值对的值是否等于第二属性值的对。在所比较的第一和第二属性值对的属性以及值相等的情况下,返回肯定的匹配结果“真”。依赖于实施方式,匹配属性值对可以基于比特矢量的重叠或者其他数据结构。“掩码(mask)数据结构”是与列式数据结构具有相同结构的数据结构。掩码数据结构具有所指派的一个列式属性,并且可以包括一个或者多个列条目,每个列条目包括数据值但没有计数信息。通过将掩码数据结构与具有所指派相同列属性的列式数据结构求交(intersect),可以确定包括匹配于掩码数据结构中所包括的值及其特定列式属性的属性值对。在此使用的术语“规则”涵盖包括源属性值对和目的属性值对的数据结构。另夕卜,规则可以包括指示源属性值与所评估数据集内的目的属性值一起出现的频率的同现(cooccurrence)计数。包括同现计数的规则由此可以指示特定属性值对,即源属性值对与感兴趣的另一属性值对(即,目的属性值对)同现的频率如何。通过评估数据记录集合来自动提取具有特定同现计数的规则的任务由此被认为是用于提取相关属性值对的数据挖掘任务。术语“机器可读介质”应当被认为包括单介质或者多介质(例如,集中式的或者分布式数据库,和/或相关联的高速缓存与服务器),其存储数据和/或计算机可解译的指令。术语“计算机可读非暂态存储介质”由此应当被认为包括但不限于,固态存储器、光学和磁性介质等,诸如但不限于包括软盘、光盘、CD-ROM、和磁光盘的任何类型的磁盘、只读存储器(ROM),随机访问存储器(RAM)、可擦除可编程只读存储器(EPROM或者闪存)、光纤、磁性或者光学卡、或者适合于存储电子指令的任何类型的介质。数据挖掘中的典型任务是通过分析包括众多属性值对的数据记录集,来确定指示存在特定目的属性值对的那些属性值对。例如,公司的机器农场的操作员可能对确定全部影响因素(诸如,湿度、温度、年龄、位置或者其他可能影响机器的生命期望的属性)感兴趣。通常可以假定此类关系:可以通过分析从多个机器采集的数据记录,而确定在特定属性值对(例如,“温度>50°C”)和特定目的属性值对“生命期望〈3年”之间是否可以找到统计关联。本专利技术的实施方式允许弹性地并且交互地确定此类影响。当与诸如OLAP立方体的假设驱动的数据挖掘方案结合时,本专利技术的实施方式提供高度优越的数据挖掘方案,其允许在假设驱动的方案和非假设驱动的方案之间按需动态切换。在一个方面,本专利技术涉及一种用于确定第一规则的计算机实现的方法,其中每个第一规则包括源属性值对和目的属性值对。该方法包括如下步骤:-提供列式数据库,所述列式数据库包括多个列式数据结构,每个列式数据结构与一个列属性相关联并且包括一个或者多个列条目,-提供第一数据记录,所述第一数据记录存储在列式数据库中,每个第一数据记录具有多个第一属性值对,其中每个所述第一属性值对被存储在与相应列属性相关联的列式数据结构中的一个中,其中每个列条目与相应列属性的一个值相关联并且包括计数信息,所述计数信息指示具有相应第一属性值对的第一数据记录;-提供掩码数据结构,每个掩码数据结构具有与列式数据结构中的一个列式数据结构相同的结构,所述掩码数据结构包括一个或者多个第二属性值对;-通过求交所述列式数据结构和所述掩码数据结构,来选择第二数据记录作为所述第一数据记录的子集,所述第二数据结构选择性地包括第一数据记录,所述第一数据记录包括匹配于所述一个或者多个第二属性值对的至少一个第一属性值对;-选择所述列属性中的一个列属性以及包含在与所述列属性相关联的列数据结构中的一个值作为目的属性值对;-针对所述第二数据记录的每个第一属性值对来创建一规则,其中所述第一属性值对被用于所述第二规则的源属性值,并且其中所选择的目的属性值对被用作所述第二规则的所述目的属性值对,-针对每个第二规则创建其相应源属性值对及其目的属性值对之间的同现计数,以及-独立于计算的所述同现计数,特定地选择所述第二规则中的一个或者多个作为所述第一规则。“目的属性值对”是规则的任何属性值对,用户对该规则感兴趣、并且希望针对其来从多个数据记录自动提取预测性参数值。例如,用户可以评估多个数据记录,该多个数据记录包括机器状态记录并结合有多个环境参数,诸如温度、湿度、机器年龄、机器的操作员等等。多个状态值(例如,“故障”和“可操作”)已经被记录。通过选择属性值对“状态=故障”作为目的属性值对,根据本专利技术的实施方式,用户可以触发这些属性值对的自本文档来自技高网...

【技术保护点】
一种用于确定第一规则(401?407)的计算机实现的方法,其中每个第一规则包括源属性值对和目的属性值对,所述方法包括步骤:?提供列式数据库,所述列式数据库包括多个(214;609)列式数据结构(109,110;225,226,227),每个列式数据结构与一个列属性(215?224)相关联并且包括一个或者多个列条目(235);?提供第一数据记录(213,230?234),所述第一数据记录被存储在所述列式数据库中,每个第一数据记录具有多个第一属性值对,其中所述第一属性值对的每个值被存储在与相应列属性(215?224)相关联的所述列式数据结构(225?227)中的一个列式数据结构中,其中每个列条目与所述相应列属性的一个值相关联并且包括计数信息,所述计数信息指示具有所述相应第一属性值对的第一数据记录的数量;?提供掩码数据结构(320?323),每个掩码数据结构具有与所述列式数据结构中的一个列式数据结构相同的结构,所述掩码数据结构包括一个或者多个第二属性值对;?通过求交所述列式数据结构和所述掩码数据结构,选择第二数据记录作为所述第一数据记录的子集,所述第二数据记录选择性地包括第一数据记录,所述第一数据记录包括与所述一个或者多个第二属性值对中的一个第二属性值对相匹配的至少一个第一属性值对;?选择所述列属性中的一个列属性以及包含在与所选择的所述列属性相关联的所述列数据结构中的一个值作为所述目的属性值对;?创建用于所述第二数据记录的每个第一属性值对的一个第二规则,其中所述第一属性值对被用作所述第二规则的源属性值对,以及其中所选择的所述目的属性值对被用作所述第二规则的目的属 性值对;?针对每个第二规则计算在其相应源属性值对和其目的属性值对之间的同现计数;以及?依赖于计算的所述同现计数,特别地选择一个或者多个所述第二规则作为所述第一规则。...

【技术特征摘要】
【国外来华专利技术】2011.05.31 EP 11168163.11.一种用于确定第一规则(401-407)的计算机实现的方法,其中每个第一规则包括源属性值对和目的属性值对,所述方法包括步骤: -提供列式数据库,所述列式数据库包括多个(214 ;609)列式数据结构(109,110 ;225,226, 227),每个列式数据结构与一个列属性(215-224)相关联并且包括一个或者多个列条目(235); -提供第一数据记录(213,230-234),所述第一数据记录被存储在所述列式数据库中,每个第一数据记录具有多个第一属性值对,其中所述第一属性值对的每个值被存储在与相应列属性(215-224)相关联的所述列式数据结构(225-227)中的一个列式数据结构中,其中每个列条目与所述相应列属性的一个值相关联并且包括计数信息,所述计数信息指示具有所述相应第一属性值对的第一数据记录的数量; -提供掩码数据结构(320-323),每个掩码数据结构具有与所述列式数据结构中的一个列式数据结构相同的结构,所述掩码数据结构包括一个或者多个第二属性值对; -通过求交所述列式数据结构和所述掩码数据结构,选择第二数据记录作为所述第一数据记录的子集,所述第二数据记录选择性地包括第一数据记录,所述第一数据记录包括与所述一个或者多个第二属性值对中的一个第二属性值对相匹配的至少一个第一属性值对; -选择所述列属性中的一个列属性以及包含在与所选择的所述列属性相关联的所述列数据结构中的一个值作为所述目的属性值对; -创建用于所述第二数据记录的每个第一属性值对的一个第二规则,其中所述第一属性值对被用作所述第二规则的源属性值对,以及其中所选择的所述目的属性值对被用作所述第二规则的目的属性值对; -针对每个第二规则计算在其相·应源属性值对和其目的属性值对之间的同现计数;以及 -依赖于计算的所述同现计数,特别地选择一个或者多个所述第二规则作为所述第一规则。2.根据权利要求2所述的计算机实现的方法,其中特别地选择一个或者多个所述第二规则包括,从包括如下的群组中选择的步骤: -以降序顺序来根据所述第二规则的同现计数来对所述第二规则排序,以及选择第一η个所排序的规则作为η个第一规则,其中η是>0的整数; -确定具有超过第一阈值的同现计数的η个第二规则,以及选择所述η个第二规则作为第一规则,其中η是>0的整数; -针对每个第二规则计算同现统计,向所述第二规则中的每一个第二规则提供显著度得分,并且选择具有超过第二阈值的显著度得分的所述第二规则中的η个第二规则,其中η是>0的整数。3.根据权利要求2所述的计算机实现的方法,其中所述同现统计是基于卡方测试的。4.根据权利要求1-3中的任一项所述的计算机实现的方法,其中选择所述目的属性值对是通过执行向用户显示图形化用户界面(601)的步骤来实现的,所述图形化用户界面包括一个或者多个第一 GUI元素,用于由所述用户从所述列属性中选择一个列属性,所述图形化用户界面包括一个或者多个第二 GUI元素,用于从具有所指派的选择的所述列属性的所述列式数据结构选择一个值,其中选择的所述列属性和选择的所述值构成所述目的属性值对。5.根据权利要求4所述的计算机实现的方法,其中所述第一GUI元素和所述第二 GUI元素是通过分析所述列式数据结构的所述结构和数据内容来自动地确定。6.根据权利要求1-5中的任一项所述的计算机实现的方法,其中所述列式数据结...

【专利技术属性】
技术研发人员:M·伍斯特E·黑希勒M·奥博霍费尔P·丹特雷桑格尔
申请(专利权)人:国际商业机器公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1