The present invention provides a computer implementation method for determining the first rule (401-407), wherein each first rule comprises a source attribute value pair and a destination property value pair. Column database includes a plurality of columns (214; 609) data structure (109110; 225226227), each column type data structure and a list of attributes (215-224) related to and including one or more entries listed (235). The first data record (213230-234) is stored in the column database. The presence mask data structure (320-323), and each mask data structure has the same structure as one of the column data structures in the column data structure. The mask data structure includes one or more second attribute value pairs. By accessing the column data structure and the mask data structure, second data records are selected as subsets of the first data record. One of the column attributes is selected, and a value contained in the column data structure associated with the column attribute is used as the destination property value pair. A second rule for each first attribute value pair for the second data record is created. The co-occurrence count is computed for each of the second rules. One or more of the second rules are selected as the first rule.
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及数据挖掘领域,并且更具体地,涉及规则确定的领域。
技术介绍
数据挖掘是从大数据集提取模式(pattern)的过程。数据挖掘允许从为数众多的数据提取知识,由于该数据的结构和/或数量,因而该数据不适合于人类解译或者评估。数据挖掘中的一个问题在于,非假设驱动的方案(non-hypothesis driven)倾向于较慢,并且由此不能交互式使用。基于假设驱动的方案(例如,使用OLAP立方体)典型地需要较少计算能力,但是受限于假设的存在和使用。然而,通常,此类假设并非已知,而是作为数据挖掘的目标用于自动确定似是而非的假设,并且用于进一步基于所述假设来执行向下钻取分析。由于由非假设驱动的方案需要大量处理能力,针对实时地并且交互式的非假设驱动的数据挖掘方案存在需求,要求其能够处理大量数据。US20100235335公开了一种支持高的吞吐量读取性能的提供列存储数据库系统的方法。US20050278286公开了一种在构造用于过滤数据库列的查询以及用于向用户显示经过滤的信息期间,提供数据挖掘接口的方法。现有技术的列式数据库系统不能提供新候选规则的交互式实时标识。例如,已知的列式数据库为Vertica、ParAccel> Infobright、Sybase IQ 等。
技术实现思路
本专利技术的实施方式的一个目的在于,提供一种用于自动确定规则的改进的计算机实现的方法、数据处理系统和相应的计算机程序产品。所述目的通过独立权利要求的主题而实现。在从属权利要求中描述了实施方式的优势。本专利技术的实施方式提供了一种适合于解决各种数据挖掘相关问题的实时交互分 ...
【技术保护点】
一种用于确定第一规则(401?407)的计算机实现的方法,其中每个第一规则包括源属性值对和目的属性值对,所述方法包括步骤:?提供列式数据库,所述列式数据库包括多个(214;609)列式数据结构(109,110;225,226,227),每个列式数据结构与一个列属性(215?224)相关联并且包括一个或者多个列条目(235);?提供第一数据记录(213,230?234),所述第一数据记录被存储在所述列式数据库中,每个第一数据记录具有多个第一属性值对,其中所述第一属性值对的每个值被存储在与相应列属性(215?224)相关联的所述列式数据结构(225?227)中的一个列式数据结构中,其中每个列条目与所述相应列属性的一个值相关联并且包括计数信息,所述计数信息指示具有所述相应第一属性值对的第一数据记录的数量;?提供掩码数据结构(320?323),每个掩码数据结构具有与所述列式数据结构中的一个列式数据结构相同的结构,所述掩码数据结构包括一个或者多个第二属性值对;?通过求交所述列式数据结构和所述掩码数据结构,选择第二数据记录作为所述第一数据记录的子集,所述第二数据记录选择性地包括第一数据记录,所述第 ...
【技术特征摘要】
【国外来华专利技术】2011.05.31 EP 11168163.11.一种用于确定第一规则(401-407)的计算机实现的方法,其中每个第一规则包括源属性值对和目的属性值对,所述方法包括步骤: -提供列式数据库,所述列式数据库包括多个(214 ;609)列式数据结构(109,110 ;225,226, 227),每个列式数据结构与一个列属性(215-224)相关联并且包括一个或者多个列条目(235); -提供第一数据记录(213,230-234),所述第一数据记录被存储在所述列式数据库中,每个第一数据记录具有多个第一属性值对,其中所述第一属性值对的每个值被存储在与相应列属性(215-224)相关联的所述列式数据结构(225-227)中的一个列式数据结构中,其中每个列条目与所述相应列属性的一个值相关联并且包括计数信息,所述计数信息指示具有所述相应第一属性值对的第一数据记录的数量; -提供掩码数据结构(320-323),每个掩码数据结构具有与所述列式数据结构中的一个列式数据结构相同的结构,所述掩码数据结构包括一个或者多个第二属性值对; -通过求交所述列式数据结构和所述掩码数据结构,选择第二数据记录作为所述第一数据记录的子集,所述第二数据记录选择性地包括第一数据记录,所述第一数据记录包括与所述一个或者多个第二属性值对中的一个第二属性值对相匹配的至少一个第一属性值对; -选择所述列属性中的一个列属性以及包含在与所选择的所述列属性相关联的所述列数据结构中的一个值作为所述目的属性值对; -创建用于所述第二数据记录的每个第一属性值对的一个第二规则,其中所述第一属性值对被用作所述第二规则的源属性值对,以及其中所选择的所述目的属性值对被用作所述第二规则的目的属性值对; -针对每个第二规则计算在其相·应源属性值对和其目的属性值对之间的同现计数;以及 -依赖于计算的所述同现计数,特别地选择一个或者多个所述第二规则作为所述第一规则。2.根据权利要求2所述的计算机实现的方法,其中特别地选择一个或者多个所述第二规则包括,从包括如下的群组中选择的步骤: -以降序顺序来根据所述第二规则的同现计数来对所述第二规则排序,以及选择第一η个所排序的规则作为η个第一规则,其中η是>0的整数; -确定具有超过第一阈值的同现计数的η个第二规则,以及选择所述η个第二规则作为第一规则,其中η是>0的整数; -针对每个第二规则计算同现统计,向所述第二规则中的每一个第二规则提供显著度得分,并且选择具有超过第二阈值的显著度得分的所述第二规则中的η个第二规则,其中η是>0的整数。3.根据权利要求2所述的计算机实现的方法,其中所述同现统计是基于卡方测试的。4.根据权利要求1-3中的任一项所述的计算机实现的方法,其中选择所述目的属性值对是通过执行向用户显示图形化用户界面(601)的步骤来实现的,所述图形化用户界面包括一个或者多个第一 GUI元素,用于由所述用户从所述列属性中选择一个列属性,所述图形化用户界面包括一个或者多个第二 GUI元素,用于从具有所指派的选择的所述列属性的所述列式数据结构选择一个值,其中选择的所述列属性和选择的所述值构成所述目的属性值对。5.根据权利要求4所述的计算机实现的方法,其中所述第一GUI元素和所述第二 GUI元素是通过分析所述列式数据结构的所述结构和数据内容来自动地确定。6.根据权利要求1-5中的任一项所述的计算机实现的方法,其中所述列式数据结...
【专利技术属性】
技术研发人员:M·伍斯特,E·黑希勒,M·奥博霍费尔,P·丹特雷桑格尔,
申请(专利权)人:国际商业机器公司,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。