一种关联规则及元规则的综合挖掘方法技术

技术编号:2838053 阅读:176 留言:0更新日期:2012-04-11 18:40
一种关联规则及元规则的综合挖掘方法,包括如下步骤:(1)将时序数据库按照时间片断划分成若干部分;(2)依次对各个部分分别扫描,并在各个部分分别形成频繁1-项集;(3)再次分别扫描各部分,形成频繁1-项集超结构;(4)采用递归分解法形成完全超结构;(5)挖掘超结构形成关联规则及元规则。本发明专利技术只需要扫描数据库两次,就可以获得整体的强关联规则集、各时间段的强关联规则集、元规则集及其元规则的分类,该方法不需要产生候选项集,与现有的公认关联规则挖掘算法相比,在产生频繁项集阶段至少具有基本相同的时间效率。

【技术实现步骤摘要】

本专利技术涉及计算机数据处理,是一种关联规则及其元规则的综合挖掘方法
技术介绍
数据挖掘是人工智能领域的一个重要分支,而关联规则的挖掘则是许多数据挖掘问题的重要任务,然而,现有的各种单一算法上不能同时满足挖掘关联规则、元规则、关联规则变化趋势等方面的任务,如果将各种算法进行组合挖掘,则挖掘效率将大大降低,而对于元规则的挖掘,现存的算法只能适应同一数据域上进行挖掘。目前国际上较为有影响的频繁模式挖掘的方法是Apriori算法(R.Agrawal and R.Srikant.Fast algorithms for mining association rules.In VLDB’94,pages 487-499)及其相关的改进算法,如DCP(S.Orlando,P.Palmerini and R.Perego,Enhancing the apriori algorithm for frequentset counting.Proceeding of 3rdinternational conference on DaWaK2001.Munich,GermanySpriger,2001.1-17)、FP-Tree算法(J.Han,J.Pei,and Y.Yin.Mining frequent patterns withoutcandidate generation.In SIGMOD’00,pages 1-12)。这些算法主要针对关联规则的挖掘方法和效率进行研究,只是适合于挖掘整体上平均水平的支持度来说的关联规则。但是,有些关联规则是会随着时间的改变而发生变化的,例如一些关联规则是周期性出现的,在某一特定的时段内会周期性的出现,如每周一等,而对整个周期如一周的平均支持度来说,不能形成强关联规则;再比如一些关联规则会随着时间的变化,关联程度是逐渐增强的,就整个时间段的平均的支持度来说也许不能形成强关联规则,但就趋势来说,下一时间将形成强关联规则;同样,一些规则的关联程度呈下降趋势,也许就挖掘整个时间段来说是强规则,但根据趋势,下一时间段将不形成强规则。对于这些知识的发现,以上算法是无法实现的。因此,这些趋势的挖掘需要特定的挖掘算法来实现。为了能够发现关联规则的变化,Abraham于1999年在“从大临时数据集中增量元挖掘”中提出了元挖掘思想(Abraham,T.,& Roddick,J.F.,Incremental Meta-mining from LargeTemporal Data Sets[C],Advances in Database Technologies,Proceedings of the 1st InternationalWorkshop on Data Warehousing and Data Mining(DWDM′98),pp.41-54,1999),元挖掘是从规则集中发现知识的方法,它是对数据挖掘结果的分析或者说再挖掘,通过元挖掘可以获得元规则。Abraham等研究了基于空间临时数据库的元规则的挖掘,对于在同一数据域上的不同时间片断上产生的规则集上的元规则的挖掘提出了相应的方法,但这种方法尚不适用于一般交易数据库的元规则的挖掘。Banu Ozden等在“周期关联规则挖掘”中针对周期性关联规则的挖掘进行了研究(B.Ozden,S.Ramaswamy,and A.Silberschatz.Cyclic Association Rules.In Proc.of the 14th Int.Conf.on Data Engineering,Orlando,Florida,February 1998),在研究中提出的相关算法只能对具有周期性的关联规则的变化趋势进行分析,而不能对非周期性的关联规则的变化趋势进行分析及其他一些关联规则,例如稳定出现的关联规则。本专利技术针对目前关联规则挖掘存在的问题,提出一种基于超结构的关联规则及其元挖掘的综合方法,使用该方法既可以挖掘整体上的强关联规则,也可以挖掘其它一些强关联规则及其元规则,如周期性、有增强(或)下降趋势的关联规则,本专利技术中提出的方法只需要整体扫描数据库两次就可形成相应的强关联规则集及其元规则集。
技术实现思路
本专利技术的目的在于针对现有关联规则挖掘算法中存在的不足,提出了基于的超结构关联规则挖掘综合算法。使用该专利技术的算法,只需要扫描数据库两次就可以挖掘出各类强规则集及元规则集。为达到上述目的,本专利技术包括如下步骤(1)将时序数据库按照时间片断划分成若干部分;(2)依次对各个部分分别扫描,并在各个部分分别形成频繁1-项集;(3)再次分别扫描各部分,形成频繁1-项集超结构;(4)采用递归分解法形成完全构建超结构;(5)挖掘超结构形成关联规则及元规则。将元规则输入到BP神经网络进行分类,得出分类的元规则。频繁1-项集超结构的基本构建如下在扫描交易数据库一遍得到频繁1-项集的基础上再一次扫描数据库,并在扫描过程中将频繁1-项集投影到每条交易,得到每条交易的频繁1-项集的投影交易,这样每条投影交易就是一个频繁1-项集的一个子集,然后,项集中的项数即集合的势大于1的项集按照式h(k1,k2,···,km)=(Σi=1mα(ki))modp]]>计算哈希地址,并依此构建或存储Count1m和X(m)到哈希链结构中,第二次数据库扫描结束时,频繁1-项集投影超结构构建完成。超结构完全构建如下依据超结构头表,从最长项哈希链结构开始,使用递归分解方,将分解得出的子集的相关信息记录到相应的哈希链结构中去,直到n-项哈希链分解完毕后。本专利技术提出的关联规则及元规则挖掘方法,只需要扫描数据库两次,就可以获得整体的强关联规则集、各时间段的强关联规则集、元规则集及其元规则的分类,该方法不需要产生候选项集,与现有的公认关联规则挖掘算法相比,在产生频繁项集阶段至少具有基本相同的时间效率。如与Apriori类算法相比具有更高的效率,因Apriori类算法对数据库的扫描次数与产生的频繁项集的项数相同,这样Apriori类算法会有高的I/O开销;如与FP-Tree方法相比,对于数据库的整体扫描次数相同,也需要两次。但在形成关联规则阶段,也就是计算置信度阶段,本专利技术直接在超结构中获得相关频繁项集的支持度用来计算置信度这样减少了I/O的开销,从而使得在挖掘关联规则方面具有更高的效率。同时,该方法还可以直接从超结构中获得各时段的强关联规则集以及元规则集,可以获得目前关联规则挖掘算法不能挖掘到的一些强关联规则。本专利技术与目前元规则挖掘算法相比,现有的元挖掘算法是首先采用现有的关联规则挖掘算法,对于各时间段的数据库分别进行挖掘,输出各自的关联规则,然后对各时间段的规则集进行比较分析,获得元规则集,而且目前仅仅限于对相同数据域上的元挖掘,显然,其综合效率将低于本专利技术。与目前关联规则趋势分析算法,如周期关联规则挖掘算法,这些算法的基础是Apriori算法,Apriori算法的缺陷在这类算法中仍然存在,且这类算法只能准对某一类关联规则进行挖掘,例如周期关联规则挖掘本文档来自技高网
...

【技术保护点】
一种关联规则及元规则的综合挖掘方法,其特征在于:包括如下步骤:(1)将时序数据库按照时间片断划分成若干部分;(2)依次对各个部分分别扫描,并在各个部分分别形成频繁1-项集;(3)再次分别扫描各部分,形成频繁1-项集超 结构;(4)采用递归分解法形成完全超结构;(5)挖掘超结构形成关联规则及元规则。

【技术特征摘要】
1.一种关联规则及元规则的综合挖掘方法,其特征在于包括如下步骤(1)将时序数据库按照时间片断划分成若干部分;(2)依次对各个部分分别扫描,并在各个部分分别形成频繁1-项集;(3)再次分别扫描各部分,形成频繁1-项集超结构;(4)采用递归分解法形成完全超结构;(5)挖掘超结构形成关联规则及元规则。2.根据权利要求1所述的一种关联规则及元规则的综合挖掘方法,其特征在于将元规则输入到BP神经网络进行分类,得出分类的元规则。3.根据权利要求1所述的一种关联规则及元规则的综合挖掘方法,其特征在于频繁1-项集超结构的基本构建如下在第二次扫描数据库过程中将频繁1-项集投影到每条交易,得到每条交易的频繁1-项集的投影交易,这样每条投影交...

【专利技术属性】
技术研发人员:叶飞跃
申请(专利权)人:江苏技术师范学院
类型:发明
国别省市:32[中国|江苏]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1