本发明专利技术提出了一种基于改进Apriori算法的数据库关联规则挖掘方法。本方法将事务数据库转化为关系矩阵,转化后的关系矩阵为稀疏矩阵,并使用正交链表存储关系矩阵。频繁项目集的产生过程转化为对应关系矩阵中项目所对应单链表节点集合的运算过程。本方法只需扫描数据库一遍,克服了Apriori及其相关算法产生大量候选集和需多次扫描数据库的缺点,减少了频繁进行I/O操作的时间;其次,生成和发现频繁2-项集时只需要进行节点集合的交运算,耗费时间较少,并且对生成的频繁k-项集构造单链表进行记录,简化了频繁k+1项集的生成过程,避免了Apriori算法复杂的剪枝过程。
【技术实现步骤摘要】
本专利技术公开了,重点涉及 在用正交链表存储矩阵表示事务数据库的基础上,对Apriori算法的频繁项目集生成过程 进行改造优化,属于计算机数据挖掘及信息处理
技术介绍
在大数据技术发展如火如荼的今天,人们逐渐意识到数据即是财富,尤其是对商 业数据的分析更具有巨大的实用价值。关联规则分析作为数据挖掘的主要手段之一,是数 据挖掘技术中不可或缺的一个重要组成部分,主要用于发现大型事务数据库中隐含的有价 值的令人感兴趣的联系及规则。因此,对关联规则算法的研究具有非常重要的意义。 早在1993年,IBM的计算机科学家R. Agrawal等人在顾客交易数据库中发现了顾 客在购买商品时的购买规律,提出了事务之间的相关性模式,即最初的关联规则。关联规则 通常是一种不复杂但实用性却很高的规则。通过关联规则分析,我们可以将事务项集与项 集之间的关系挖掘出来。关联规则分析最典型的应用是购物篮数据分析,比如经典的{:啤 酒} - {尿布}规则。除了可以应用于购物篮数据之外,关联规则分析在其它领域的应用 也十分广泛,如电子商务个性化推荐,金融服务,广告策划,生物信息学及科学数据分析等。 比如说在电子商务个性化推荐中,关联规则可以帮助电子商务网站向具有相似消费行为的 顾客进行一些他们可能感兴趣的商品推荐,这样有助于电子商务网站提升用户体验,增加 盈利等。 关联规则分析算法较多,其中最经典实用性最好的是Apriori算法及其改进算 法。Apriori算法是由Agrawal和Swami于1994年提出的第一个关联规则算法,应 用广泛,该算法通过重复循环执行连接、剪枝生成频繁项目集,从而建立关联规则。基于 Apriori算法,Yang等人提出了 Apriori-TFP算法,该算法在关联规则挖掘过程中,将 原始数据进行预处理并存储在局部支持树中,最后生成关联规则。该算法通过有效的预处 理,降低了关联规则挖掘的时间,但是需要扫描数据库的次数仍然较多。Zhang等人提出 了 GP-Apriori 算法,GP-Apriori 算法米用图形处理器(Graphical Processing Unit, GPU)进行并行化的支持度计数,并将垂直交易列存储为线性有序阵列。GPU通过遍历该 有序阵列,并执行按位交叉实现支持度计算,并将结果复制回内存。与传统CPU上运行的 Apriori算法相比,GP-Apriori算法由于采用了先进的GPU提高了运行速率,但是复杂性 反而有所增长。Delighta等人也提出了 Apriori的改进算法(Apriori Mend Algorithm) 。该算法使用哈希函数生成项目集,用户必须指定最小支持度以删除不需要的项集。该 算法具有比传统Apriori算法更好的效率,但是执行时间有所增加。Ning等基于MapReduce 框架实现了乐Apriori算法的并行化。该算法在处理海量数据集时具有良好的可扩展 性和效率,但是该算起需要强大的计算和存储能力支撑,通常运行在集群环境中。Sulianta 等人在文献中尝试将Apriori算法应用于多维数据分析,探讨了在多维数据中建立关 联规则更加具体有效的方法。Sheila等人在文献中对Apriori算法进行了改进,引入 了事务尺寸和事务规模的概念以消除非重要项目的影响。Feng等人在文献中提出了 一种基于矩阵的ApriOTi算法,该算法通过矩阵有效的表示数据库的各种操作,并用基于 矩阵的AND操作得到最大的频繁项目集。Hu等人在文献中应用关系理论思想,引入 了项目可辨识向量及其"与"运算,设计了一种快速挖掘算法-SLIG (Single-level Large ItemsetsGeneration)算法,将频繁项目集的产生过程转化为项目集的关系矩阵中向量运 算过程。该算法克服了 ApriOTi及其相关算法产生大量候选集和需多次扫描数据库的缺 点,但是需要的存储空间较大。 文献引用 R. Agrawalj R. Srikant et al·· Fast algorithms for mining association rules (挖掘关联规则的快速算法),Proc. 20th Int. Conf· Very Large Data Bases,VLDB,v ol. 1215, pp. 487-499, September 1994. Z. Yang, ff. Tang, A. Shintemirovj and Q. ffu. Association rule mining-based dissolved gas analysis for fault diagnosis of power transformers (基于关耳关 规则挖掘的电力变压器故障途断溶解气体分析),Systems,Man,and Cybernetics,Part C:Applications and Reviews, IEEE Transactions on,vol.39,no.6,pp. 597-610, 2009. F. Zhang, Y. Zhang, and J. D. Bakos. Gpapriori : Gp u-accelerated frequent itemsetmining (基于图形处理器加速的频繁项集挖掘),in CLUSTER. IEEE,2011,pp. 590-594. I. S. P. J. D. Magdalene DelightaAngeline. Association rule generation using Apriorimend algorithm for student's placement (基于改进Apriori 算法的关耳关 规则生成算法),vol. 2, no. 1,2012, ρρ· 78-86. N. Li, L. Zengj Q. He, and Z. Shi. Parallel implementation of apriori algorithm based on MapReduce (基于 MapReduce 的 Apriori 算法的并行实现),in Software Engineering,Artificial Intelligence, Networking and Parallel Distributed Computing (SNPD),201213th ACIS International Conference on,2012, pp. 236-241. F. Suliantaj T. H. Liongj and I. Atastina. Mining food industry's multidimensional data to produce association rules using Apriori algorithm as a basis of business strategy (基于Apriori算法的面向食品工业多维数据的企业战略 关联规则挖掘算法),in Information and Communication Technology (ICoICT),2013In本文档来自技高网...
【技术保护点】
一种基于改进Apriori算法的数据库关联规则挖掘方法,其特征在于:包括以下步骤:步骤1,扫描事务数据库D,得到关系矩阵Ma;步骤2,在计算机内部使用正交链表存储步骤1所述关系矩阵Ma,该正交链表包含三种类型的节点,分别为M节点、H节点和E节点;M节点为正交链表的表头节点;H节点为行或列表头节点,是正交链表中行链表或者列链表的表头节点;E节点为关系矩阵中非零元素对应的节点;步骤3,根据步骤2的正交链表计算得到频繁1项集集合L1以及频繁1项集集合L1对应的正交链表;步骤4,将频繁k‑1项集集合Lk‑1与自身连接产生候选频繁k项集集合Ck,k为区间[2,∞)内的自然数;步骤5,利用Apriori性质对候选频繁k项集集合Ck进行剪枝;步骤6,遍历频繁k‑1项集集合及频繁1项集集合对应的正交链表,得到包含项集的事务集合并计算候选频繁k项集集合Ck中成员的支持度,其中i1为区间[1,Nk]内的自然数,Nk表示候选频繁k项集集合Ck所包含的成员数目;步骤7,将候选频繁k项集集合Ck中成员的支持度与最小支持度min_support进行比较,删除支持度小于最小支持度min_support的成员,得到频繁k项集集合Lk,并根据步骤6中所得事务集合构造频繁k项集集合Lk对应的正交链表;步骤8,重复执行步骤4~步骤7,直到不能发现更大的频繁项目集为止;步骤9,根据OLA算法最终获得的频繁项集集合为F,则产生关联规则:R={A‑>B},A为频繁项集集合F中任意成员的非空子集,B为A的补集,即∈F,i2为区间[1,Nf]内的自然数,Nf表示频繁项集集合F所包含的成员数目。...
【技术特征摘要】
【专利技术属性】
技术研发人员:赵学健,袁源,孙知信,乔爱锋,
申请(专利权)人:江苏省邮电规划设计院有限责任公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。