一种基于兴趣度度量的频繁模式挖掘方法技术

技术编号:11868086 阅读:87 留言:0更新日期:2015-08-12 17:06
本发明专利技术公开了一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,包括如下步骤:步骤一:用户指定top k结果频繁集合中的元素数量k;步骤二:用户指定原始数据集,原始数据集即需要进行挖掘的频繁模式数据集;步骤三:读入原始数据集中的数据;步骤四:将原始数据集中的出现的元素,按照出现频率从大到小排列,组成元素集合IS;步骤五:针对元素集合IS,逐个生成备选频繁项集S;并进行检查,检查中符合条件的项集更新到top k结果频繁集合中;步骤六:输出top k结果频繁集合中的内容。本发明专利技术使用兴趣度度量作为频繁模式挖掘结果的评判依据,提高了挖掘结果的实用性;减少了算法输入参数的数量,方便用户使用。

【技术实现步骤摘要】

本专利技术涉及一种频繁模式挖掘方法,具体涉及一种基于兴趣度量的频繁模式挖掘方法。本专利技术属于数据挖掘领域。
技术介绍
频繁项集挖掘是数据挖掘领域中一个重要研宄方向,其主要用于发掘频繁出现在数据集中的模式(如项集,子序列和子结构)。由于频繁项集可以很方便地生成关联规则,便于目标系统应用,因而频繁模式挖掘一直以来都是数据挖掘研宄和应用领域的热点。传统的频繁模式挖掘方法基本都是研宄如何高效快速地发现频繁项集,以提高算法效率为主,它们的评价体系大多都以绝对或相对频率为依据。然而,在实际应用中,出现频率高的频繁模式未必令人感兴趣;反之,令人感兴趣的频繁模式未必出现频率就一定高。此外,单纯依赖频率指标(如支持度)会导致其他问题的出现,那就是频率指标的阈值难以确定。当阈值设置较大时,结果频繁项集会变小,难以有效发现有用的频繁模式,影响生成合理的关联规则;当阈值设置较小时,结果频繁项集变大,容易混杂无用模式,需要用户再次人工辨别,增大了用户的工作量,减少了算法的实用性。可见,仅仅依赖频率指标,难以发现合适的频繁模式结果。目前已有的公认的频繁模式挖掘算法包括:Apr1ri,FP-growth以及它们的改进算法,均以频率指标为依据挖掘频繁模式,虽然在时间效率方面逐级改进,但本质上难以突破上述限制。
技术实现思路
为解决现有技术的不足,本专利技术的目的在于提供,以解决现有挖掘方法难以简便发现合适的频繁模式结果的技术问题。为了实现上述目标,本专利技术采用如下的技术方案: ,其特征在于,包括如下步骤: 步骤一:用户指定top k结果频繁集合中的元素数量k ; 步骤二:用户指定原始数据集,原始数据集即需要进行挖掘的频繁模式数据集; 步骤三:读入原始数据集中的数据; 步骤四:将原始数据集中的出现的元素,按照出现频率从大到小排列,组成元素集合IS ; 步骤五:针对元素集合IS,逐个生成备选频繁项集S ;并进行检查,检查中符合条件的项集更新到top k结果频繁集合中; 步骤六:输出top k结果频繁集合中的内容。前述的,其特征在于,所述步骤五包括: 步骤5a:从元素集合IS中取出当前位置的元素item,形成一个元素个数为I的备选频繁项集S ; 步骤5b:将元素集合IS中位于item后面的所有元素,组合成一个备选元素集合ISNew ; 步骤5c:基于备选频繁项集S和备选元素集合ISNew,对备选频繁项集S进行检查,检查中符合条件的项集更新到top k结果频繁集合中; 步骤5d:检测元素集合IS中的所有元素是否已经都执行过上述步骤,若存在未执行的项目,则重复步骤5a,否则执行步骤六。前述的,其特征在于,所述步骤5c包括: 步骤5cl:读入备选频繁项集S和备选元素集合ISNew ; 步骤5c2:初始化新的备选项集ISNewRecursive为空;初始化阈值t=_l ; 步骤5c3:从备选元素集合ISNew中逐个选取备选元素,将其放入备选频繁项集S中,形成频繁项集SNew,并对所述频繁项集SNew进行检验,如果符合要求,则将其更新到top k结果频繁集合中; 步骤5c4:从备选项集ISNewRecursive中逐个取出项目,添加到备选频繁项集S,形成新的频繁项集,并对该频繁项集进行校验; 步骤5c5:结束退出; 前述的,其特征在于,所述步骤5c3包括: 步骤5c3a:初始化新的频繁项集SNew,内容与S相同; 步骤5c3b:从备选项集ISNew中取出当前项目元素i,并添加到频繁项集SNew中; 步骤5c3c:将SNew作为参数,计算SNew的兴趣度; 步骤5c3d:如果SNew的兴趣度大于阈值t,则执行步骤5c3e,否则直接执行步骤步骤5c3i ; 步骤5c3e:将SNew更新到top k结果频繁集合中; 步骤5c3f:将项目元素i添加到备选项集ISNewRecursive集合; 步骤5c3g:将top k结果频繁集合中的元素按照各自的兴趣度值从大到小排序; 步骤5c3h:如果top k结果频繁集合中的元素数量大于k,则仅仅保留前k个项目,同时更新t值为结果集合中兴趣度的最小值; 步骤5c31:检查项目i是否是元素集合IS中的最后元素;如果不是,则重复执行步骤5c3 ;否则,执行步骤5c4。前述的,其特征在于,所述步骤5c4包括: 步骤5c4a:从备选项集ISNewRecursive中取出项目元素j,并追加到备选频繁项集S的最后,形成新的频繁项集SCandidate ; 步骤5c4b:以频繁项集SCandidate和备选项集ISNew为参数,调用步骤5c I ; 步骤5c4c:检查项目j是否是从备选项集ISNewRecursive中的最后元素;如果不是,则重复执行步骤5c4 ;否则,执行步骤5c5。前述的,其特征在于,步骤5c3c包括: 步骤5c3cl:读入待计算兴趣度的频繁项集S ; 步骤5c3c2:计算原始样本库中,包含频繁项集S的样本数量sup ;初始化备选数量集合SupSet为空;计算整个原始样本库中的样本总数total ;初始化兴趣度Interest的值为-1 ; 步骤5c3c3:将频繁项集S中的元素分割,形成两个频繁项集SLeft和SRight ;对于所有分割,形成集合Partit1nSet,其中的元素由{SLeft, SRight}构成; 步骤5c3c4:针对集合Partit1nSet中的所有元素{SLeft, SRight},计算其与原始频繁项集S的Fisher检验值和支持度集合; 步骤5c3c5:计算集合SupSet中的最小值minsup ; 步骤5c3c6:将频繁项集S的兴趣度Interest,设定为minsup,并将该值作为本算法的结果返回。前述的,其特征在于,步骤5c3c4包括: 步骤5c3c4a:从备选频繁集合Partit1nSet中取出当前元素频繁项集集合{SLeft,SRight}; 步骤5c3c4b:计算原始频繁样本库中,包含频繁项集SLeft的样本数量supl ; 步骤5c3c4c:计算原始频繁样本库中,包含频繁项集SRight的样本数量sup2 ; 步骤 5c3c4d:以 total,sup,supl, sup2 为参数,计算 Fisher 检验值 p ; 步骤5c3c4e:检查P是否小于阈值0.05,如果满足条件,则执行步骤5c3c4f,否则执行步骤 5c3c4h ; 步骤 5c3c4f:计算数值 sup_supl*sup2 ; 步骤5c3c4g:将数上述数值加入集合SupSet ; 步骤5c3c4h:检查条件:当前元素集合{SLeft, SRight}是否为集合Partit1nSet的最后一个元素;如果{SLeft, SRight}不是最后一个元素,表示Partit1nSet还有元素没有处理,则执行(4.1);否则执行(5) ο前述的,其特征在于,步骤5c3c4d包括: 步骤5c3c4dl:读入样本总数量total ;读入频繁项集SLeft的样本数量supl ;读入频繁项集SRight的样本数量sup2 ;读入频繁项集S的样本数量sup ; 步骤5c3c4d2:初始化P为O ;初始化局部变量a本文档来自技高网...

【技术保护点】
一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,包括如下步骤:步骤一:用户指定top k结果频繁集合中的元素数量k;步骤二:用户指定原始数据集,原始数据集即需要进行挖掘的频繁模式数据集;步骤三:读入原始数据集中的数据;步骤四:将原始数据集中的出现的元素,按照出现频率从大到小排列,组成元素集合IS;步骤五:针对元素集合IS,逐个生成备选频繁项集S;并进行检查,检查中符合条件的项集更新到top k结果频繁集合中;步骤六:输出top k结果频繁集合中的内容。

【技术特征摘要】

【专利技术属性】
技术研发人员:李涛王丽娜林陈周欢乐范文波
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1