一种基于兴趣度度量的频繁模式挖掘方法技术

技术编号：11868086 阅读：94 留言：0更新日期：2015-08-12 17:06

本发明专利技术公开了一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，包括如下步骤：步骤一：用户指定top k结果频繁集合中的元素数量k；步骤二：用户指定原始数据集，原始数据集即需要进行挖掘的频繁模式数据集；步骤三：读入原始数据集中的数据；步骤四：将原始数据集中的出现的元素，按照出现频率从大到小排列，组成元素集合IS；步骤五：针对元素集合IS，逐个生成备选频繁项集S；并进行检查，检查中符合条件的项集更新到top k结果频繁集合中；步骤六：输出top k结果频繁集合中的内容。本发明专利技术使用兴趣度度量作为频繁模式挖掘结果的评判依据，提高了挖掘结果的实用性；减少了算法输入参数的数量，方便用户使用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种频繁模式挖掘方法，具体涉及一种基于兴趣度量的频繁模式挖掘方法。本专利技术属于数据挖掘领域。
技术介绍
频繁项集挖掘是数据挖掘领域中一个重要研宄方向，其主要用于发掘频繁出现在数据集中的模式(如项集，子序列和子结构)。由于频繁项集可以很方便地生成关联规则，便于目标系统应用，因而频繁模式挖掘一直以来都是数据挖掘研宄和应用领域的热点。传统的频繁模式挖掘方法基本都是研宄如何高效快速地发现频繁项集，以提高算法效率为主，它们的评价体系大多都以绝对或相对频率为依据。然而，在实际应用中，出现频率高的频繁模式未必令人感兴趣；反之，令人感兴趣的频繁模式未必出现频率就一定高。此外，单纯依赖频率指标(如支持度)会导致其他问题的出现，那就是频率指标的阈值难以确定。当阈值设置较大时，结果频繁项集会变小，难以有效发现有用的频繁模式，影响生成合理的关联规则；当阈值设置较小时，结果频繁项集变大，容易混杂无用模式，需要用户再次人工辨别，增大了用户的工作量，减少了算法的实用性。可见，仅仅依赖频率指标，难以发现合适的频繁模式结果。目前已有的公认的频繁模式挖掘算法包括:Apr1ri，FP-growth以及它们的改进算法，均以频率指标为依据挖掘频繁模式，虽然在时间效率方面逐级改进，但本质上难以突破上述限制。
技术实现思路
为解决现有技术的不足，本专利技术的目的在于提供，以解决现有挖掘方法难以简便发现合适的频繁模式结果的技术问题。为了实现上述目标，本专利技术采用如下的技术方案: ，其特征在于，包括如下步骤: 步骤一:用户指定top k结果频繁集合中的元素数量k ；步骤...

【技术保护点】
一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，包括如下步骤：步骤一：用户指定top k结果频繁集合中的元素数量k；步骤二：用户指定原始数据集，原始数据集即需要进行挖掘的频繁模式数据集；步骤三：读入原始数据集中的数据；步骤四：将原始数据集中的出现的元素，按照出现频率从大到小排列，组成元素集合IS；步骤五：针对元素集合IS，逐个生成备选频繁项集S；并进行检查，检查中符合条件的项集更新到top k结果频繁集合中；步骤六：输出top k结果频繁集合中的内容。

【技术特征摘要】

【专利技术属性】
技术研发人员：李涛，王丽娜，林陈，周欢乐，范文波，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人