一种频繁项集获取方法及装置制造方法及图纸

技术编号：14905635 阅读：45 留言：0更新日期：2017-03-29 20:16

本发明专利技术实施例提供一种频繁项集获取方法及装置，所述方法包括：根据配置信息，将事务数据库划分成多个子数据库，每个所述子数据库对应一个处理模块；每个所述处理模块扫描对应的子数据库，根据预设第一过滤原则分别获取多个候选集合；将所述多个候选集合合并成一个候选频繁项集集合，根据预设第二过滤原则，得到频繁项集集合。所述方法对数据库中的数据进行并行挖掘可避免了全局关联规则挖掘数据量过大可能内存无法容纳或导致计算缓慢等问题，解决解决了大数据量处理能力瓶颈的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域，具体而言，涉及一种频繁项集获取方法及装置。
技术介绍
随着关于大数据、物联网、互联网、云计算技术飞速发展，爆发式数据增长向IT行业提出了挑战。如何从海量的、不完全的、有噪声的、随机的多结构互联网数据中，通过分析去揭示其有意义的某种关联、趋势或模式，挖掘它们背后隐藏着的事先不知道的，但又是潜在有用的信息和知识，成为了一种具有实际价值的工作。关联规则挖掘是用来描述事物之间的联系和挖掘事物之间的相关性，它是在数据库中搜索两个项目之间存在的显示或者隐式关系，有助于管理和决策。其核心是通过统计数据项获得频繁项集，被广泛应用于分类设计、捆绑式销售、仓库储货存配置等领域，是当前大数据分析和处理的一个研究热点。Apriori算法是最为经典的关联规则挖掘算法，它是所有关联规则挖掘算法的核心。基本思想是先找出事务数据库中具有最小支持度的项目集(即最大项目集)，再根据最大项目集生成关联规则。其中生成最大项目集是核心问题，它通过迭代的方法，逐层搜索，用(k－1)项集去搜索不小于最小支持度的k项集，直至没有更大项目集生成。每次搜索都需要完整地扫描一次数据库，这种传统串行方式效率非常低，并且在大数据环境，处理能力会产生瓶颈。
技术实现思路
有鉴于此，本专利技术实施例的目的在于提供一种频繁项集获取方法及装置，以解决上述问题。第一方面，本专利技术实施例提供一种频繁项集获取方法，所述方法包括：根据配置信息，将事务数据库划分成多个子数据库，每个所述子数据库对应一个处理模块；每个所述处理模块扫描对应的子数据库，根据预设第一过滤原则分别获取多个候选集合；将所述多个候选集...
一种频繁项集获取方法及装置

【技术保护点】
一种频繁项集获取方法，其特征在于，所述方法包括：根据配置信息，将事务数据库划分成多个子数据库，每个所述子数据库对应一个处理模块；每个所述处理模块扫描对应的子数据库，根据预设第一过滤原则分别获取多个候选集合；将所述多个候选集合合并成一个候选频繁项集集合，根据预设第二过滤原则，得到频繁项集集合。

【技术特征摘要】
1.一种频繁项集获取方法，其特征在于，所述方法包括：根据配置信息，将事务数据库划分成多个子数据库，每个所述子数据库对应一个处理模块；每个所述处理模块扫描对应的子数据库，根据预设第一过滤原则分别获取多个候选集合；将所述多个候选集合合并成一个候选频繁项集集合，根据预设第二过滤原则，得到频繁项集集合。2.根据权利要求1所述的方法，其特征在于，每个所述处理模块扫描对应的子数据库，根据预设第一过滤原则分别获取多个候选集合，包括：每个所述处理模块扫描对应的子数据库，分别获取所述子数据库对应的事务总数、由多个一项集构成的一项集集合、以及各个所述一项集对应的次数；每个所述处理模块根据所述一项集集合以及组合策略，获取多个多项集，再次扫描对应的子数据库，获取所述多个多项集对应的次数；每个所述处理模块根据所述一项集对应的次数、所述多项集对应的次数，以及所述一项集和/或多项集在预设时间段内对应的次数的变化趋势，获取候选集合。3.根据权利要求2所述的方法，其特征在于，根据所述一项集对应的次数、所述多项集对应的次数，以及所述一项集和/或多项集在预设时间段内对应的次数的变化趋势，获取候选集合，包括：根据所述一项集对应的次数以及预设第三过滤原则，获取最大次数一项集以及更新后的一项集集合，将所述更新后的一项集集合中的所有一项集加入候选集合中；根据所述更新后的一项集集合、组合策略、各个所述多项集对应的次数以及第四过滤原则，分别依次获得更新后的多项集，并将更新后的多项集加入候选集合中；根据所述候选集合中各个一项集和/或多项集在预设时间段内的次数的变化趋势，获取到更新后的候选集合；将所述最大次数一项集分别与所述更新的候选集合中的各个一项集或多项集进行合并，分别获得更新后的各个一项集或多项集，将包含所述多个更新后的各个一项集或多项集的集合作为候选集合。4.根据权利要求3所述的方法，其特征在于，所述根据各个所述一项集对应的次数以及预设第三过滤原则，获取最大次数一项集以及更新后的一项集集合，包括：将所述一项集集合中次数最多的一项集以及次数最少的一项集分别从所述一项集集合中删除，并将所述次数最多的一项集作为最大次数一项集；依次判断所述一项集集合中的一项集的最小支持频数是否小于预设阈值，如果是，则从所述一项集集合中去掉所述一项集，直到判断完所述一项集集合中的所有一项集，获得更新后的一项集集合，将所述更新后的一项集集合中的所有一项集加入候选集合中，其中，所述最小支持频数是指预设最小支持度与所述事务总数的次数的乘积。5.根据权利要求3所述的方法，其特征在于，所述一项集集合的元素个数为K，所述根据所述更新后的一项集集合、组合策略、各个所述多项集对应的次数以及第四过滤原则，分别依次获得更新后的多项集，并将更新后的多项集加入候选集合中，包括：根据所述更新后的一项集集合以及组合策略，获取由多个二项集构成的二项集集合，将所述二项集集合中次数最少的二项集分别从所述二项集集合中删除；依次判断所述二项集集合中的二项集的最小支持频数是否小于预设阈值，如果是，则从所述二...

【专利技术属性】
技术研发人员：谭良，王青，
申请(专利权)人：四川师范大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人