本发明专利技术实施例提供一种频繁项集获取方法及装置,所述方法包括:根据配置信息,将事务数据库划分成多个子数据库,每个所述子数据库对应一个处理模块;每个所述处理模块扫描对应的子数据库,根据预设第一过滤原则分别获取多个候选集合;将所述多个候选集合合并成一个候选频繁项集集合,根据预设第二过滤原则,得到频繁项集集合。所述方法对数据库中的数据进行并行挖掘可避免了全局关联规则挖掘数据量过大可能内存无法容纳或导致计算缓慢等问题,解决解决了大数据量处理能力瓶颈的问题。
【技术实现步骤摘要】
本专利技术涉及数据挖掘领域,具体而言,涉及一种频繁项集获取方法及装置。
技术介绍
随着关于大数据、物联网、互联网、云计算技术飞速发展,爆发式数据增长向IT行业提出了挑战。如何从海量的、不完全的、有噪声的、随机的多结构互联网数据中,通过分析去揭示其有意义的某种关联、趋势或模式,挖掘它们背后隐藏着的事先不知道的,但又是潜在有用的信息和知识,成为了一种具有实际价值的工作。关联规则挖掘是用来描述事物之间的联系和挖掘事物之间的相关性,它是在数据库中搜索两个项目之间存在的显示或者隐式关系,有助于管理和决策。其核心是通过统计数据项获得频繁项集,被广泛应用于分类设计、捆绑式销售、仓库储货存配置等领域,是当前大数据分析和处理的一个研究热点。Apriori算法是最为经典的关联规则挖掘算法,它是所有关联规则挖掘算法的核心。基本思想是先找出事务数据库中具有最小支持度的项目集(即最大项目集),再根据最大项目集生成关联规则。其中生成最大项目集是核心问题,它通过迭代的方法,逐层搜索,用(k-1)项集去搜索不小于最小支持度的k项集,直至没有更大项目集生成。每次搜索都需要完整地扫描一次数据库,这种传统串行方式效率非常低,并且在大数据环境,处理能力会产生瓶颈。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种频繁项集获取方法及装置,以解决上述问题。第一方面,本专利技术实施例提供一种频繁项集获取方法,所述方法包括:根据配置信息,将事务数据库划分成多个子数据库,每个所述子数据库对应一个处理模块;每个所述处理模块扫描对应的子数据库,根据预设第一过滤原则分别获取多个候选集合;将所述多个候选集合合并成一个候选频繁项集集合,根据预设第二过滤原则,得到频繁项集集合。第二方面,本专利技术实施例提供一种频繁项集获取装置,所述装置包括:分配模块,用于根据配置信息,将事务数据库划分成多个子数据库,每个所述子数据库对应一个处理模块;过滤模块,用于每个所述处理模块扫描对应的子数据库,根据预设第一过滤原则分别获取多个候选集合;合并模块,用于将所述多个候选集合合并成一个候选频繁项集集合,根据预设第二过滤原则,得到频繁项集集合。与现有技术相比,本专利技术实施例提供的一种频繁项集获取方法及装置,通过将数据库数据进行划分,并分别分配不同的处理模块进行处理,每个处理模块均采用第一过滤原则对数据库的局部数据进行进行挖掘,合并得到候选频繁项集合,并对候选频繁项集合采用第二过滤原则再次进行全局挖掘,最终得到频繁项集合,这种方式,对数据库中的数据进行并行挖掘可避免了全局关联规则挖掘数据量过大可能内存无法容纳或导致计算缓慢等问题,解决解决了大数据量处理能力瓶颈的问题。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1是本专利技术实施例提供的服务器的方框示意图。图2是本专利技术实施例提供的一种频繁项集获取方法的流程图。图3是本专利技术实施例提供的一种频繁项集获取方法中步骤S400的部分流程图。图4是本专利技术实施例提供的一种频繁项集获取方法中步骤S430的部分流程图。图5是本专利技术实施例提供的一种频繁项集获取方法中步骤S431的部分流程图。图6是本专利技术实施例提供的一种频繁项集获取方法中步骤S432的部分流程图。图7是本专利技术实施例提供的一种频繁项集获取方法中步骤S433的部分流程图。图8是本专利技术实施例提供的一种频繁项集获取装置的功能模块示意图。图9是本专利技术实施例提供的一种频繁项集获取装置中过滤模块的功能模块示意图。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性或时间先后。如图1所示,是所述服务器200的方框示意图。所述服务器200包括频繁项集获取装置210、存储器220、存储控制器230、处理器240。所述存储器220、存储控制器230、处理器240各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述频繁项集获取装置210包括至少一个可以软件或固件(firmware)的形式存储于所述存储器中或固化在所述服务端200的操作系统(operatingsystem,OS)中的软件功能模块。所述处理器240用于执行存储器220中存储的可执行模块,例如所述频繁项集获取装置210包括的软件功能模块或计算机程序。其中,存储器220可以是,但不限于,随机存取存储器(RandomAccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory,EEPROM)等。其中,存储器220用于存储程序,所述处理器240在接收到执行指令后,执行所述程序,前述本专利技术实施例任一实施例揭示的流过程定义的服务端所执行的方法可以应用于处理器中,或者由处理器实现。处理器240可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本专利技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以理解,图1所示的结构仅为示意,服务器200还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。图2示出了本专利技术实施例提供的一种频繁项集获取方法的流程图,请参阅图2,本实施例描述的是服务器的处理流程,所述方法包括:步骤S300,根据配置信息,将事务数据库划分成多个子数据库,每个所述子数据库对本文档来自技高网...
【技术保护点】
一种频繁项集获取方法,其特征在于,所述方法包括:根据配置信息,将事务数据库划分成多个子数据库,每个所述子数据库对应一个处理模块;每个所述处理模块扫描对应的子数据库,根据预设第一过滤原则分别获取多个候选集合;将所述多个候选集合合并成一个候选频繁项集集合,根据预设第二过滤原则,得到频繁项集集合。
【技术特征摘要】
1.一种频繁项集获取方法,其特征在于,所述方法包括:根据配置信息,将事务数据库划分成多个子数据库,每个所述子数据库对应一个处理模块;每个所述处理模块扫描对应的子数据库,根据预设第一过滤原则分别获取多个候选集合;将所述多个候选集合合并成一个候选频繁项集集合,根据预设第二过滤原则,得到频繁项集集合。2.根据权利要求1所述的方法,其特征在于,每个所述处理模块扫描对应的子数据库,根据预设第一过滤原则分别获取多个候选集合,包括:每个所述处理模块扫描对应的子数据库,分别获取所述子数据库对应的事务总数、由多个一项集构成的一项集集合、以及各个所述一项集对应的次数;每个所述处理模块根据所述一项集集合以及组合策略,获取多个多项集,再次扫描对应的子数据库,获取所述多个多项集对应的次数;每个所述处理模块根据所述一项集对应的次数、所述多项集对应的次数,以及所述一项集和/或多项集在预设时间段内对应的次数的变化趋势,获取候选集合。3.根据权利要求2所述的方法,其特征在于,根据所述一项集对应的次数、所述多项集对应的次数,以及所述一项集和/或多项集在预设时间段内对应的次数的变化趋势,获取候选集合,包括:根据所述一项集对应的次数以及预设第三过滤原则,获取最大次数一项集以及更新后的一项集集合,将所述更新后的一项集集合中的所有一项集加入候选集合中;根据所述更新后的一项集集合、组合策略、各个所述多项集对应的次数以及第四过滤原则,分别依次获得更新后的多项集,并将更新后的多项集加入候选集合中;根据所述候选集合中各个一项集和/或多项集在预设时间段内的次数的变化趋势,获取到更新后的候选集合;将所述最大次数一项集分别与所述更新的候选集合中的各个一项集或多项集进行合并,分别获得更新后的各个一项集或多项集,将包含所述多个更新后的各个一项集或多项集的集合作为候选集合。4.根据权利要求3所述的方法,其特征在于,所述根据各个所述一项集对应的次数以及预设第三过滤原则,获取最大次数一项集以及更新后的一项集集合,包括:将所述一项集集合中次数最多的一项集以及次数最少的一项集分别从所述一项集集合中删除,并将所述次数最多的一项集作为最大次数一项集;依次判断所述一项集集合中的一项集的最小支持频数是否小于预设阈值,如果是,则从所述一项集集合中去掉所述一项集,直到判断完所述一项集集合中的所有一项集,获得更新后的一项集集合,将所述更新后的一项集集合中的所有一项集加入候选集合中,其中,所述最小支持频数是指预设最小支持度与所述事务总数的次数的乘积。5.根据权利要求3所述的方法,其特征在于,所述一项集集合的元素个数为K,所述根据所述更新后的一项集集合、组合策略、各个所述多项集对应的次数以及第四过滤原则,分别依次获得更新后的多项集,并将更新后的多项集加入候选集合中,包括:根据所述更新后的一项集集合以及组合策略,获取由多个二项集构成的二项集集合,将所述二项集集合中次数最少的二项集分别从所述二项集集合中删除;依次判断所述二项集集合中的二项集的最小支持频数是否小于预设阈值,如果是,则从所述二...
【专利技术属性】
技术研发人员:谭良,王青,
申请(专利权)人:四川师范大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。