【技术实现步骤摘要】
本专利技术涉及一种频繁项集挖掘方法,尤其是一种利用事务二进制的约束频繁项挖掘方法。
技术介绍
关联规则是数据挖掘中一个很重要的研究方向,利用该技术可从海量的数据中发现项间的关系,找出隐含的、有价值的信息。关联规则的算法主要是基于Apriori、FP-树的改良算法,但它们存在共同的问题,就是在挖掘中没有用户的参与和控制,会产生大量的频繁项集和无价值的关联规则,使挖掘缺乏针对性。如果分析者能根据用户的信息需求,设定分析条件,然后对数据库中的数据进行分析,缩减关联规则的数量,快速挖掘出满足用户需求及有价值的信息,这一类挖掘技术就是基于项约束的关联规则挖掘。项约束条件C为I上的一个布尔表达式,可表示为析取范式(DNF)形式,即C=t1∨t2∨t3∨……∨tm,其中每个ti形如:ti=ij1∧ij2∧……∧ijm,ijk∈I。设I={i1,i2,i3,…,in
【技术保护点】
一种基于事务二进制的约束频繁项集挖掘方法,其特征在于,包括如下步骤:步骤1,利用约束条件C对原始事务库D进行过滤,得到过滤事务库D’;步骤2,为过滤事务数据库D’中的每一个项目建立事务二进制:TB(Ix)={h1h2……hm},其中,Ix(x=1,2,……,n’)为过滤事务数据库D'中的项目,n’为过滤事务数据库D'中包含的项目数,hi(i=1……,m)的值为0或1,m为过滤事务数据库D'中的事务数;步骤3,计算各个项目的事务二进制TB(Ix)中值为1的个数TB(Ix).count,并将TB(Ix).count与最小支持数min_supcount作比较,若TB(Ix).count≥min_supcount,则得到频繁1项集:F={TB(Ix)|Ix∈D’且TB(Ix).count≥min_supcount};步骤4,将约束条件C分为各个约束项tj(j=1,2,…,n),n为约束项的个数,对每一个约束项tj中的各个项目的事务二进制TB进行“与”运算,得到每一个约束项tj的事务二进制TB(tj),若TB(tj).count≥min_supcount,则将(tj,TB(tj))放入频繁约束项 ...
【技术特征摘要】
1.一种基于事务二进制的约束频繁项集挖掘方法,其特征在于,包括如下步骤:步骤1,利用约束条件C对原始事务库D进行过...
【专利技术属性】
技术研发人员:陈平,王利钢,杨波,
申请(专利权)人:南京信息职业技术学院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。