项集挖掘方法及装置制造方法及图纸

技术编号:14369189 阅读:100 留言:0更新日期:2017-01-09 14:53
本发明专利技术公开了一种项集挖掘方法及装置,属于数据挖掘技术领域。所述方法包括:获取自定义的最低效用阈值、价格表和折扣表;价格表中包含各个数据项对应的成本价和售价;折扣表中包含各个数据项对应的折扣类型和折扣参数;对于数据库中的各个项集,根据项集中包含的数据项对应的成本价、售价、折扣类型和折扣参数,计算项集的实际效用值,该项集包含至少一个数据项;当实际效用值≥最低效用阈值时,确定项集为高效用项集。本发明专利技术达到了结合数据项对应的折扣策略,使得计算出的数据库中项集的实际效用值更加准确,从而提高挖掘出的高效用项集的实际使用价值的效果。

【技术实现步骤摘要】

本专利技术实施例涉及数据挖掘
,特别涉及一种项集挖掘方法及装置
技术介绍
数据库中通常包括有至少一个事务(英文:Transaction),每个事务中包括至少一个数据项(英文:item),比如,一条关于购物记录的事务中,包括商品名称和购买数量等数据项。为了发现不同数据项之间的关联规则,需要进行目标数据项集的挖掘。项集(英文:Itemsets)是由至少一个数据项构成的集合,用于表征数据库中内在的一种关联规则。HUIM(High-UtilityItemsetsMining,高效用项集挖掘)作为一种常见的数据挖掘方式,用于从数据库中挖掘出由不同数据项组成的效用值较高的项集。在现有的基于HUIM的算法中,根据不同数据项各自对应的效用值,计算数据库中各个项集对应的效用值,当该项集对应的效用值大于或等于预设效用值时,确定该项集为高效用项集并进行挖掘,从而实现从数据库中挖掘出高效用的项集。在实现本专利技术实施例的过程中,专利技术人发现上述技术至少存在以下问题:在现有的基于HUIM的算法中,数据项对应的效用值被认为是固定不变的,而在实际情况中,数据库中的数据项对应的效用值通常是变化的,导致计算得到的项集的效用值不准确,挖掘出的高效用项集的实际使用价值较低。比如,当数据库中的数据项对应商品时,该数据项的效用值即为商品的利润,而商品的利润又通常与商品的成本价、售价和打折情况有关,即商品的利润是变化的。
技术实现思路
为了解决上述技术的问题,本专利技术实施例提供了一种项集挖掘方法及装置。所述技术方案如下:根据本专利技术实施例的第一方面,提供一种项集挖掘方法,该方法包括:获取自定义的最低效用阈值、价格表和折扣表;价格表中包含各个数据项对应的成本价和售价;折扣表中包含各个数据项对应的折扣类型和折扣参数;对于数据库中的各个项集,根据项集中包含的数据项对应的成本价、售价、折扣类型和折扣参数,计算项集的实际效用值;项集包含至少一个数据项;当实际效用值≥最低效用阈值时,确定项集为高效用项集。根据本专利技术实施例的第二方面,提供一种项集挖掘装置,该装置包括:获取模块,用于获取自定义的最低效用阈值、价格表和折扣表;价格表中包含各个数据项对应的成本价和售价;折扣表中包含数据项对应的折扣类型和折扣参数;计算模块,用于对于数据库中的各个项集,根据项集中包含的数据项对应的成本价、售价、折扣类型和折扣参数,计算项集的实际效用值;项集包含至少一个数据项;确定模块,用于当实际效用值≥最低效用阈值时,确定项集为高效用项集。本专利技术实施例提供的技术方案带来的有益效果是:通过根据各个数据项各自对应的折扣策略计算数据库中项集的实际效用值,并挖掘出实际效用值大于最低效用阈值的高效用项集;解决了计算得到的项集的效用值不准确,影响挖掘出的高效用项集的实际使用价值的问题;达到了结合数据项对应的折扣策略,使得计算出的数据库中项集的实际效用值更加准确,从而提高挖掘出的高效用项集的实际使用价值的效果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1A是本专利技术一个实施例提供的项集挖掘方法的方法流程图;图1B是本专利技术一个实施例提供的项集挖掘方法的方法流程图;图2A是本专利技术另一实施例提供的项集挖掘方法的方法流程图;图2B是本专利技术另一实施例提供的项集挖掘方法的方法流程图;图3A是本专利技术再一实施例提供的项集挖掘方法的方法流程图;图3B是本专利技术再一实施例提供的项集挖掘方法中生成的第1-PNU表的结构示意图;图3C是本专利技术再一实施例提供的项集挖掘方法所涉及的生成EUCS表过程的方法流程图;图4是本专利技术一个实施例提供的项集挖掘装置的结构方框图;图5是本专利技术另一实施例提供的项集挖掘装置的结构方框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了便于对本专利技术实施例进行说明,预先对本专利技术实施例涉及的基本概念进行如下介绍:1、事务(英文:Transaction):指数据库中的一条记录。比如,在表一所示的数据库中,该数据库中共包含10条记录,即数据库中包含10个事务,且每条记录分别对应一条购买记录,该购买记录中包含购买商品的名称等信息。表一TID事务数据1(A,3),(C,2),(E,4)2(D,1),(F,2)3(A,1),(B,3),(C,1),(D,3),(F,1)4(B,1),(D,1),(F,3)5(B,1),(C,4)6(A,2),(B,6),(C,3),(D,4),(F,1)7(C,1),(D,2),(E,5)8(B,2),(E,1)9(B,2),(D,1),(F,1)10(A,4),(B,1),(D,1),(E,3)该数据库中,每个事务中还记录有各个数据项各自对应的数量。比如,在事务1中,数据项A对应的数量为3,数据项C对应的数量为2,数据项E对应的数量为4,该条记录的实际意义可以为:一位顾客购买了3件A商品,2件C商品以及4件E商品。2、事务编号(英文:TID):数据库中不同事务的编号。3、数据项:事务中记录的每条信息项目,且一个事务中包含至少一个数据项。比如,在表一所示的数据库中,事务中的数据项则可以是购买记录中,购买商品的名称。4、项集:至少一个数据项构成的集合,用于表征数据库内在的一种关联规则。事务与项集的不同的点是,事务通常是由实际的事件所触发生成的数据库中的记录;而项集通常是从数据库挖掘而出的,并不一定有实际的含义。5、k-项集:包含有k个数据项的集合。比如,项集A为1-项集,即该项集中只包含数据项A;项集AB为2-项集,即该项集中包含数据项A和数据项B。6、价格表(英文名:ptable):用于记录数据库中各个数据项对应的成本价及售价。比如,在表一所示的数据库中,包含数据项A、B、C、D、E和F,各个数据项对应的成本价和售价可以示意性的如表二所示。表二数据项成本价售价A2535B810C70128D510E3850F10187、折扣表(英文名:stable):用于记录数据库中各个数据项各自对应的折扣类型和折扣参数。其中,各个数据项对应的折扣类型可以相同或者不同,同一折扣类型对应的折扣参数可以相同或者不同。比如,结合上述表一和表二,该折扣表可以示意性的如表三所示。表三数据项折扣类型Sgi折扣参数v1折扣参数v2A10.75-B11.0-C221D10-E320.6F10.8-其中,折扣类型1即Sg1所指示的折扣策略为:顾客以(售价×v1)购得商品X。比如,当顾客购买商品A时,对应的v1为0.75,即以售价的75%出售该商品,即用户以35×0.75=26.25购得商品A;折扣类型2即Sg2所指示的折扣策略为:顾客每购买v1个商品X,可免费获赠v2个商品X。比如,当顾客购买2个本文档来自技高网...
项集挖掘方法及装置

【技术保护点】
一种项集挖掘方法,其特征在于,所述方法包括:获取自定义的最低效用阈值、价格表和折扣表;所述价格表中包含各个数据项对应的成本价和售价;所述折扣表中包含各个数据项对应的折扣类型和折扣参数;对于数据库中的各个项集,根据所述项集中包含的数据项对应的所述成本价、所述售价、所述折扣类型和所述折扣参数,计算所述项集的实际效用值;所述项集包含至少一个所述数据项;当所述实际效用值≥所述最低效用阈值时,确定所述项集为高效用项集。

【技术特征摘要】
1.一种项集挖掘方法,其特征在于,所述方法包括:获取自定义的最低效用阈值、价格表和折扣表;所述价格表中包含各个数据项对应的成本价和售价;所述折扣表中包含各个数据项对应的折扣类型和折扣参数;对于数据库中的各个项集,根据所述项集中包含的数据项对应的所述成本价、所述售价、所述折扣类型和所述折扣参数,计算所述项集的实际效用值;所述项集包含至少一个所述数据项;当所述实际效用值≥所述最低效用阈值时,确定所述项集为高效用项集。2.根据权利要求1所述的方法,其特征在于,所述根据所述项集中包含的数据项对应的所述成本价、所述售价、所述折扣类型和所述折扣参数,计算所述项集的实际效用值,包括:对于包含所述项集的事务,获取所述项集中包含的各个数据项在所述事务中各自对应的数量;根据所述项集中各个数据项对应的所述成本价、所述售价、所述折扣类型、所述折扣参数和所述数量,计算所述项集在所述事务中的效用值;将所述项集在不同事务中对应的所述效用值相加,得到所述项集的所述实际效用值。3.根据权利要求1所述的方法,其特征在于,所述根据所述项集中包含的数据项对应的所述成本价、所述售价、所述折扣类型和所述折扣参数,计算所述项集的实际效用值,包括:扫描所述数据库,获取所述数据库中各个事务的事务效用上限;所述事务效用上限指所述事务中所述数据项的正效用之和;构建第k-TID表,所述第k-TID表包含k-项集与包含所述k-项集的所述事务的事务编号TID的对应关系,k为正整数;根据所述k-项集对应的所述TID,计算各个k-项集对应的事务加权效用上限,所述事务加权效用上限是包含所述k-项集的所述事务对应的所述事务效用
\t上限之和;当所述事务加权效用上限≥所述最低效用阈值时,将所述k-项集确定为候选项集;再次扫描所述数据库,计算所述候选项集中各个项集的所述实际效用值。4.根据权利要求3所述的方法,其特征在于,所述当所述事务加权效用上限≥所述最低效用阈值时,将所述k-项集确定为候选项集,包括:获取所述事务加权效用上限≥所述最低效用阈值的所述k-项集,并将所述k项集添加到第k候选项集;当所述第k候选项集不为空时,根据所述第k候选项集中的所述k-项集自连接生成(k+1)-项集,所述(k+1)-项集是所述k-项集的超集,所述(k+1)-项集是包含k+1个数据项的项集;获取所述(k+1)-项集中所述事务加权效用上限≥所述最低效用阈值的项集,并将所述项集添加到第k+1候选项集。5.根据权利要求1所述的方法,其特征在于,所述对于数据库中的各个项集,根据所述项集中包含的数据项对应的所述成本价、所述售价、所述折扣类型和所述折扣参数,计算所述项集的实际效用值,包括:构建第k-正负效用PNU表,所述第k-PNU表中包含k-项集所在事务的事务编号TID、所述k-项集在所述事务中的项集效用Iutility、所述k-项集在所述事务中的负效用Nutility以及所述k-项集在所述事务中的项集剩余效用Rutility;所述项集剩余效用Rutility表示所述事务中除所述k-项集以外的其它数据项的正效用之和,所述k-项集包含k个数据项,k为正整数;根据所述第k-PNU表,计算所述k-项集的项集效用和X.IU;所述X.IU表示所述k-项集在不同事务中的所述Iutility之和;当所述第k-PNU表中,(所述X.IU-项集负效用和X.NU+项集剩余效用和X.RU)<所述最低效用阈值时,确定所述k-项集及其超集均不是所述高效用项集,并对所述k-项集进行过滤;所述X.NU表示所述k-项集在不同事务中的所述Nutility之和;所述X.RU表示所述k-项集在不同事务中的所述Rutility之和。6.根据权利要求5所述的方法,其特征在于,所述构建正负效用PNU表,包括:扫描所述数据库,并构建第1-PNU表,所述第1-PNU表包括1-项集对应的所述TID、所述Iutility、所述Nutility和所述Rutility;或,在第k-PNU表中,当(所述X.IU-所述X.NU+所述X.RU)≥所述最低效用阈值时,根据所述第k-PNU表递归生成第(k+1)-PNU表,所述第(k+1)-PNU表中的(k+1)-项集为所述k项集的超集。7.根据权利要求5所述的方法,其特征在于,所述当所述实际效用值≥所述最低效用阈值时,确定所述项集为高效用项集,包括:当所述k-项集的X.IU≥所述最低效用阈值时,确定所述项集为高效用项集。8.根据权利要求5所述的方法,其特征在于,所述方法,还包括:构建估计效用共同出现策略EUCS表,所述EUCS表中包含所述k-项集与所述k-项集对应的事务加权效用上限,k≥2;所述事务加权效用上限指包含所述k-项集的所述事务对应的所述事务效用上限之和,所述事务效用上限指所述事务中所述数据项的正效用之和;根据所述EUCS表,对所述事务加权效用上限<所述最低效用阈值的...

【专利技术属性】
技术研发人员:林浚玮管刚刘婷婷甘文生
申请(专利权)人:哈尔滨工业大学深圳研究生院腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1