【技术实现步骤摘要】
本专利技术实施例涉及数据挖掘
,特别涉及一种项集挖掘方法及装置。
技术介绍
数据库中通常包括有至少一个事务(英文:Transaction),每个事务中包括至少一个数据项(英文:item),比如,一条关于购物记录的事务中,包括商品名称和购买数量等数据项。为了发现不同数据项之间的关联规则,需要进行目标数据项集的挖掘。项集(英文:Itemsets)是由至少一个数据项构成的集合,用于表征数据库中内在的一种关联规则。HUIM(High-UtilityItemsetsMining,高效用项集挖掘)作为一种常见的数据挖掘方式,用于从数据库中挖掘出由不同数据项组成的效用值较高的项集。在现有的基于HUIM的算法中,根据不同数据项各自对应的效用值,计算数据库中各个项集对应的效用值,当该项集对应的效用值大于或等于预设效用值时,确定该项集为高效用项集并进行挖掘,从而实现从数据库中挖掘出高效用的项集。在实现本专利技术实施例的过程中,专利技术人发现上述技术至少存在以下问题:在现有的基于HUIM的算法中,数据项对应的效用值被认为是固定不变的,而在实际情况中,数据库中的数据项对应的效用值通常是变化的,导致计算得到的项集的效用值不准确,挖掘出的高效用项集的实际使用价值较低。比如,当数据库中的数据项对应商品时,该数据项的效用值即为商品的利润,而商品的利润又通常与商品的成本价、售价和打折情况有关,即商品的利润是变化的。
技术实现思路
为了解决上述技术的问题,本专利技术实施例提供了一种项集挖掘方法及装置。所述技术方案如下:根据本专利技术实施例的第一方面,提供一种项集挖掘方法,该方法包括:获取 ...
【技术保护点】
一种项集挖掘方法,其特征在于,所述方法包括:获取自定义的最低效用阈值、价格表和折扣表;所述价格表中包含各个数据项对应的成本价和售价;所述折扣表中包含各个数据项对应的折扣类型和折扣参数;对于数据库中的各个项集,根据所述项集中包含的数据项对应的所述成本价、所述售价、所述折扣类型和所述折扣参数,计算所述项集的实际效用值;所述项集包含至少一个所述数据项;当所述实际效用值≥所述最低效用阈值时,确定所述项集为高效用项集。
【技术特征摘要】
1.一种项集挖掘方法,其特征在于,所述方法包括:获取自定义的最低效用阈值、价格表和折扣表;所述价格表中包含各个数据项对应的成本价和售价;所述折扣表中包含各个数据项对应的折扣类型和折扣参数;对于数据库中的各个项集,根据所述项集中包含的数据项对应的所述成本价、所述售价、所述折扣类型和所述折扣参数,计算所述项集的实际效用值;所述项集包含至少一个所述数据项;当所述实际效用值≥所述最低效用阈值时,确定所述项集为高效用项集。2.根据权利要求1所述的方法,其特征在于,所述根据所述项集中包含的数据项对应的所述成本价、所述售价、所述折扣类型和所述折扣参数,计算所述项集的实际效用值,包括:对于包含所述项集的事务,获取所述项集中包含的各个数据项在所述事务中各自对应的数量;根据所述项集中各个数据项对应的所述成本价、所述售价、所述折扣类型、所述折扣参数和所述数量,计算所述项集在所述事务中的效用值;将所述项集在不同事务中对应的所述效用值相加,得到所述项集的所述实际效用值。3.根据权利要求1所述的方法,其特征在于,所述根据所述项集中包含的数据项对应的所述成本价、所述售价、所述折扣类型和所述折扣参数,计算所述项集的实际效用值,包括:扫描所述数据库,获取所述数据库中各个事务的事务效用上限;所述事务效用上限指所述事务中所述数据项的正效用之和;构建第k-TID表,所述第k-TID表包含k-项集与包含所述k-项集的所述事务的事务编号TID的对应关系,k为正整数;根据所述k-项集对应的所述TID,计算各个k-项集对应的事务加权效用上限,所述事务加权效用上限是包含所述k-项集的所述事务对应的所述事务效用
\t上限之和;当所述事务加权效用上限≥所述最低效用阈值时,将所述k-项集确定为候选项集;再次扫描所述数据库,计算所述候选项集中各个项集的所述实际效用值。4.根据权利要求3所述的方法,其特征在于,所述当所述事务加权效用上限≥所述最低效用阈值时,将所述k-项集确定为候选项集,包括:获取所述事务加权效用上限≥所述最低效用阈值的所述k-项集,并将所述k项集添加到第k候选项集;当所述第k候选项集不为空时,根据所述第k候选项集中的所述k-项集自连接生成(k+1)-项集,所述(k+1)-项集是所述k-项集的超集,所述(k+1)-项集是包含k+1个数据项的项集;获取所述(k+1)-项集中所述事务加权效用上限≥所述最低效用阈值的项集,并将所述项集添加到第k+1候选项集。5.根据权利要求1所述的方法,其特征在于,所述对于数据库中的各个项集,根据所述项集中包含的数据项对应的所述成本价、所述售价、所述折扣类型和所述折扣参数,计算所述项集的实际效用值,包括:构建第k-正负效用PNU表,所述第k-PNU表中包含k-项集所在事务的事务编号TID、所述k-项集在所述事务中的项集效用Iutility、所述k-项集在所述事务中的负效用Nutility以及所述k-项集在所述事务中的项集剩余效用Rutility;所述项集剩余效用Rutility表示所述事务中除所述k-项集以外的其它数据项的正效用之和,所述k-项集包含k个数据项,k为正整数;根据所述第k-PNU表,计算所述k-项集的项集效用和X.IU;所述X.IU表示所述k-项集在不同事务中的所述Iutility之和;当所述第k-PNU表中,(所述X.IU-项集负效用和X.NU+项集剩余效用和X.RU)<所述最低效用阈值时,确定所述k-项集及其超集均不是所述高效用项集,并对所述k-项集进行过滤;所述X.NU表示所述k-项集在不同事务中的所述Nutility之和;所述X.RU表示所述k-项集在不同事务中的所述Rutility之和。6.根据权利要求5所述的方法,其特征在于,所述构建正负效用PNU表,包括:扫描所述数据库,并构建第1-PNU表,所述第1-PNU表包括1-项集对应的所述TID、所述Iutility、所述Nutility和所述Rutility;或,在第k-PNU表中,当(所述X.IU-所述X.NU+所述X.RU)≥所述最低效用阈值时,根据所述第k-PNU表递归生成第(k+1)-PNU表,所述第(k+1)-PNU表中的(k+1)-项集为所述k项集的超集。7.根据权利要求5所述的方法,其特征在于,所述当所述实际效用值≥所述最低效用阈值时,确定所述项集为高效用项集,包括:当所述k-项集的X.IU≥所述最低效用阈值时,确定所述项集为高效用项集。8.根据权利要求5所述的方法,其特征在于,所述方法,还包括:构建估计效用共同出现策略EUCS表,所述EUCS表中包含所述k-项集与所述k-项集对应的事务加权效用上限,k≥2;所述事务加权效用上限指包含所述k-项集的所述事务对应的所述事务效用上限之和,所述事务效用上限指所述事务中所述数据项的正效用之和;根据所述EUCS表,对所述事务加权效用上限<所述最低效用阈值的...
【专利技术属性】
技术研发人员:林浚玮,管刚,刘婷婷,甘文生,
申请(专利权)人:哈尔滨工业大学深圳研究生院,腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。