一种基于模糊列表缓冲区的高模糊效用项集挖掘方法技术

技术编号:35937749 阅读:9 留言:0更新日期:2022-12-14 10:25
本发明专利技术公开了一种基于模糊列表缓冲区的高模糊效用项集挖掘方法、系统及计算机可读存储介质,方法包括:S1:初始化数据挖掘运行参数;S2:扫描事务数据库D并根据隶属度函数R计算单一项的模糊效用上界FUUB,并创建初始化列表I*;S3:将模糊效用上界值不小于最小阈值minUtil的单一模糊项存入初始化列表I*,并按照模糊效用上界值升序排序;S4:再次扫描数据库D,构建评估模糊效用共现结构EFuCS、模糊列表缓冲区FLBuf及其辅助的概要列表SL;S5:调用递归搜索子程序Search,传入参数;S6:输出模糊效用不低于最小阈值的所有高模糊效用项集HFUIs,完成数据挖掘。本发明专利技术降低高模糊效用项集挖掘算法运行时间、降低了内存消耗。降低了内存消耗。降低了内存消耗。

【技术实现步骤摘要】
一种基于模糊列表缓冲区的高模糊效用项集挖掘方法


[0001]本专利技术涉及高模糊效用项集挖掘
,更具体地,涉及一种基于模糊列表缓冲区的高模糊效用项集挖掘、系统及计算机可读存储介质。

技术介绍

[0002]科学技术的日趋进步,数据的采集样本涉及的热门领域越做越广(如经济、军事、物流、金融、电信等),现实中的数据对比一般情况是结构复杂或混合、结构化或非结构化、不完整、特征不精确的,而这些模糊复杂的数据集,没有提取其重要典型特征,无从完成数据的统计的挖掘分析。现在的研究窘境显示,许多研究者在确定性的数据挖掘技术方面尽管取得的丰硕的获得的成果,问题提出了许多有效地实现算法,并满足了各种不同的实际快速应用,实际上对模糊复杂的数据挖掘技术研究还处在不成熟的重要阶段,仍客观存在大量的具体问题有待加以解决。“很模糊”是人类与动物感知一切万物、获取各种知识、认知推理、决策实施的重要结构特征。“一片模糊”比“清晰”所包含的信息存储能力更高,哲学内涵更丰富,更符合客观拥有世界。在人类的思维中,有许多模糊的全新的概念,如直径大小,冷热等,这些行业概念没有明确的哲学内涵和外延,也就无法找到并运用传统的精确数学描述。
[0003]传统的关联规则挖掘(ARM)和频繁模式挖掘(FIM)算法可能会输出频繁但低利润的结果,这在某些情况下是不可接受的。所以为了解决这个问题,有学者提出了一个新的基于效用理论的挖掘框架,称为高效用项集挖掘(HUIM)。Shen等人首次尝试在关联规则挖掘中应用效用约束。他们指出,效用包括物品的数量和单位项目的利润,它既不是单调的也不是反单调的。此外,由于效用可以是正的或负的。应用在FIM中的优化方法不能直接的地应用于HUIM。随后有学者提出了事务加权利用率模型解决了上述问题。虽然HUIM算法通过数值效用的衡量来评估不同项目的重要性,但挖掘出来的结果却不能提供其他更多有用的信息,例如项目的购买数量等。
[0004]因此,现有技术中,Wang等人结合效用理论和模糊理论,提出了一个新的架构,称为模糊效用挖掘(FUM),从定量交易数据库中挖掘出高模糊效用项集(HFUIs)。此外,Lan等人采用了一个用户定义的隶属度函数来评估项集的模糊效用。他们工作的亮点是在FUM中实现了向下闭包的特性。在FUM中,这是一个有效的模糊效用上界(FUUB)。而最近,Wan(Wan,Shicheng,et al."FUIM:Fuzzy Utility Itemset Mining."arXiv preprint arXiv:2111.00307(2021).)等人提出了一种FUM算法,称为FUIM。他们提出了剩余模糊效用的概念以及提出了使用模糊列表进行高模糊效用挖掘的方法。大量的实验表明FUIM比先前的算法表现得更好。然而,由于模糊列表的结构,FUIM在模糊列表的连接操作中耗费了过多的运行时间和内存。因此,亟需提出一种基于模糊列表缓冲区的高模糊效用项集挖掘方法。

技术实现思路

[0005]本专利技术为克服上述现有技术中高模糊效用项集挖掘内存消耗大、用时时间长的缺
陷,提供一种基于模糊列表缓冲区的高模糊效用项集挖掘、系统及计算机可读存储介质,降低高模糊效用项集挖掘算法运行时间、降低内存消耗。
[0006]本专利技术的首要目的是为解决上述技术问题,本专利技术的技术方案如下:
[0007]本专利技术第一方面提供了一种基于模糊列表缓冲区的高模糊效用项集挖掘方法,包括以下步骤:
[0008]S1:初始化数据挖掘运行参数,所述数据挖掘运行参数包括:待挖掘的定量数据库D,预定义的隶属度函数R,结果集最小模糊效用阈值minUtil;
[0009]S2:扫描事务数据库D并根据隶属度函数R计算单一项的模糊效用上界FUUB,并创建初始化列表I*;
[0010]S3:将模糊效用上界值不小于最小阈值minUtil的单一模糊项存入初始化列表I*,并按照模糊效用上界值升序排序;
[0011]S4:再次扫描数据库D,构建评估模糊效用共现结构EFuCS、模糊列表缓冲区FLBuf及其辅助的概要列表SL;
[0012]S5:调用递归搜索子程序Search,传入参数,所述参数包括:初始前缀模糊项集初始化列表I*、最小模糊效用阈值minUtil、评估模糊效用共现结构EFuCS、模糊列表缓冲区FLBuf及其概要列表SL;
[0013]S6:输出模糊效用不低于最小阈值的所有高模糊效用项集HFUIs,完成数据挖掘。
[0014]进一步的,步骤S5中调用递归搜索子程序Search,包括如下步骤:
[0015]S501:在递归搜索子程序Search中,对于模糊项集P的一个扩展模糊项集X,如果概要列表SL(X)中存储的模糊项集X的模糊效用之和sumFu不小于最小阈值minUtil,那么将模糊项集X加入到高模糊效用项集的集合HFUIs中;
[0016]S502:如果模糊项集X的概要列表SL(X)中的模糊效用之和sumFu与剩余模糊效用之和sumRfu相加结果不小于最小阈值minUtil,那么模糊项集X的扩展模糊项集则可能是高模糊效用项集;
[0017]S503:对于模糊项集P的另一个扩展模糊项集Y,其中Y在模糊项集X之后,找到模糊项集Y满足:在评估模糊效用共现结构EFuCS中模糊项集X和Y的模糊效用上界值不小于最小阈值minUtil;
[0018]S504:将模糊列表缓冲区FLBuf,概要列表SL,模糊项集P、X、Y,最小阈值minUtil作为参数调用模糊列表缓冲区构建程序,返回构建结果;
[0019]S505:若构建结果返回真,那么合并模糊项集X和Y为Pxy,若模糊项集Pxy的概要列表SL(Pxy)的模糊效用之和大于0,那么将模糊项集Pxy加入模糊项集X的扩展模糊项集的集合ExtensionsOfX中;
[0020]S506:合并模糊项集P和X作为新的前缀模糊项集Px,递归调用搜索子程序Search,直到遍历完所有的扩展模糊项集。
[0021]进一步的,步骤S504所述的模糊列表缓冲区构建程序,包括以下步骤:
[0022]S5041:在模糊列表缓冲区构建程序中,设指针PPnt,PxPnt,PyPnt分别为概要列表中SL(P),SL(Px),SL(Py)的起始位置,指针指向模糊列表缓冲区中的元组;
[0023]S5042:设变量EAMeasure为模糊项集Px,Py的概要列表SL(Px),SL(Py)的模糊效用之和与剩余模糊效用之和的相加结果,设变量insertPos为概要列表SL最后一个模糊项集
的起始位置;
[0024]S5043:如果指针PxPnt指向的元组中Tids小于PyPnt指向的元组中的Tids,那么将指针PxPnt向右移动一位,变量EAMeasure减去PxPnt指向的元组的fus和rfus之和;
[0025]S5044:如果指针PxPnt指向的元组中Tids大于PyPnt指向的元组中的Tids,那么将指针PyPnt向右移动一位,变量E本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模糊列表缓冲区的高模糊效用项集挖掘方法,其特征在于,包括以下步骤:S1:初始化数据挖掘运行参数,所述数据挖掘运行参数包括:待挖掘的定量数据库D,预定义的隶属度函数R,结果集最小模糊效用阈值minUtil;S2:扫描事务数据库D并根据隶属度函数R计算单一项的模糊效用上界FUUB,并创建初始化列表I*;S3:将模糊效用上界值不小于最小阈值minUtil的单一模糊项存入初始化列表I*,并按照模糊效用上界值升序排序;S4:再次扫描数据库D,构建评估模糊效用共现结构EFuCS、模糊列表缓冲区FLBuf及其辅助的概要列表SL;S5:调用递归搜索子程序Search,传入参数,所述参数包括:初始前缀模糊项集初始化列表I*、最小模糊效用阈值minUtil、评估模糊效用共现结构EFuCS、模糊列表缓冲区FLBuf及其概要列表SL;S6:输出模糊效用不低于最小阈值的所有高模糊效用项集HFUIs,完成数据挖掘。2.根据权利要求1所述的一种基于模糊列表缓冲区的高模糊效用项集挖掘方法,其特征在于,步骤S5中调用递归搜索子程序Search,包括如下步骤:S501:在递归搜索子程序Search中,对于模糊项集P的一个扩展模糊项集X,如果概要列表SL(X)中存储的模糊项集X的模糊效用之和sumFu不小于最小阈值minUtil,那么将模糊项集X加入到高模糊效用项集的集合HFUIs中;S502:如果模糊项集X的概要列表SL(X)中的模糊效用之和sumFu与剩余模糊效用之和sumRfu相加结果不小于最小阈值minUtil,那么模糊项集X的扩展模糊项集则可能是高模糊效用项集;S503:对于模糊项集P的另一个扩展模糊项集Y,其中Y在模糊项集X之后,找到模糊项集Y满足:在评估模糊效用共现结构EFuCS中模糊项集X和Y的模糊效用上界值不小于最小阈值minUtil;S504:将模糊列表缓冲区FLBuf,概要列表SL,模糊项集P、X、Y,最小阈值minUtil作为参数调用模糊列表缓冲区构建程序,返回构建结果;S505:若构建结果返回真,那么合并模糊项集X和Y为Pxy,若模糊项集Pxy的概要列表SL(Pxy)的模糊效用之和大于0,那么将模糊项集Pxy加入模糊项集X的扩展模糊项集的集合ExtensionsOfX中;S506:合并模糊项集P和X作为新的前缀模糊项集Px,递归调用搜索子程序Search,直到遍历完所有的扩展模糊项集。3.根据权利要求2所述的一种基于模糊列表缓冲区的高模糊效用项集挖掘方法,其特征在于,步骤S504所述的模糊列表缓冲区构建程序,包括以下步骤:S5041:在模糊列表缓冲区构建程序中,设指针PPnt,PxPnt,PyPnt分别为概要列表中SL(P),SL(Px),SL(Py)的起始位置,指针指向模糊列表缓冲区中的元组;S5042:设变量EAMeasure为模糊项集Px,Py的概要列表SL(Px),SL(Py)的模糊效用之和与剩余模糊效用之和的相加结果,设变量insertPos为概要列表SL最后一个模糊项集的起始位置;S5043:如果指针PxPnt指向的元组中Tids小于PyPnt指向的元组中的Tids,那么将指针
PxPnt向右移动一位,变量EAMeasure减去PxPnt指向的元组的fus和rfus之和;S5044:如果指针PxPnt指向的元组中Tids大于PyPnt指向的元组中的Tids,那么将指针PyPnt向右移动一位,变量EAMeasure减去PyPnt指向的元组的fus和rfus之和;S5045:如果指针PxPnt指向的元组中Tids等于PyPnt指向的元组中的Tids,并且概要列表SL(P)不为空,那么PPnt的指针连续向右移动,直到PPnt移动到SL(P)的末尾或者PPnt指向的元组中的Tids与PxPnt指向的元组中的Tids相等为止;S5046:如果待插入位置insertPos超过模糊列表缓冲区大小,那么分配新的内存空间,否则回收再利用内存空间,模糊列表缓冲区添加新元组,令Tids为PxPnt的Tids,fus为PxPnt的fus加PyPnt的fus减去PPnt的fus,rfus为PyPnt的rfus;S5047:插入数据后,指针PxPnt和PyPnt同时向右移动一位;S5048:当指针PxPnt没有指向概要列表SL(Px)的末位置EndPos,并且指针PyPnt没有指向概要列表SL(Py)的末位置EndPos时,重复执行模糊列表缓冲区程序;S5049:如果变量EAMeasure小于最小阈值minUtil,返回结果false;S50410:更新概要列表...

【专利技术属性】
技术研发人员:徐国涛陈家辉彭翠薇刘煜万世成程芳炫
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1