【技术实现步骤摘要】
一种基于模糊列表缓冲区的高模糊效用项集挖掘方法
[0001]本专利技术涉及高模糊效用项集挖掘
,更具体地,涉及一种基于模糊列表缓冲区的高模糊效用项集挖掘、系统及计算机可读存储介质。
技术介绍
[0002]科学技术的日趋进步,数据的采集样本涉及的热门领域越做越广(如经济、军事、物流、金融、电信等),现实中的数据对比一般情况是结构复杂或混合、结构化或非结构化、不完整、特征不精确的,而这些模糊复杂的数据集,没有提取其重要典型特征,无从完成数据的统计的挖掘分析。现在的研究窘境显示,许多研究者在确定性的数据挖掘技术方面尽管取得的丰硕的获得的成果,问题提出了许多有效地实现算法,并满足了各种不同的实际快速应用,实际上对模糊复杂的数据挖掘技术研究还处在不成熟的重要阶段,仍客观存在大量的具体问题有待加以解决。“很模糊”是人类与动物感知一切万物、获取各种知识、认知推理、决策实施的重要结构特征。“一片模糊”比“清晰”所包含的信息存储能力更高,哲学内涵更丰富,更符合客观拥有世界。在人类的思维中,有许多模糊的全新的概念,如直径大小,冷热等,这些行业概念没有明确的哲学内涵和外延,也就无法找到并运用传统的精确数学描述。
[0003]传统的关联规则挖掘(ARM)和频繁模式挖掘(FIM)算法可能会输出频繁但低利润的结果,这在某些情况下是不可接受的。所以为了解决这个问题,有学者提出了一个新的基于效用理论的挖掘框架,称为高效用项集挖掘(HUIM)。Shen等人首次尝试在关联规则挖掘中应用效用约束。他们指出,效用包括物品的数量和单位项目的利润 ...
【技术保护点】
【技术特征摘要】
1.一种基于模糊列表缓冲区的高模糊效用项集挖掘方法,其特征在于,包括以下步骤:S1:初始化数据挖掘运行参数,所述数据挖掘运行参数包括:待挖掘的定量数据库D,预定义的隶属度函数R,结果集最小模糊效用阈值minUtil;S2:扫描事务数据库D并根据隶属度函数R计算单一项的模糊效用上界FUUB,并创建初始化列表I*;S3:将模糊效用上界值不小于最小阈值minUtil的单一模糊项存入初始化列表I*,并按照模糊效用上界值升序排序;S4:再次扫描数据库D,构建评估模糊效用共现结构EFuCS、模糊列表缓冲区FLBuf及其辅助的概要列表SL;S5:调用递归搜索子程序Search,传入参数,所述参数包括:初始前缀模糊项集初始化列表I*、最小模糊效用阈值minUtil、评估模糊效用共现结构EFuCS、模糊列表缓冲区FLBuf及其概要列表SL;S6:输出模糊效用不低于最小阈值的所有高模糊效用项集HFUIs,完成数据挖掘。2.根据权利要求1所述的一种基于模糊列表缓冲区的高模糊效用项集挖掘方法,其特征在于,步骤S5中调用递归搜索子程序Search,包括如下步骤:S501:在递归搜索子程序Search中,对于模糊项集P的一个扩展模糊项集X,如果概要列表SL(X)中存储的模糊项集X的模糊效用之和sumFu不小于最小阈值minUtil,那么将模糊项集X加入到高模糊效用项集的集合HFUIs中;S502:如果模糊项集X的概要列表SL(X)中的模糊效用之和sumFu与剩余模糊效用之和sumRfu相加结果不小于最小阈值minUtil,那么模糊项集X的扩展模糊项集则可能是高模糊效用项集;S503:对于模糊项集P的另一个扩展模糊项集Y,其中Y在模糊项集X之后,找到模糊项集Y满足:在评估模糊效用共现结构EFuCS中模糊项集X和Y的模糊效用上界值不小于最小阈值minUtil;S504:将模糊列表缓冲区FLBuf,概要列表SL,模糊项集P、X、Y,最小阈值minUtil作为参数调用模糊列表缓冲区构建程序,返回构建结果;S505:若构建结果返回真,那么合并模糊项集X和Y为Pxy,若模糊项集Pxy的概要列表SL(Pxy)的模糊效用之和大于0,那么将模糊项集Pxy加入模糊项集X的扩展模糊项集的集合ExtensionsOfX中;S506:合并模糊项集P和X作为新的前缀模糊项集Px,递归调用搜索子程序Search,直到遍历完所有的扩展模糊项集。3.根据权利要求2所述的一种基于模糊列表缓冲区的高模糊效用项集挖掘方法,其特征在于,步骤S504所述的模糊列表缓冲区构建程序,包括以下步骤:S5041:在模糊列表缓冲区构建程序中,设指针PPnt,PxPnt,PyPnt分别为概要列表中SL(P),SL(Px),SL(Py)的起始位置,指针指向模糊列表缓冲区中的元组;S5042:设变量EAMeasure为模糊项集Px,Py的概要列表SL(Px),SL(Py)的模糊效用之和与剩余模糊效用之和的相加结果,设变量insertPos为概要列表SL最后一个模糊项集的起始位置;S5043:如果指针PxPnt指向的元组中Tids小于PyPnt指向的元组中的Tids,那么将指针
PxPnt向右移动一位,变量EAMeasure减去PxPnt指向的元组的fus和rfus之和;S5044:如果指针PxPnt指向的元组中Tids大于PyPnt指向的元组中的Tids,那么将指针PyPnt向右移动一位,变量EAMeasure减去PyPnt指向的元组的fus和rfus之和;S5045:如果指针PxPnt指向的元组中Tids等于PyPnt指向的元组中的Tids,并且概要列表SL(P)不为空,那么PPnt的指针连续向右移动,直到PPnt移动到SL(P)的末尾或者PPnt指向的元组中的Tids与PxPnt指向的元组中的Tids相等为止;S5046:如果待插入位置insertPos超过模糊列表缓冲区大小,那么分配新的内存空间,否则回收再利用内存空间,模糊列表缓冲区添加新元组,令Tids为PxPnt的Tids,fus为PxPnt的fus加PyPnt的fus减去PPnt的fus,rfus为PyPnt的rfus;S5047:插入数据后,指针PxPnt和PyPnt同时向右移动一位;S5048:当指针PxPnt没有指向概要列表SL(Px)的末位置EndPos,并且指针PyPnt没有指向概要列表SL(Py)的末位置EndPos时,重复执行模糊列表缓冲区程序;S5049:如果变量EAMeasure小于最小阈值minUtil,返回结果false;S50410:更新概要列表...
【专利技术属性】
技术研发人员:徐国涛,陈家辉,彭翠薇,刘煜,万世成,程芳炫,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。