基于深度优先的不确定数据最大模式挖掘方法技术

技术编号:11126552 阅读:108 留言:0更新日期:2015-03-11 16:03
本发明专利技术涉及一种基于深度优先的不确定数据最大模式挖掘方法。它包括:不确定数据处理、频繁项集判断以及最大模式挖掘方法三大技术部分。所述不确定数据处理是利用数据垂直格式转换将以事务ID作为主键的不确定数据水平格式转换为以项ID作为主键的不确定数据垂直格式。所述频繁项集判断是计算一个项集是否支持度大于等于给定支持度阈值,且置信度大于等于给定置信度阈值的过程。所述最大模式挖掘方法是挖掘最大频繁项集的过程,挖掘过程以转换后的垂直格式数据作为输入,根据给定的支持度和置信度阈值,挖掘出所有的不确定数据最大模式频繁项集。该方法可有效获取不确定数据中的有价值信息,同时具有较高的挖掘效率。

【技术实现步骤摘要】

本专利技术涉及一种计算机应用
的算法,具体说是基于深度优先的不确定数 据最大模式挖掘方法。
技术介绍
随着科学技术的飞速发展,传感器网络、无线射频识别、隐私保护等技术得到了广 泛的研究与应用,随之而来地产生了这样一类数据,它们不是以单个数据点的形式存在,而 是以一定的概率出现在多个数据点上。这与传统的数据库中的数据有着本质的区别,人们 称其为不确定数据。 频繁项集的挖掘是数据挖掘领域的一个基础和核心的问题,目前已提出的具有代 表性的最大频繁项集挖掘方法,如Max-Miner、Mafia、Genmax等,它们分别采用了双向搜索 策略、Depth-Project、用于超集检验的局部最大频繁项集、不支持度排序以及高效的剪枝 策略等技术手段。但这些方法都是应用在确定性数据上的,无法高效获取不确定数据中的 有价值信息,而挖掘方法的好坏是直接影响数据挖掘尤其是关联挖掘的效率和应用范围。 因此,不确定数据的最大频繁项集挖掘方法的研究具有重要的理论和应用价值。 经过对现有技术的检索发现,Karam Gouda在《Efficiently Mining Maximal Frequent Itemsets》(2001年IDCM会议)中提出了一种最大频繁项集的挖掘方法GenMax, 该文献中以深度优先为原理,利用现有节点与其扩展节点的组合,来递归的挖掘最大频繁 项集。但是该现有技术的缺陷在于:只能应用于确定性数据结构,它主要是以项出现的次 数是否大于给定阈值来判断其是否频繁,但当项是以一定概率出现的话,该方法不再适用。 另外,该方法以递归方式来进行深度挖掘,每次只能回退一步,会出现很多不必要的分支判 断,从而降低了挖掘效率。
技术实现思路
本专利技术是针对现有技术的不足,提供一种基于深度优先的不确定数据最大模式挖 掘方法。该方法可有效获取不确定数据中的有价值信息,同时具有较高的挖掘效率。 为解决上述问题,采取以下技术方案。 本专利技术的的特点是包括以下步 骤: 第一步,在计算机系统中加载数据文件; 第二步,通过垂直格式转换,将以事务ID为主键的水平格式数据集转化为以项ID为主 键的垂直格式数据集,并以关联数据表的形式表示; 第三步,计算关联数据表中每一项的支持度,并根据切尔诺夫界判断每一项是否频繁, 频繁则保留在关联数据表汇中,否则删除;通过动态规划方法,计算关联数据表中保留项是 频繁的置信度,当置信度大于等于给定阈值时,该项为频繁项,保留在关联数据表中,否则 删除;当所有项处理完毕后,得到的关联数据表中的元素就是所有频繁一项集; 第四步,计算关联数据表中频繁一项集的不支持度,并按照不支持度降序对频繁一项 集进行排列,若不支持度相同,则按照支持度升序排列; 第五步,构建根节点,初始化栈结构,根节点入栈,以迭代方式进行栈式结构的深度挖 掘;根节点包含扩展项、待扩展项以及局部最大项集投影;初始时,根节点扩展项和局部最 大项集投影为空,待扩展项为排序的频繁一项集;深度挖掘过程表现为两种形式:一种形 式为新建节点,节点入栈,表示在挖掘树上向下进行挖掘,直至处理到扩展项为空的叶子节 点;另一种形式为节点出栈,表示在挖掘树上向上回退,可以多步回退,直至到达下一个分 支待处理的节点,更新挖掘结果,进行新分支的挖掘;最终,当挖掘树的所有分支处理完毕, 根节点出栈,深度挖掘结束;根节点的局部最大项集投影即为所有挖掘到的最大频繁项集。 其中,所述第二步的具体步骤如下: 2. 1)初始化以项ID为主键,以其事务集和概率为值的关联数据表; 2. 2)读取第一步中加载的数据文件中的每一个事务; 2. 3)读取事务的每一个项,如果其不存在于关联数据表,将其加入到关联数据表;将事 务ID及其概率,加入到以项ID为主键的数据表的值中; 2. 4)重复2. 2)及2. 3),直至数据文件结束,最终得到的关联数据表即为转换后的垂直 格式数据集表示。 所述第三步的具体步骤如下: 3. 1)对关联数据表的每一项,根据其事务数目的多少,计算出它的支持度; 3. 2)如果其支持度小于给定的阈值minsup,则删除该项,重新回到3. 1)处理下一项, 否则进行3. 3); 3. 3)累加项的每一个事务出现的概率,结果为它的期望支持度本文档来自技高网
...

【技术保护点】
基于深度优先的不确定数据最大模式挖掘方法,其特征在于包括以下步骤:第一步,在计算机系统中加载数据文件;第二步,通过垂直格式转换,将以事务ID为主键的水平格式数据集转化为以项ID为主键的垂直格式数据集,并以关联数据表的形式表示;第三步,计算关联数据表中每一项的支持度,并根据切尔诺夫界判断每一项是否频繁,频繁则保留在关联数据表汇中,否则删除;通过动态规划方法,计算关联数据表中保留项是频繁的置信度,当置信度大于等于给定阈值时,该项为频繁项,保留在关联数据表中,否则删除;当所有项处理完毕后,得到的关联数据表中的元素就是所有频繁一项集;第四步,计算关联数据表中频繁一项集的不支持度,并按照不支持度降序对频繁一项集进行排列,若不支持度相同,则按照支持度升序排列;第五步,构建根节点,初始化栈结构,根节点入栈,以迭代方式进行栈式结构的深度挖掘;根节点包含扩展项、待扩展项以及局部最大项集投影;初始时,根节点扩展项和局部最大项集投影为空,待扩展项为排序的频繁一项集;深度挖掘过程表现为两种形式:一种形式为新建节点,节点入栈,表示在挖掘树上向下进行挖掘,直至处理到扩展项为空的叶子节点;另一种形式为节点出栈,表示在挖掘树上向上回退,可以多步回退,直至到达下一个分支待处理的节点,更新挖掘结果,进行新分支的挖掘;最终,当挖掘树的所有分支处理完毕,根节点出栈,深度挖掘结束;根节点的局部最大项集投影即为所有挖掘到的最大频繁项集。...

【技术特征摘要】
1. 基于深度优先的不确定数据最大模式挖掘方法,其特征在于包括以下步骤: 第一步,在计算机系统中加载数据文件; 第二步,通过垂直格式转换,将以事务ID为主键的水平格式数据集转化为以项ID为主 键的垂直格式数据集,并以关联数据表的形式表示; 第三步,计算关联数据表中每一项的支持度,并根据切尔诺夫界判断每一项是否频繁, 频繁则保留在关联数据表汇中,否则删除;通过动态规划方法,计算关联数据表中保留项是 频繁的置信度,当置信度大于等于给定阈值时,该项为频繁项,保留在关联数据表中,否则 删除;当所有项处理完毕后,得到的关联数据表中的元素就是所有频繁一项集; 第四步,计算关联数据表中频繁一项集的不支持度,并按照不支持度降序对频繁一项 集进行排列,若不支持度相同,则按照支持度升序排列; 第五步,构建根节点,初始化栈结构,根节点入栈,以迭代方式进行栈式结构的深度挖 掘; 根节点包含扩展项、待扩展项以及局部最大项集投影; 初始时,根节点扩展项和局部最大项集投影为空,待扩展项为排序的频繁一项集; 深度挖掘过程表现为两种形式:一种形式为新建节点,节点入栈,表示在挖掘树上向下 进行挖掘,直至处理到扩展项为空的叶子节点;另一种形式为节点出栈,表示在挖掘树上向 上回退,可以多步回退,直至到达下一个分支待处理的节点,更新挖掘结果,进行新分支的 挖掘; 最终,当挖掘树的所有分支处理完毕,根节点出栈,深度挖掘结束;根节点的局部最大 项集投影即为所有挖掘到的最大频繁项集。2. 如权利要求1所述的基于深度优先的不确定数据最大模式挖掘方法,其特征在于所 述第二步的步骤如下: 2. 1)初始化以项ID为主键,以其事务集和概率为值的关联数据表; 2. 2)读取第一步中加载的数据文件中的每一个事务; 2. 3)读取事务的每一个项,如果其不存在于关联数据表,将其加入到关联数据表;将事 务ID及其概率,加入到以项ID为主键的数据表的值中; 2. 4)重复2. 2)及2. 3),直至数据文件结束,最终得到的关联数据表即为转换后的垂直 格式数据集表示。3. 如权利要求1所述的基于深度优先的不确定数据最大模式挖掘方法,其特征在于所 述第三步的步骤如下: 3. 1)对关联数据表的每一项,根据其事务数目的多少,计算出它的支持度; 3. 2)如果其支持度小于给定的阈值minsup,则删除该项,重新回到3. 1)处理下一项, 否则进行3. 3); 3. 3...

【专利技术属性】
技术研发人员:邱卫东王杨德
申请(专利权)人:无锡市思库瑞科技信息有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1