基于动态优化模糊模式算法的医疗数据不确定性分析方法技术

技术编号:14817488 阅读:110 留言:0更新日期:2017-03-15 11:40
本发明专利技术公开了一种基于动态优化模糊模式算法的医疗数据不确定性分析方法,所述基于动态优化模糊模式算法的医疗数据不确定性分析方法采用二阶效应的模式结构和新的剪枝策略,包括模式感知的动态基本模式搜索策略和FSFP‑Tree阵列技术;在一个完整的数据集和一个事务中,通过模糊权重的约束和属性来反映其每个项的不确定性的重要性;提出的最大FSFPs挖掘算法扫描数据集一次;采用模糊模式结构:核心项和相应的牵引项的组合,并且采用模糊支持度以及基于模糊支持度的剪枝策略来分析和挖掘隐藏在项目集当中的有用信息。与PADS和FPMax*算法比较,大量的实验结果表明,本发明专利技术提出的新算法具有卓越的表现。

【技术实现步骤摘要】

本专利技术属于医疗数据分析
,尤其涉及一种基于动态优化模糊模式算法的医疗数据不确定性分析方法
技术介绍
大规模数据集中挖掘潜在有用但隐藏的信息是模式挖掘的主要目标。传统的模式挖掘方法,主要包括Apriori(Agrawaletal.,1993)和FP-growth(Hanetal.,2004)算法。并且这两种算法的特征和性质已经被广泛的应用到其他研究工作中(Tsengetal.,2013;Zhongetal.,2012;Linetal.,2011;Liu,2012;Tsaietal.,2011;GrahneandZhu,2005;Zengetal.,2009)。但是随着数据集的大规模增长,具有更高性能和满足多目标需求的算法不断被提出,其中包括连续频繁模式(MuzammalandRaman,2015;Adamo,2012),Top-K频繁模式(Wangetal.,2005),加权频繁模式(Voetal.,2013;WangandZeng,2011),和高维模式(Alcala-Fdezetal.,2011;Fangetal.,2012)。其中,连续频繁模式挖掘近期的研究考虑了事件与项目之间关联的不确定性,采用概率数据库对事物、事物之间的关联性进行建模并采用枚举树的方式对所有期望进行序列有效性的考查。Top-K频繁模式携带真实的支持度计数,采用深度优先、广度优先、格子粒度深度搜索等技术来提高模式挖掘的有效性。加权频繁模式增加了事物与事物、项、项集之间的权重考量以提高模式挖掘的准确性。高维模式则通过对事物的属性、多样性、多元性等分析,对事物特征所体现的高维度性进行研究并提出剪枝算法来提高算法的有效性。上述频繁模式挖掘方法均基于传统的频繁模式的先验性质:频繁项集的所有非空子集也一定是频繁的。并且要挖掘的模式均依据条件出现频度需要大于指定阈值的频繁项目集。然而,根据实践经验,具有实践意义的模式通常是相对频繁的项目和出现频率相对较低的项目的组合。例如,针对一个患病的病人的诊断项目,疾病项目通常跨越多个不同的科室,并且患病集合一般由常见病和该病人“个性化”的疾病组成。由于在医疗领域各个科室和专项之间的信息和知识是相对封闭的,通常本科室的专家只是对专业相关的疾病非常熟悉,但是病人的所得的疾病项目通常跨越了几个科室,这就导致了病人需要在不同的科室之间进行往返。因此,为了阐述大规模数据集所隐含的模式的复杂性,出现频繁的项目和出现相对不频繁的项目应该综合分析。综上所述,在高级模式挖掘的理论和应用中,隐藏于数据集中的有用信息的高效挖掘和使用适当结构进行嵌入式信息表达都非常重要。最主要的挑战是如何缓解挖掘组合爆炸问题和确保挖掘模式结果的有效性。然而,由于存在大量的候选模式和只考虑确定值的项的权重限制,大多数现有的算法并不能完全解决这些问题。
技术实现思路
本专利技术的目的在于提供一种基于动态优化模糊模式算法的医疗数据不确定性分析方法,旨在解决缓解挖掘组合爆炸问题和确保挖掘模式结果有效的问题。本专利技术是这样实现的,一种基于动态优化模糊模式算法的医疗数据不确定性分析方法,所述基于动态优化模糊模式算法的医疗数据不确定性分析方法采用二阶效应的模式结构和新的剪枝策略,包括模式感知的动态基本模式搜索策略和FSFP-Tree阵列技术;在一个完整的数据集和一个事务中,通过模糊权重的约束和属性来反映其每个项的不确定性的重要性;提出的最大FSFPs挖掘算法扫描数据集一次;采用模糊模式结构:核心项和相应的牵引项的组合,并且采用模糊支持度以及基于模糊支持度的剪枝策略来分析和挖掘隐藏在项目集当中的有用信息。进一步,所述基于动态优化模糊模式算法的参数有:核心项最小出现的频度,牵引项最小出现的频度,核心项最小的模糊支持度,牵引项出现的最小模糊度,全局权重,以及本地权重。进一步,所述基于动态优化模糊模式算法具体包括以下步骤:删除不能满足最小支持度和最小权重的项目;每一条路径的核心项集将会被确定;在当前路径当中有唯一的核心项,那么该核心项便是本条路径的核心;如果部分核心项在路径当中出现,那么则需要判断核心当中没有出现的项目是否具备吸附能力;条件满足,那么含有的核心项便是本条路径的核心项;否则,对于其他情况,选取该条路径当中权重最大的便是该条路径的核心项集;核心项集选择完之后,在FSFP-Tree插入算法中,如果剩余项目集当中的某一项和其他分支有交集,那么在同一条路径上的项目的支持度、模糊支持度需要重新计算;否则,生成一个节点,并且设置相应的出现频度以及模糊度值,链接该节点的父节点,并且通过节点链来链接该节点;如果当前节点属于核心相集中的元素,那么在当前路径中包含该节点的核心模式应当被筛选出来;同时,如果目前所选择的核心模式能够同时作为其他分支的核心模式,那么则需要更新该核心模式的出现频度以及相应的模糊度值,设置当前的核心模式为其他节点的父节点,并且连接其他核心节点通过核心节点链;如果当前核心模式和其他分支没有连接,那么则设置改核心模式为当前路径上其他节点的父节点;最终,反复递归调用FSFP-Tree算法直到完成建立事物数据集T中的所有事物项。进一步,所述FSFP-Tree插入算法包括以下步骤:输入:第一项p,coreItems,附加到coreItems的剩余项q,当前事务T;输出:更新后的FSFP树;BEGIN:T有子项n,并且n的项目名和p的项目名相同;那么countNumber(n)加1,计算SUP(n);否则,创建新的节点n,设置countNumber(n)的值为1,重新计算SUP(n),链接它的父节点,并且通过节点链路的结构将节点连接到同一个项目名称;如果p∈coreItems;从当前分支中选择coreItems,并标记为p’;如果T有子项n’,并且n’的项目名和p’的项目名相同;那么countNumber(n)加1,调整具有相coreItems的这些分支,并将这些分支指向这个共同的coreItems,且该[coreItems]为这些剩余节点的父节点;否则,如果事务T有子项n”,并且n”∩p’≠Null;那么[coreItems]为该路径中这些剩余节点的父节点;如果q≠Null;那么递归地调用Insert_FSFP-Tree(q,T)函数;END。进一步,所述最大FSFP挖掘算法包括以下步骤:输入:事务数据库TDs;允许的项的最小频率:minmum_count_number;项的最小支持度:λ;输出:最大FSFPs:MFSFPs;BEGIN:计算SUP(i),之后对所有项按照降序方式重新排序;采用模式感知的动态基本模式搜索策略确定基本模式集BP;基于基本模式集BP、算法1和算法2构建TDs的FSFP树;基于新提出的阵列结构和条件数据库CDB构建FSFP阵列;如果路径pi是单一路径,那么;通过在当前路径bpi和路径pi的所有子项集{i本文档来自技高网
...
基于动态优化模糊模式算法的医疗数据不确定性分析方法

【技术保护点】
一种基于动态优化模糊模式算法的医疗数据不确定性分析方法,其特征在于,所述基于动态优化模糊模式算法的医疗数据不确定性分析方法采用二阶效应的模式结构和新的剪枝策略,包括模式感知的动态基本模式搜索策略和FSFP‑Tree阵列技术;在一个完整的数据集和一个事务中,通过模糊权重的约束和属性来反映其每个项的不确定性的重要性;提出的最大FSFPs挖掘算法扫描数据集一次;采用模糊模式结构:核心项和相应的牵引项的组合,并且采用模糊支持度以及基于模糊支持度的剪枝策略来分析和挖掘隐藏在项目集当中的有用信息。

【技术特征摘要】
1.一种基于动态优化模糊模式算法的医疗数据不确定性分析方法,其特征在于,所述基于动态优化模糊模式算法的医疗数据不确定性分析方法采用二阶效应的模式结构和新的剪枝策略,包括模式感知的动态基本模式搜索策略和FSFP-Tree阵列技术;在一个完整的数据集和一个事务中,通过模糊权重的约束和属性来反映其每个项的不确定性的重要性;提出的最大FSFPs挖掘算法扫描数据集一次;采用模糊模式结构:核心项和相应的牵引项的组合,并且采用模糊支持度以及基于模糊支持度的剪枝策略来分析和挖掘隐藏在项目集当中的有用信息。2.如权利要求1所述的基于动态优化模糊模式算法的医疗数据不确定性分析方法,其特征在于,基于动态优化模糊模式算法的参数有:核心项最小出现的频度,牵引项最小出现的频度,核心项最小的模糊支持度,牵引项出现的最小模糊度,全局权重以及本地权重。3.如权利要求1所述的基于动态优化模糊模式算法的医疗数据不确定性分析方法,其特征在于,基于动态优化模糊模式算法具体包括以下步骤:删除不能满足最小支持度和最小权重的项目;每一条路径的核心项集将会被确定;在当前路径当中有唯一的核心项,那么该核心项便是本条路径的核心;如果部分核心项在路径当中出现,那么则需要判断核心当中没有出现的项目是否具备吸附能力;条件满足,那么含有的核心项便是本条路径的核心项;否则,对于其他情况,选取该条路径当中权重最大的便是该条路径的核心项集;核心项集选择完之后,在FSFP-Tree插入算法中,如果剩余项目集当中的某一项和其他分支有交集,那么在同一条路径上的项目的支持度、模糊支持度需要重新计算;否则,生成一个节点,并且设置相应的出现频度以及模糊度值,链接该节点的父节点,并且通过节点链来链接该节点;如果当前节点属于核心相集中的元素,那么在当前路径中包含该节点的核心模式应当被筛选出来;同时,如果目前所选择的核心模式能够同时作为其他分支的核心模式,那么则需要更新该核心模式的出现频度以及相应的模糊度值,设置当前的核心模式为其他节点的父节点,并且连接其他核心节点通过核心节点链;如果当前...

【专利技术属性】
技术研发人员:张海清李代伟刘胤田朱毅隋向阳王燮
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1