一种复杂系统中非监督聚堆方法技术方案

技术编号:2822319 阅读:172 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种复杂系统中的非监督聚堆方法,根据复杂系统样本的原始信息确定离散的特征变量和类变量;计算两两特征变量之间的关联度;确定每个特征变量的“亲友团”;根据聚堆自组织对特征变量进行非监督聚堆,得到特征变量的组合;将每个堆回代到原数据中,得到敏感性;判断敏感性的大小;利用系统的类变量对非监督聚堆方法验证,得到特征变量最优组合。解决了传统关联度不能区分正相关和负相关的问题,本发明专利技术自组织、不用人为干预、运行速度快,适合大量数据甚至海量数据。能实现聚类,能实现某些变量在某些不同的类里面出现。本方法能对非监督聚堆进行验证,以找到最优堆。本发明专利技术在生态分划和临床医学数据分析等领域有着广泛应用价值。

【技术实现步骤摘要】

本专利技术属于复杂系统科学和数据挖掘领域,涉及一种基于改进关联 度系数的复杂系统熵聚堆方法。
技术介绍
复杂系统熵分划是目前唯一一个复杂系统的非监督聚类方法,此方 法基于传统的关联度系数法画出信息连通图,然后人为分类,每一个类 对应一个子系统。可是此方法有两个缺点(1) 它不是自组织的,需要人为确定,而且实现"刚性"分类,不能 实现某些特征变量在不同的子系统里面出现。(2) 此方法缺少验证,使得对得到的许多结果无法给出最优的结果。
技术实现思路
本专利技术欲解决的传统技术关联度不能区分正相关和负相关的技术 问题,为此,本专利技术提出一种快速、自组织、不但能实现聚类,还能实现 某些变量在不同的子系统里面出现复杂系统中非监督聚堆方法。为了实现所述的目的,本专利技术复杂系统中非监督聚堆方法的技术方 案如下步骤Sh根据复杂系统样本的原始信息确定离散的特征变量和类变 量;特征变量用于描述此复杂系统属性的自变量;步骤S2:用改进的关联度系数算出两两特征变量之间的关联度; 步骤S3:确定每个特征变量的"亲友团";步骤S4:根据聚堆方法自组织对特征变量进行非监督聚堆,得到特 征变量的组合;步骤S5:将每个堆回代到原数据中,得到算法的敏感性;步骤S6:判断敏感性的大小,如果敏感性为最大,转入步骤7,如果敏感性不是最大,转入步骤2;步骤S7:利用系统的类变量对非监督聚堆方法进行验证,得到特征 变量最优的组合。根据本专利技术的实施例,所述两两特征变量间的改进关联度的确定方 法具体为<formula>formula see original document page 5</formula>其中,M《,A)表示特征变量X,和A之间的关联度; WO-i尘i。g尘为特征变量《的信息熵;//(J^J^-Z/d^h-XZ^iog^为特征变量《和^的联合熵;<formula>formula see original document page 5</formula>/M/,y')表示特征变量Z,和^的阳性出现频率;6和3是实数;其中, ftn,M)为特征变量《属于C,第"类的数量,q为y,,/ = 1,2,..,W,分类的集合;M为样本的数量。根据本专利技术的实施例对于每一个特征变量X,,根据关联度的值,确 定与其最相关的Z个特征变量,这Z个特征变量就叫做变量X,的"亲友 团",Z为自然数。根据本专利技术的实施例,利用类变量数据对聚堆进行验证的步骤包括(1) 对于每一个堆S,把它回代到变量数据中,如果这个堆的所有 变量都出现在一个样本上,那么记下此样本的编号,遍历,部样本,统计出例数z,记录下来,列在堆s后面,并得到一个z维的向量^,其每一个元素表示样本的编号;(2) 把与向量^中编号对应的类变量的^个向量提取出来并把这些向量相加得到一个向量^;,中的每一个元素w'表示在这z个样本中有 w'个样本是得第^个类变量;显然w^、找出^中最大的数w;,记 录下这个数和相应的类变量;<formula>formula see original document page 6</formula>(3)定义并算出堆S的敏感性为^^T,所有的堆的敏感性的平均<formula>formula see original document page 6</formula>就是本非监督聚堆方法的敏感性,即 —p台\其中r表示方法的敏感性7是堆的个数;如果实际结果对应于最高的敏感性,非监督方法就得到验证。本专利技术的技术效果或优点本专利技术解决了传统关联度不能区分正相关和负相关的技术问题,在 此基础上,提出了一种复杂系统非监督聚堆的方法,优点是(1) 方法是自组织的,不用人为干预。(2) 方法运行速度很快,适合大量数据甚至海量数据。(3) 方法不但能实现聚类,而且能实现某些变量在某些不同的类里面 出现。(4) 如果有因变量数据,本方法能对非监督聚出来的堆进行验证,以 找到最优堆。本专利技术在生态分划和临床医学数据分析等领域有着广泛的应用价值。附图说明图l是本专利技术方法流程图图2是本专利技术方法的敏感性和阈值的关系,从中可以看出在阈值取 15/4215的时候方法最好。具体实施例方式下面将结合附图对本专利技术加以详细说明,应指出的是,所描述的实6施例仅旨在便于对本专利技术的理解,而对其不起任何限定作用。1.1方法概述(overview of approach)本专利技术的主要方法是基于关联度系数法的复杂系统熵分划的改进, 先改进传统的关联度系数法以使得能从数值上区分正相关和负相关,然 后在此基础上得到每个变量的"亲友团",通过自定义的关联原则和收敛 条件自组织地聚出堆来,堆中变量的个数和总的堆的堆数都由方法自组 织确定,没有加入任何人为干预。如果数据有相应的因变量,就把得 到的堆回代到原来数据中,参考因变量对每个堆自动对应上某个因变 量,并算出每个堆的敏感性,然后把每个堆的敏感性相加求平均,得到 方法的敏感性,敏感性最大的为最优参数,在此参数下得到的堆即为最 优堆。本专利技术方法的核心在于对传统的关联度系数的改进和在此基础上 提出的聚堆方法。如图l所示本专利技术方法的具体实施例包括7个步骤1、 首先输入特征变量数据。2、 初始化参数,用改进的关联度系数法算出两两变量之间的关联系数。3、 根据关联系数值的大小,每个变量选择和它最相关的前N个变量, 记作此变量的"亲友团"。4、 利用聚堆方法规则自组织地聚出堆来。5、 如果有因变量数据,把每个堆回代到自变量数据中,算出每个堆 的敏感性,并求平均,记录下此方法的敏感性的数值,如果比上次记录的 敏感值大,则覆盖上次的值,同时记录下相应的参数。6、 微调一下参数,返回2。7、 敏感性最大对应的参数下得到的堆为最优特征变量的组合。1.2变量之间相关性的度量 1.2.1关联度和关联度系数对于一个复杂系统,可以表示为矢量其中,《—A)(^1,2,…,M"-1,2,…,M)是描述系统特征的变量。令《为A, ^1,2,…^ ,分类的集合,G'的第a个元素e'。=a ,则有"。C,H1,2,…一,…化"M,并令。^r 。」为事件Xi属于c,第a类的数量, 则变量Xj的熵定义为',仝M SM (2) Xi和Xj的联合熵定义为草,,^) = -SZ》g^其中 表示事件A属于G'的第。类同时Xj属于Cj的第b类的数量。 有了上述熵的定义,下面给出基于互信息的关联度的定义。定义1.假设^^A ,则称熵为Xi和^之间的关联度。定义2.假设《^A —,则称"'; 叫) (5)为Xi和^之间的关联度系数。 1.2.2改进的关联度系数上述定义的关联度系数在实际应用时会碰到一些问题。比如中医临 床中两个强相关的症状(比如神疲和乏力)之间的关联度系数是很大, 但是两个相反的症状之间(比如浮脉和沉脉)的关联度系数也很大,甚 至可能是最大的。这是因为关联度的定义可以另外表示为=//(Z,)K|X》(6)8从(6)可以看出A'和、之间的关联度实际上表示为在确定、后所提供的关于《的信息。所以一对强相关的症状之间的关联度和另外一对完全 相反的症状之间的关联度都很大,而且都大于0,这就导致我们后面聚 堆方法无法把这两种本文档来自技高网...

【技术保护点】
一种复杂系统中非监督聚堆方法,其特征在于,包括步骤:步骤S1:根据复杂系统样本的原始信息确定离散的特征变量和类变量;特征变量用于描述此复杂系统属性的自变量;步骤S2:用改进的关联度系数算出两两特征变量之间的关联度;步骤S3:确定每个特征变量的“亲友团”;步骤S4:根据聚堆方法自组织对特征变量进行非监督聚堆,得到特征变量的组合;步骤S5:将每个堆回代到原数据中,得到算法的敏感性;步骤S6:判断敏感性的大小,如果敏感性为最大,转入步骤7,如果敏感性不是最大,转入步骤2;步骤S7:利用系统的类变量对非监督聚堆方法进行验证,得到特征变量最优的组合。

【技术特征摘要】

【专利技术属性】
技术研发人员:西广成陈建新陈静
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1