一种复杂系统中非监督聚堆方法技术方案

技术编号：2822319 阅读：172 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开一种复杂系统中的非监督聚堆方法，根据复杂系统样本的原始信息确定离散的特征变量和类变量；计算两两特征变量之间的关联度；确定每个特征变量的“亲友团”；根据聚堆自组织对特征变量进行非监督聚堆，得到特征变量的组合；将每个堆回代到原数据中，得到敏感性；判断敏感性的大小；利用系统的类变量对非监督聚堆方法验证，得到特征变量最优组合。解决了传统关联度不能区分正相关和负相关的问题，本发明专利技术自组织、不用人为干预、运行速度快，适合大量数据甚至海量数据。能实现聚类，能实现某些变量在某些不同的类里面出现。本方法能对非监督聚堆进行验证，以找到最优堆。本发明专利技术在生态分划和临床医学数据分析等领域有着广泛应用价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于复杂系统科学和数据挖掘领域，涉及一种基于改进关联度系数的复杂系统熵聚堆方法。
技术介绍
复杂系统熵分划是目前唯一一个复杂系统的非监督聚类方法，此方法基于传统的关联度系数法画出信息连通图，然后人为分类，每一个类对应一个子系统。可是此方法有两个缺点(1) 它不是自组织的，需要人为确定，而且实现"刚性"分类，不能实现某些特征变量在不同的子系统里面出现。(2) 此方法缺少验证，使得对得到的许多结果无法给出最优的结果。
技术实现思路
本专利技术欲解决的传统技术关联度不能区分正相关和负相关的技术问题，为此，本专利技术提出一种快速、自组织、不但能实现聚类,还能实现某些变量在不同的子系统里面出现复杂系统中非监督聚堆方法。为了实现所述的目的，本专利技术复杂系统中非监督聚堆方法的技术方案如下步骤Sh根据复杂系统样本的原始信息确定离散的特征变量和类变量；特征变量用于描述此复杂系统属性的自变量；步骤S2:用改进的关联度系数算出两两特征变量之间的关联度；步骤S3:确定每个特征变量的"亲友团"；步骤S4:根据聚堆方法自组织对特征变量进行非监督聚堆，得到特征变量的组合；步骤S5:将每个堆回代到原数据中，得到算法的敏感性；步骤S6:判断敏感性的大小，如果敏感性为最大，转入步骤7，如果敏感性不是最大，转入步骤2;步骤S7:利用系统的类变量对非监督聚堆方法进行验证，得到特征变量最优的组合。根据本专利技术的实施例，所述两两特征变量间的改进关联度的确定方法具体为<formula>formula see original document page ...

【技术保护点】
一种复杂系统中非监督聚堆方法，其特征在于，包括步骤：步骤Ｓ１：根据复杂系统样本的原始信息确定离散的特征变量和类变量；特征变量用于描述此复杂系统属性的自变量；步骤Ｓ２：用改进的关联度系数算出两两特征变量之间的关联度；步骤Ｓ３：确定每个特征变量的“亲友团”；步骤Ｓ４：根据聚堆方法自组织对特征变量进行非监督聚堆，得到特征变量的组合；步骤Ｓ５：将每个堆回代到原数据中，得到算法的敏感性；步骤Ｓ６：判断敏感性的大小，如果敏感性为最大，转入步骤７，如果敏感性不是最大，转入步骤２；步骤Ｓ７：利用系统的类变量对非监督聚堆方法进行验证，得到特征变量最优的组合。

【技术特征摘要】

【专利技术属性】
技术研发人员：西广成，陈建新，陈静，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：11[]

全部详细技术资料下载我是这个专利的主人