一种基于普利姆的K均值聚类方法技术

技术编号：9434602 阅读：99 留言：0更新日期：2013-12-12 00:38

本发明专利技术是一种基于普利姆的K均值聚类方法，针对K均值聚类算法随机选取中心的不足的问题，引入prim最小生成树方法对K均值聚类算法初始中心的选取进行优化，由此设计出一种改进的K均值聚类算法。使用prim最小生成树方法对随机生成的点求其最小生成树，然后从中找出最小生成树权值和最大，且权值相差不大的点集作为初始聚类中心，最后使用K均值聚类算法聚类。仿真结果表明相比传统K均值算法，本发明专利技术的方法具有更高的准确率以及更少的数据迭代次数。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术是一种基于普利姆的K均值聚类方法，针对K均值聚类算法随机选取中心的不足的问题，引入prim最小生成树方法对K均值聚类算法初始中心的选取进行优化，由此设计出一种改进的K均值聚类算法。使用prim最小生成树方法对随机生成的点求其最小生成树，然后从中找出最小生成树权值和最大，且权值相差不大的点集作为初始聚类中心，最后使用K均值聚类算法聚类。仿真结果表明相比传统K均值算法，本专利技术的方法具有更高的准确率以及更少的数据迭代次数。【专利说明】一种基于普利姆的K均值聚类方法
本专利技术是一种在数据挖掘中基于prim (普利姆)最小生成树算法的K均值聚类改进方法，属于聚类分析
。
技术介绍
计算机技术的快速发展导致了数据呈现指数型增长，如何从大量的数据中找出隐含的，未知的有用的信息成为了人们越来越关心的问题，数据挖掘由此产生。聚类分析就是其中相当重要的一部分。它将物理或者抽象对象的集合组成多个类，使得同一类中的样本相似度较高而不同类中的样本相似度尽可能的低。现今世界，国内外提出了层次型类聚、划分型类聚、密度型类聚、网络型类聚等类聚算法。目前聚类算法还存在着如下问题:对于初始聚类中心的选择敏感，极易陷入局部最优解；对于大量数据和高维数据的处理能力；发现任意形状的簇等。K均值聚类算法是一个众所周知的基于划分的聚类方法，它是由Macqueen在1967年提出的解决聚类问题的经典算法。K均值聚类算法因为其简单快速而被广泛的使用，在实践中发现了 K均值问题，如对初始中心敏感，必须给出聚簇的数目，时间序列的数据量大，聚类结果受噪声的影响比较...

【技术保护点】
一种基于普利姆的K均值聚类方法，其特征在于使用普利姆prim最小生成树方法对随机生成的点求其最小生成树，然后从中找出具有最大权值和且权值相差不大的点集作为初始聚类中心，最后使用K均值聚类算法聚类，其步骤如下：1）随机从样本中选择k个数据对象，重复操作m次，对每一次选取的k个数据对象，使用prim求出其最小生成树，重复计算m次，对每次的最小生成树将其权值相加得到最小生成树的权值和，记第i次得到的最小生成树权值和记为dsumi，重复计算m次得到m个和，分别为dsum1，dsum2，…dsumm；其中，k为数据对象个数，m为重复计算次数，i为计算次数；2）求出最小生成树权值和中的最大值MAX（dsum1,dsum2…dsumm）对应的k个数据对象对应的点集；3）若这个k个数据对象对应的点集生成树中的权值相差不大，则将求出的点集作为初始聚类中心，转步骤4）；否则去掉当前所选最小生成树权值和最大值，转步骤2）；4）根据数据对象距离计算公式，求出各个数据对象到这个初始聚类中心的距离，取最小的距离放入对应的簇中，根据数据集合聚类簇中心计算公式更新簇中心；计算误差平方和函数E跟前一次的E值比较，若绝对...

【技术特征摘要】

【专利技术属性】
技术研发人员：王堃，徐雳雳，高会，孙雁飞，郭篁，陆恒，张玉华，叶真璋，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人