一种基于普利姆的K均值聚类方法技术

技术编号:9434602 阅读:87 留言:0更新日期:2013-12-12 00:38
本发明专利技术是一种基于普利姆的K均值聚类方法,针对K均值聚类算法随机选取中心的不足的问题,引入prim最小生成树方法对K均值聚类算法初始中心的选取进行优化,由此设计出一种改进的K均值聚类算法。使用prim最小生成树方法对随机生成的点求其最小生成树,然后从中找出最小生成树权值和最大,且权值相差不大的点集作为初始聚类中心,最后使用K均值聚类算法聚类。仿真结果表明相比传统K均值算法,本发明专利技术的方法具有更高的准确率以及更少的数据迭代次数。

【技术实现步骤摘要】
【专利摘要】本专利技术是一种基于普利姆的K均值聚类方法,针对K均值聚类算法随机选取中心的不足的问题,引入prim最小生成树方法对K均值聚类算法初始中心的选取进行优化,由此设计出一种改进的K均值聚类算法。使用prim最小生成树方法对随机生成的点求其最小生成树,然后从中找出最小生成树权值和最大,且权值相差不大的点集作为初始聚类中心,最后使用K均值聚类算法聚类。仿真结果表明相比传统K均值算法,本专利技术的方法具有更高的准确率以及更少的数据迭代次数。【专利说明】一种基于普利姆的K均值聚类方法
本专利技术是一种在数据挖掘中基于prim (普利姆)最小生成树算法的K均值聚类改进方法,属于聚类分析

技术介绍
计算机技术的快速发展导致了数据呈现指数型增长,如何从大量的数据中找出隐含的,未知的有用的信息成为了人们越来越关心的问题,数据挖掘由此产生。聚类分析就是其中相当重要的一部分。它将物理或者抽象对象的集合组成多个类,使得同一类中的样本相似度较高而不同类中的样本相似度尽可能的低。现今世界,国内外提出了层次型类聚、划分型类聚、密度型类聚、网络型类聚等类聚算法。目前聚类算法还存在着如下问题:对于初始聚类中心的 选择敏感,极易陷入局部最优解;对于大量数据和高维数据的处理能力;发现任意形状的簇等。K均值聚类算法是一个众所周知的基于划分的聚类方法,它是由Macqueen在1967年提出的解决聚类问题的经典算法。K均值聚类算法因为其简单快速而被广泛的使用,在实践中发现了 K均值问题,如对初始中心敏感,必须给出聚簇的数目,时间序列的数据量大,聚类结果受噪声的影响比较大,对大数据的处理速度慢,数据迭代次数多等。目前,一些学者已对此做出了改进,但是这些改进均增加了 K均值聚类算法的复杂度,使得K均值聚类算法处理数据的时候速度慢,数据处理的迭代次数增加的不足。
技术实现思路
技术问题:本专利技术针对K均值聚类算法随机选取中心的不足的问题,引入prim最小生成树方法对K均值聚类算法初始中心的选取进行优化,由此设计出一种改进的K均值聚类方法。使用prim最小生成树方法对随机生成的点求其最小生成树,然后从中找出最小生成树权值和最大,且权值相差不大的点集作为初始聚类中心,最后使用K均值聚类方法聚类。仿真结果表明相比传统K均值方法,本文提出的方法具有更高的准确率以及更少的数据迭代次数。技术方案:本专利技术的一种基于普利姆的K均值聚类方法使用普利姆prim最小生成树方法对随机生成的点求其最小生成树,然后从中找出具有最大权值和且权值相差不大的点集作为初始聚类中心,最后使用K均值聚类方法聚类,其步骤如下:I)随机从样本中选择k个数据对象,重复操作m次,对每一次选取的k个数据对象,使用prim求出其最小生成树,重复计算m次,对每次的最小生成树将其权值相加得到最小生成树的权值和,记第i次得到的最小生成树权值和记为dsmii,重复计算m次得到m个和,分别为dsuml,dsum2,...dsunim ;其中,k为数据对象个数,m为重复计算次数,i为计算次数;2)求出最小生成树权值和中的最大值MAX (dsuml,dsum2"?dsumm)对应的k个数据对象对应的点集;3)若这个k个数据对象对应的点集生成树中的权值相差不大,则将求出的点集作为初始聚类中心,转步骤4);否则去掉当前所选最小生成树权值和最大值,转步骤2);4)根据数据对象距离计算公式,求出各个数据对象到这个初始聚类中心的距离,取最小的距离放入对应的簇中,根据数据集合聚类簇中心计算公式更新簇中心;计算误差平方和函数E跟前一次的E值比较,若绝对值小于等于规定值,转步骤5),否则继续计算聚类中心;5)输出聚类结果。所述的prim最小生成树,具体描述如下:prim是一个经典的求最小生成树的方法;设G= (V, E)是带权重的连通图,其中V为点的集合,E为边的集合;F= (V’,E’)是正在构造中的生成树,其中V’为生成树中点的集合,E’为生成树中边的集合;初始状态下,这棵生成树只有一个顶点,没有边,即V’ ={v0},E’ ={}, vO是任意选定的顶点;Prim最小生成树从初始状态出发,每一步从图中选择一条边,共选取η-l条边,构成一棵生成树;具体的选择准则步骤为:若存在一条边(U,ν)满足一个端点u在构造中的生成树上,即u e V’,而另一个端点ν不在该树上,即ν e V-V’,则在满足上述条件的所有边中寻找一条权值最小的边记为U’,V’),其中u’,v’为这条权值最小的边连接的两个点;按照上述选边准则,选取η-l条边满足条件的最小边(u’,ν’),加到生成树上,即将V’并入集合V’,边U’,ν’)并入E’,直到V=V’为止,这时,所得的树T= (V,E’ )是连通图G的一棵最小代价生成树。所述的数据对象距离计算公式,定义如下:数据对象X= (x1, X2,…,xp)和y= (y1, y2,…,yp)之间的距离d(x, y)为【权利要求】1.一种基于普利姆的K均值聚类方法,其特征在于使用普利姆prim最小生成树方法对随机生成的点求其最小生成树,然后从中找出具有最大权值和且权值相差不大的点集作为初始聚类中心,最后使用K均值聚类算法聚类,其步骤如下: 1)随机从样本中选择k个数据对象,重复操作m次,对每一次选取的k个数据对象,使用prim求出其最小生成树,重复计算m次,对每次的最小生成树将其权值相加得到最小生成树的权值和,记第i次得到的最小生成树权值和记为dSUffli,重复计算m次得到m个和,分别为dsuml,dsum2,...dsunim ;其中,k为数据对象个数,m为重复计算次数,i为计算次数; 2)求出最小生成树权值和中的最大值MAXCdsuml, dsum2…dsumm)对应的k个数据对象对应的点集; 3)若这个k个数据对象对应的点集生成树中的权值相差不大,则将求出的点集作为初始聚类中心,转步骤4);否则去掉当前所选最小生成树权值和最大值,转步骤2); 4)根据数据对象距离计算公式,求出各个数据对象到这个初始聚类中心的距离,取最小的距离放入对应的簇中,根据数据集合聚类簇中心计算公式更新簇中心;计算误差平方和函数E跟前一次的E值比较,若绝对值小于等于规定值,转步骤5),否则继续计算聚类中心; 5)输出聚类结果。2.根据权利要求1所述的基于普利姆的K均值聚类方法,其特征在于所述的prim最小生成树,具体描述如下: prim是一个经典的求最小生成树的方法;设G= (V,E)是带权重的连通图,其中V为点的集合,E为边的集合;F= (V’,E’)是正在构造中的生成树,其中V’为生成树中点的集合,E’为生成树中边的集合;初始状态下,这棵生成树只有一个顶点,没有边,即V’ ={vO},E’ ={},vO是任意选定的顶点 ;Prim最小生成树从初始状态出发,每一步从图中选择一条边,共选取η-l条边,构成一棵生成树;具体的选择准则步骤为:若存在一条边(U,ν)满足一个端点u在构造中的生成树上,即u e V’,而另一个端点ν不在该树上,即ν e V-V’,则在满足上述条件的所有边中寻找一条权值最小的边记为U’,V’),其中u’,v’为这条权值最小的边连接的两个点;按照上述选边准则,选取η-l本文档来自技高网
...

【技术保护点】
一种基于普利姆的K均值聚类方法,其特征在于使用普利姆prim最小生成树方法对随机生成的点求其最小生成树,然后从中找出具有最大权值和且权值相差不大的点集作为初始聚类中心,最后使用K均值聚类算法聚类,其步骤如下:1)随机从样本中选择k个数据对象,重复操作m次,对每一次选取的k个数据对象,使用prim求出其最小生成树,重复计算m次,对每次的最小生成树将其权值相加得到最小生成树的权值和,记第i次得到的最小生成树权值和记为dsumi,重复计算m次得到m个和,分别为dsum1,dsum2,…dsumm;其中,k为数据对象个数,m为重复计算次数,i为计算次数;2)求出最小生成树权值和中的最大值MAX(dsum1,dsum2…dsumm)对应的k个数据对象对应的点集;3)若这个k个数据对象对应的点集生成树中的权值相差不大,则将求出的点集作为初始聚类中心,转步骤4);否则去掉当前所选最小生成树权值和最大值,转步骤2);4)根据数据对象距离计算公式,求出各个数据对象到这个初始聚类中心的距离,取最小的距离放入对应的簇中,根据数据集合聚类簇中心计算公式更新簇中心;计算误差平方和函数E跟前一次的E值比较,若绝对值小于等于规定值,转步骤5),否则继续计算聚类中心;5)输出聚类结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王堃徐雳雳高会孙雁飞郭篁陆恒张玉华叶真璋
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1