一种基于Delaunay三角网的K‑means初始聚类中心选取方法技术

技术编号:15792505 阅读:98 留言:0更新日期:2017-07-10 00:55
本发明专利技术公开了一种基于Delaunay三角网的K‑means初始聚类中心选取方法,把待聚类数据集表示为Delaunay三角网,计算三角网中的代表点;计算各代表点的密度之和及其欧氏距离的乘积作为两个代表点间的混合距离,然后,在所有代表点中挑选第1个初始聚类中心,并将其加入到初始聚类中心集合C中,再选择第2个初始聚类中心,并将其加入到初始聚类中心集合C中,接着,在剩下的代表点中逐个计算与初始聚类中心集合中各初始聚类中心的混合距离,并选出最小混合距离,然后在所有的最小混合距离中挑选出最大混合距离所对应的代表点,并将其加入到初始聚类中心集合C中,不断地从代表点中挑选出符合条件的代表点加入到集合C,直至初始聚类中心集合C包含的元素个数等于K。

【技术实现步骤摘要】
一种基于Delaunay三角网的K-means初始聚类中心选取方法
本专利技术涉及计算机分类领域,尤其涉及一种基于Delaunay三角网的K-means初始聚类中心选取方法。
技术介绍
聚类是一种无监督的数据分析方法,在没有先验知识的情况下,对样品按各自的特性来合理地进行分类,被广泛用于数据挖掘领域。聚类的分类原则是使同一组中的数据具有尽可能大的相似性,不同组中的数据具有尽可能大的相异性。即,组内数据相似性越大,组间数据相似性越小,则分类效果越好。聚类算法可分为基于划分的、密度的、分层的、网格的和模型等类型。作为基于划分的聚类算法,K-means聚类算法因其算法简单、执行高效而被广泛应用。K-means聚类算法的基本步骤如下:第一步:从包含n个数据对象的数据集中随机抽取K个数据对象作为初始聚类中心,其中K(K≥2)为预先确定的簇的数目;第二步:对数据集中的数据对象按照最小距离原则分配到最邻近的类;第三步:计算每个聚类中的数据对象的均值作为新的聚类中心;第四步:重复第二步和第三步,直到聚类中心不再变化。K-means聚类算法具有快速、简单的优点,但由于初始聚类中心是通过随机选取来确定的,故该方法存在以下问题:1)如果某一类别的初始聚类中心来自于另一类别,聚类结果易出现局部最优,而不能达到全局最优;2)聚类结果依赖于初始聚类中心的选取,导致聚类结果不稳定;3)当初始聚类中心间距离过近时导致错误聚类结果。为克服以上缺点,很多技术人员提出了改进方法。CCIA算法基于数据压缩原理,对数据的每个属性执行K-means算法得到诸多数据模式,最后进行合并,算法整体效果良好,但算法复杂度随着数据对象维度的增加而增加。另一种kd-tree方法是用包围盒的密度来代替每个数据点的密度。该方法存在以下缺点:其一,这种替代无法准确表达数据点的密度分布情况,其二,如果某包围盒中所有数据点在某一属性下的值都相等,则该包围盒的密度为无穷,结果无意义。还有一种K-means++算法,该算法考虑了数据点间的距离,但也存在以下缺点:其一,第一个初始中心随机选取导致最终结果不稳定,其二,未对数据点的密度做定义,从而导致聚类结果易受离群点影响。因此,本领域的技术人员致力于开发一种基于Delaunay三角网的K-means初始聚类中心选取方法,克服传统K-means方法中随机选择初始聚类中心的缺点,提高聚类精度,避免了离群点的影响。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是克服传统K-means方法中随机选择初始聚类中心的缺点,提高聚类精度,避免离群点的影响。为实现上述目的,本专利技术提供了一种基于Delaunay三角网的K-means初始聚类中心选取方法,包括以下步骤:步骤1、把待聚类数据集表示为Delaunay三角网,使得待聚类数据集中的各数据点与Delaunay三角网中的节点一一对应;步骤2、计算Delaunay三角网中各三角形三个顶点的均值,并将均值作为三角形的代表点;步骤3、计算各代表点所在三角形面积的倒数,并将各代表点所在三角形面积的倒数作为代表点的密度;步骤4、计算代表点的密度之和及代表点的欧氏距离,并将两者的乘积作为两个代表点间的混合距离;步骤5、在所有代表点中挑选密度最大的代表点作为第1个初始聚类中心,并将密度最大的代表点加入到初始聚类中心集合C中;步骤6、选择与第1个初始聚类中心的混合距离最远的代表点作为第2个初始聚类中心,并将与第1个初始聚类中心的混合距离最远的代表点加入到初始聚类中心集合C中;步骤7、在剩下的代表点中逐个计算与初始聚类中心集合中各初始聚类中心的混合距离,并选出最小混合距离,然后在所有的最小混合距离中挑选出最大混合距离所对应的代表点,并将所有的最小混合距离中挑选出最大混合距离所对应的代表点加入到初始聚类中心集合C中,不断地从代表点中挑选出符合条件的代表点加入到集合C,直至初始聚类中心集合C包含的元素个数等于K。进一步地,步骤1具体方法包括:待聚类的数据集被设置为X={x1,x2,...,xn}包含n个数据对象,为数据集X构建Delaunay三角网G=(V,E),其中,V={v1,v2,...,vn}表示三角网G中节点的集合,E表示三角网G中边的集合,并且数据集X中的一个数据对象xi∈X与三角网G中的一个节点vi∈V之间是一一对应关系,则三角网G中的节点数目等于数据集X中数据对象的数目,三角网G中的两个节点间的距离等于其对应数据对象间的欧氏距离,即d(vi,vj)=d(xi,xj)。进一步地,步骤2具体方法包括:构成三角网G中一个三角形T的三个顶点分别被设置为vi、vj、vk,三个顶点分别与待聚类的数据集中的xi、xj、xk这三个数据对象一一对应,其中,xi=(xi1,xi2,…,xid),xj=(xj1,xj2,…,xjd),xk=(xk1,xk2,…,xkd),d表示数据对象的属性维数,计算三个顶点的均值为均值作为三角形T的代表点。进一步地,步骤3具体方法包括:代表点r所在三角形T的三个顶点分别被设置为vi、vj、vk,三个顶点分别与待聚类的数据集中的xi、xj、xk这三个数据对象一一对应,其中,xi=(xi1,xi2,…,xid),xj=(xj1,xj2,…,xjd),xk=(xk1,xk2,...,xkd),d表示数据对象的属性维数,则三角形T中三条边长分别被设置为:计算三角形的半周长得到三角形T的面积S是最后,得到面积S的倒数,即,作为代表点r的密度。进一步地,步骤4具体方法包括:两个代表点r1,r2的密度分别被设置为ρ1与ρ2,代表点r1与代表点r2的欧氏距离等于d12,则代表点r1与代表点r2之间的混合距离等于h=(ρ1+ρ2)×d12。进一步地,步骤5具体方法包括:所有代表点构成的集合被设置为R={r1,r2,...,rt},t为构建的Delaunay三角网中三角形的数目,首先,按步骤3计算所有代表点的密度,然后,从集合R中挑选密度最大的代表点作为第1个初始聚类中心c1,并将集合R中密度最大的代表点加入到初始聚类中心集合C中,即C={c1},再将密度最大的代表点从集合R中移除,重新整理代表点集合,得到R={r1,r2,...,rt-1}。进一步地,步骤6具体方法包括:分别计算代表点集合R={r1,r2,...,rt-1}中各个代表点与第一个初始聚类中心的混合距离,取混合距离最远的代表点作为第2个初始聚类中心c2,并将混合距离最远的代表点加入到初始聚类中心集合C中,即C={c1,c2},再将混合距离最远的代表点从集合R中移除,重新整理代表点集合,得到R={r1,r2,...,rt-2}。进一步地,步骤7具体方法包括:步骤71、从剩下的代表点集合R中挑选r1,计算与初始聚类中心集合C中各初始聚类中心的混合距离,并在所有的混合距离中选出最小的混合距离,表示为h1min;步骤72、从R中挑选r2,计算与初始聚类中心集合C中各初始聚类中心的混合距离,并在所有的混合距离中选出最小的混合距离,表示为h2min;直至从R中挑选出最后一个代表点rt-2,计算与初始聚类中心集合C中各初始聚类中心的混合距离,并在所有的混合距离中选出最小的混合距离,表示为h(t-2)min;步骤73、在所有本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201710090315.html" title="一种基于Delaunay三角网的K‑means初始聚类中心选取方法原文来自X技术">基于Delaunay三角网的K‑means初始聚类中心选取方法</a>

【技术保护点】
一种基于Delaunay三角网的K‑means初始聚类中心选取方法,其特征在于,包括以下步骤:步骤1、把待聚类数据集表示为Delaunay三角网,使得所述待聚类数据集中的各数据点与所述Delaunay三角网中的节点一一对应;步骤2、计算所述Delaunay三角网中各三角形三个顶点的均值,并将所述均值作为所述三角形的代表点;步骤3、计算各所述代表点所在三角形面积的倒数,并将各所述代表点所在三角形面积的倒数作为所述代表点的密度;步骤4、计算所述代表点的密度之和及所述代表点的欧氏距离,并将两者的乘积作为两个代表点间的混合距离;步骤5、在所有所述代表点中挑选密度最大的代表点作为第1个初始聚类中心,并将所述密度最大的代表点加入到初始聚类中心集合C中;步骤6、选择与所述第1个初始聚类中心的混合距离最远的代表点作为第2个初始聚类中心,并将与所述第1个初始聚类中心的混合距离最远的代表点加入到所述初始聚类中心集合C中;步骤7、在剩下的代表点中逐个计算与所述初始聚类中心集合C中的各初始聚类中心的混合距离,并选出最小混合距离,然后在所有的最小混合距离中挑选出最大混合距离所对应的代表点,并将所有的最小混合距离中挑选出最大混合距离所对应的代表点加入到所述初始聚类中心集合C中,不断地从代表点中挑选出符合条件的代表点加入到所述初始聚类中心集合C,直至所述初始聚类中心集合C包含的元素个数等于K。...

【技术特征摘要】
1.一种基于Delaunay三角网的K-means初始聚类中心选取方法,其特征在于,包括以下步骤:步骤1、把待聚类数据集表示为Delaunay三角网,使得所述待聚类数据集中的各数据点与所述Delaunay三角网中的节点一一对应;步骤2、计算所述Delaunay三角网中各三角形三个顶点的均值,并将所述均值作为所述三角形的代表点;步骤3、计算各所述代表点所在三角形面积的倒数,并将各所述代表点所在三角形面积的倒数作为所述代表点的密度;步骤4、计算所述代表点的密度之和及所述代表点的欧氏距离,并将两者的乘积作为两个代表点间的混合距离;步骤5、在所有所述代表点中挑选密度最大的代表点作为第1个初始聚类中心,并将所述密度最大的代表点加入到初始聚类中心集合C中;步骤6、选择与所述第1个初始聚类中心的混合距离最远的代表点作为第2个初始聚类中心,并将与所述第1个初始聚类中心的混合距离最远的代表点加入到所述初始聚类中心集合C中;步骤7、在剩下的代表点中逐个计算与所述初始聚类中心集合C中的各初始聚类中心的混合距离,并选出最小混合距离,然后在所有的最小混合距离中挑选出最大混合距离所对应的代表点,并将所有的最小混合距离中挑选出最大混合距离所对应的代表点加入到所述初始聚类中心集合C中,不断地从代表点中挑选出符合条件的代表点加入到所述初始聚类中心集合C,直至所述初始聚类中心集合C包含的元素个数等于K。2.如权利要求1所述的一种基于Delaunay三角网的K-means初始聚类中心选取方法,其特征在于,所述步骤1具体方法包括:所述待聚类的数据集被设置为X={x1,x2,...,xn},包含n个数据对象,为数据集X构建Delaunay三角网G=(V,E),并且所述数据集X中的一个数据对象xi∈X与三角网G中的一个节点vi∈V之间是一一对应关系,所述三角网G中的两个节点间的距离等于其对应数据对象间的欧氏距离,即d(vi,vj)=d(xi,xj)。3.如权利要求1所述的一种基于Delaunay三角网的K-means初始聚类中心选取方法,其特征在于,所述步骤2具体方法包括:构成所述三角网G中一个三角形T的三个顶点分别被设置为vi、vj、vk,所述三个顶点分别与所述待聚类的数据集中的xi、xj、xk这三个数据对象一一对应,其中,xi=(xi1,xi2,…,xid),xj=(xj1,xj2,…,xjd),xk=(xk1,xk2,…,xkd),计算所述三个顶点的均值为所述均值作为所述三角形T的代表点。4.如权利要求1所述的一种基于Delaunay三角网的K-means初始聚类中心选取方法,其特征在于,所述步骤3具体方法包括:代表点r所在三角形T的三个顶点分别被设置为vi、vj、vk,所述三个顶点分别与所述待聚类的数据集中的xi、xj、xk这三个数据对象一一对应,其中,xi=(xi1,xi2,…,xid),xj=(xj1,xj2,…,xjd),xk=(xk1,xk2,...,xkd),则所述三角形T中三条边长分别被设...

【专利技术属性】
技术研发人员:马燕杨杰韦高洁张相芬李顺宝张玉萍
申请(专利权)人:上海师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1