【技术实现步骤摘要】
一种基于Delaunay三角网的K-means初始聚类中心选取方法
本专利技术涉及计算机分类领域,尤其涉及一种基于Delaunay三角网的K-means初始聚类中心选取方法。
技术介绍
聚类是一种无监督的数据分析方法,在没有先验知识的情况下,对样品按各自的特性来合理地进行分类,被广泛用于数据挖掘领域。聚类的分类原则是使同一组中的数据具有尽可能大的相似性,不同组中的数据具有尽可能大的相异性。即,组内数据相似性越大,组间数据相似性越小,则分类效果越好。聚类算法可分为基于划分的、密度的、分层的、网格的和模型等类型。作为基于划分的聚类算法,K-means聚类算法因其算法简单、执行高效而被广泛应用。K-means聚类算法的基本步骤如下:第一步:从包含n个数据对象的数据集中随机抽取K个数据对象作为初始聚类中心,其中K(K≥2)为预先确定的簇的数目;第二步:对数据集中的数据对象按照最小距离原则分配到最邻近的类;第三步:计算每个聚类中的数据对象的均值作为新的聚类中心;第四步:重复第二步和第三步,直到聚类中心不再变化。K-means聚类算法具有快速、简单的优点,但由于初始聚类中心是通过随机选取来确定的,故该方法存在以下问题:1)如果某一类别的初始聚类中心来自于另一类别,聚类结果易出现局部最优,而不能达到全局最优;2)聚类结果依赖于初始聚类中心的选取,导致聚类结果不稳定;3)当初始聚类中心间距离过近时导致错误聚类结果。为克服以上缺点,很多技术人员提出了改进方法。CCIA算法基于数据压缩原理,对数据的每个属性执行K-means算法得到诸多数据模式,最后进行合并,算法整体效果良好 ...
【技术保护点】
一种基于Delaunay三角网的K‑means初始聚类中心选取方法,其特征在于,包括以下步骤:步骤1、把待聚类数据集表示为Delaunay三角网,使得所述待聚类数据集中的各数据点与所述Delaunay三角网中的节点一一对应;步骤2、计算所述Delaunay三角网中各三角形三个顶点的均值,并将所述均值作为所述三角形的代表点;步骤3、计算各所述代表点所在三角形面积的倒数,并将各所述代表点所在三角形面积的倒数作为所述代表点的密度;步骤4、计算所述代表点的密度之和及所述代表点的欧氏距离,并将两者的乘积作为两个代表点间的混合距离;步骤5、在所有所述代表点中挑选密度最大的代表点作为第1个初始聚类中心,并将所述密度最大的代表点加入到初始聚类中心集合C中;步骤6、选择与所述第1个初始聚类中心的混合距离最远的代表点作为第2个初始聚类中心,并将与所述第1个初始聚类中心的混合距离最远的代表点加入到所述初始聚类中心集合C中;步骤7、在剩下的代表点中逐个计算与所述初始聚类中心集合C中的各初始聚类中心的混合距离,并选出最小混合距离,然后在所有的最小混合距离中挑选出最大混合距离所对应的代表点,并将所有的最小混合距离 ...
【技术特征摘要】
1.一种基于Delaunay三角网的K-means初始聚类中心选取方法,其特征在于,包括以下步骤:步骤1、把待聚类数据集表示为Delaunay三角网,使得所述待聚类数据集中的各数据点与所述Delaunay三角网中的节点一一对应;步骤2、计算所述Delaunay三角网中各三角形三个顶点的均值,并将所述均值作为所述三角形的代表点;步骤3、计算各所述代表点所在三角形面积的倒数,并将各所述代表点所在三角形面积的倒数作为所述代表点的密度;步骤4、计算所述代表点的密度之和及所述代表点的欧氏距离,并将两者的乘积作为两个代表点间的混合距离;步骤5、在所有所述代表点中挑选密度最大的代表点作为第1个初始聚类中心,并将所述密度最大的代表点加入到初始聚类中心集合C中;步骤6、选择与所述第1个初始聚类中心的混合距离最远的代表点作为第2个初始聚类中心,并将与所述第1个初始聚类中心的混合距离最远的代表点加入到所述初始聚类中心集合C中;步骤7、在剩下的代表点中逐个计算与所述初始聚类中心集合C中的各初始聚类中心的混合距离,并选出最小混合距离,然后在所有的最小混合距离中挑选出最大混合距离所对应的代表点,并将所有的最小混合距离中挑选出最大混合距离所对应的代表点加入到所述初始聚类中心集合C中,不断地从代表点中挑选出符合条件的代表点加入到所述初始聚类中心集合C,直至所述初始聚类中心集合C包含的元素个数等于K。2.如权利要求1所述的一种基于Delaunay三角网的K-means初始聚类中心选取方法,其特征在于,所述步骤1具体方法包括:所述待聚类的数据集被设置为X={x1,x2,...,xn},包含n个数据对象,为数据集X构建Delaunay三角网G=(V,E),并且所述数据集X中的一个数据对象xi∈X与三角网G中的一个节点vi∈V之间是一一对应关系,所述三角网G中的两个节点间的距离等于其对应数据对象间的欧氏距离,即d(vi,vj)=d(xi,xj)。3.如权利要求1所述的一种基于Delaunay三角网的K-means初始聚类中心选取方法,其特征在于,所述步骤2具体方法包括:构成所述三角网G中一个三角形T的三个顶点分别被设置为vi、vj、vk,所述三个顶点分别与所述待聚类的数据集中的xi、xj、xk这三个数据对象一一对应,其中,xi=(xi1,xi2,…,xid),xj=(xj1,xj2,…,xjd),xk=(xk1,xk2,…,xkd),计算所述三个顶点的均值为所述均值作为所述三角形T的代表点。4.如权利要求1所述的一种基于Delaunay三角网的K-means初始聚类中心选取方法,其特征在于,所述步骤3具体方法包括:代表点r所在三角形T的三个顶点分别被设置为vi、vj、vk,所述三个顶点分别与所述待聚类的数据集中的xi、xj、xk这三个数据对象一一对应,其中,xi=(xi1,xi2,…,xid),xj=(xj1,xj2,…,xjd),xk=(xk1,xk2,...,xkd),则所述三角形T中三条边长分别被设...
【专利技术属性】
技术研发人员:马燕,杨杰,韦高洁,张相芬,李顺宝,张玉萍,
申请(专利权)人:上海师范大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。