一种实现K-means聚类的方法及装置制造方法及图纸

技术编号：9967587 阅读：156 留言：0更新日期：2014-04-25 08:16

本申请公开了一种实现K-means聚类的方法及装置，包括：对聚类数据进行随机抽样得到样本集，样本集与聚类数据满足预先设置的相似度数值；利用获得的样本集形成K个集群的层次聚类，将层次聚类的K个集群的质心作为K-means聚类的初始质心；根据获取的K-means初始质心进行K-means聚类。本发明专利技术通过选取需要数量的聚类集样本进行层次聚类，以获取层次聚类的质心作为K-means聚类方法的初始质心，使K-means聚类方法不受初始质心影响。另一方面，通过聚类算法过程中不满足聚类第一数值的聚类进行删除，从最大的聚类开始拆分相应个数的聚类，以保证聚类要求的聚类集群的个数要求。

全部详细技术资料下载

【技术实现步骤摘要】
一种实现K-means聚类的方法及装置
本专利技术涉及数据挖掘技术，尤指一种实现K-means聚类的方法及装置。
技术介绍
K-means聚类的方法作为数据挖掘领域的一种常见方法，在一些数据处理的过程中存在以下问题：一方面，初始质心的选择对聚类结果影响很大。也就是指作为聚类方法的第一步，如果对质心的选取不是数据集中的正常数值，那么对于聚类方法获得的结果，由于初值选择的随机性，很可能得出的聚类效果是不理想的。图1为现有技术对同一聚类数据采用随机选取的初始质心进行聚类的四次聚类结果示意图，如图1所示，聚类结果a1、聚类结果a2和聚类结果a3是采用第一组随机选取初始质心的聚类结果；聚类结果b1、聚类结果b2和聚类结果b3是采用第二组随机选取初始质心的聚类结果；聚类结果c1、聚类结果c2和聚类结果c3是采用第三组随机选取初始质心的聚类结果；聚类结果d1、聚类结果d2和聚类结果d3是采用第四组随机选取初始质心的聚类结果。图2是现有技术采用随机选取初始质心的聚类结果示意图，如图2所示，聚类结果k1和聚类结果k2为聚类形成的两个结果，但是从图中可以看出，这两个聚类集群的理想效果应当属于一个聚类集群；而聚类结果k3和聚类结果K4从聚类的结果示意图上可以看出，其从聚类要达到的理想效果应当是聚类为3个集群。通过分析可见，在现有的K-means聚类方法中，如果一个数据集有K个“真实”的集群，那么随机选择的K个点作为聚类的初始质心，则每个初始质心恰好落在一个“真实”的集群上的概率很小。例如，一个数据集上有10个类，按照目前的聚类方法随机选择10个点作为初始质心。那么10个初始点正...
一种实现K-means聚类的方法及装置

【技术保护点】
一种实现K?means聚类的方法，其特征在于，包括：对聚类数据进行随机抽样得到样本集，样本集与聚类数据满足预先设置的相似度数值；利用获得的样本集形成K个集群的层次聚类，将层次聚类的K个集群的质心作为K?means聚类的初始质心；根据获取的K?means初始质心进行K?means聚类。

【技术特征摘要】
1.一种实现K-means聚类的方法，其特征在于，包括：对聚类数据进行随机抽样得到样本集，样本集与聚类数据满足预先设置的相似度数值；利用获得的样本集形成K个集群的层次聚类，将层次聚类的K个集群的质心作为K-means聚类的初始质心；根据获取的K-means初始质心进行K-means聚类；所述满足预先设置的相似度数值为：预先设置相似度数值，通过计算公式(1-(1-1/K)s)K的数值大于或等于预先设置的相似度数值，获得样本集的样本数值；其中，S为需要计算的样本集的样本数值。2.根据权利要求1所述的方法，其特征在于，在进行K-means聚类时，设置聚类集群的聚类第一数值，该方法还包括：删除不满足聚类第一数值的聚类集群，在删除聚类集群时，将最大集群开始的相应个数的集群进行拆分，以满足K-means聚类的集群个数不变。3.一种实现K-means聚类的装置，其特征在于，包括：样本单元、初始质心获取单...

【专利技术属性】
技术研发人员：李傲，
申请(专利权)人：浪潮北京电子信息产业有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人