数据聚类方法和装置制造方法及图纸

技术编号：9872607 阅读：133 留言：0更新日期：2014-04-04 05:58

本发明专利技术公开了一种数据聚类方法和装置，其中，该方法包括：重复执行以下步骤直到完成对待聚类的样本集合中的所有样本的聚类：根据样本距离排序关系在当前待聚类样本集合中查找第一样本集合和/或第二样本集合；第二样本集合中的每个成员自身满足聚类条件，但与第二样本集合中的其他成员或者与第一样本集合中的成员之间不满足聚类条件；并行对第一样本集合中的每个成员和/或第二样本集合中的每个成员执行聚类操作，每个成员执行完成聚类操作后形成一个样本集合；根据聚类操作所得到的样本集合对当前待聚类样本集合中的成员进行更新。本发明专利技术解决了传统聚类过程中运行速度慢的技术问题，达到了降低复杂度，提高运行速度的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
数据聚类方法和装置
本专利技术涉及计算机领域，具体而言，涉及一种数据聚类方法和装置。
技术介绍
聚类是一种数据集合的划分方法，其主要过程是根据一定的相似性或距离计算函数按照距离相近的样本划分到相同的类中，而距离较远的样本划分到不同的类中的原则自动地将数据集分成若干类(簇)。由于聚类是一种无指导的学习方法，无需耗费大量的人力、物力，因此自动聚类技术已成为最有效的信息处理手段之一。虽然聚类的用途很广泛，但传统的层次聚类算法的时间复杂度和空间复杂度高，对于大规模聚类问题运行速度慢，并对硬件的要求很高，需要用到服务器，无法在PC机上完成。传统的层次聚类算法，分为基于矩阵和基于优先队列两种，其相对最简单的单链接层次聚类的时间复杂度都分别达到了 0(n3)和0(n2log η)，二者的空间复杂度为O (η2)。由此可见，传统的层次聚类算法的时间复杂度和空间复杂度都比较高，对于大规模聚类问题，特别是在通用的PC计算机上很难完成。目前，有一些处理大规模数据聚类的方法，如⑶RE和CURD,但算法过于复杂，需要预先对样本数据进行复杂分析，不适合在PC计算机上实现大规模数据聚类。因此，从理论上和实用上的需求出发，研制一种面向普通PC计算机的大规模数据的层次聚类算法成为了急需解决的新课题。
技术实现思路
本专利技术实施例提供了一种数据聚类方法和装置，以至少解决传统聚类过程中运行速度慢的技术问题。根据本专利技术实施例的一个方面，提供了一种数据聚类方法，包括:重复执行以下步骤直到完成对待聚类的样本集合中的所有样本的聚类，其中，当前待聚类样本集合的初始值为待聚类的样本集合中的每...

【技术保护点】
一种数据聚类方法，其特征在于，包括：重复执行以下步骤直到完成对待聚类的样本集合中的所有样本的聚类，其中，当前待聚类样本集合的初始值为所述待聚类的样本集合中的每个样本：根据样本距离排序关系在所述当前待聚类样本集合中查找第一样本集合和/或第二样本集合，其中，所述第一样本集合和所述第二样本集合中的每个成员包含以下至少之一：样本、样本集合，其中，所述样本集合包括多个样本，所述第一样本集合中的每个成员各自形成一个阶梯簇；所述第二样本集合中的每个成员自身满足聚类条件，但与所述第二样本集合中的其他成员或者与所述第一样本集合中的成员之间不满足所述聚类条件；并行对所述第一样本集合中的每个成员和/或所述第二样本集合中的每个成员执行聚类操作，每个成员执行完成所述聚类操作后形成一个样本集合；根据所述聚类操作所得到的样本集合对所述当前待聚类样本集合中的成员进行更新。

【技术特征摘要】
1.一种数据聚类方法，其特征在于，包括:重复执行以下步骤直到完成对待聚类的样本集合中的所有样本的聚类，其中，当前待聚类样本集合的初始值为所述待聚类的样本集合中的每个样本: 根据样本距离排序关系在所述当前待聚类样本集合中查找第一样本集合和/或第二样本集合，其中，所述第一样本集合和所述第二样本集合中的每个成员包含以下至少之一:样本、样本集合，其中，所述样本集合包括多个样本，所述第一样本集合中的每个成员各自形成一个阶梯簇；所述第二样本集合中的每个成员自身满足聚类条件，但与所述第二样本集合中的其他成员或者与所述第一样本集合中的成员之间不满足所述聚类条件；并行对所述第一样本集合中的每个成员和/或所述第二样本集合中的每个成员执行聚类操作，每个成员执行完成所述聚类操作后形成一个样本集合；根据所述聚类操作所得到的样本集合对所述当前待聚类样本集合中的成员进行更新。2.根据权利要求1所述的方法，其特征在于，在重复执行所述步骤直到完成对待聚类的样本集合中的所有样本的聚类之前，还包括: 获取所述待聚类的样本集合中的每两个样本之间的距离；按照所述距离的大小对所述待聚类的样本集合中的每两个样本形成的样本对进行排序，形成所述样本距离排序关系。3.根据权利要求1所述的方法，其特征在于，所述根据样本距离排序关系在所述当前待聚类样本集合中查找第一样本集合包括: 若所述当前待聚类样本集合中的多个成员满足以下条件，则将满足所述以下条件的所述多个成员记录为所述第一样本集合中的一个成员:所述当前待聚类样本集合中的所述多个成员按照所述样本距离排序`关系中记录的排序顺序依次满足所述聚类条件，且与所述当前待聚类样本集合中的其他成员不满足所述聚类条件。4.根据权利要求1所述的方法，其特征在于，所述根据样本距离排序关系在所述当前待聚类样本集合中查找第二样本集合包括: 若所述当前待聚类样本集合中的相邻两个成员满足以下条件，则将满足所述以下条件的多个成员记录为所述第二样本集合中的一个成员:所述当前待聚类样本集合中的所述相邻两个成员之间满足所述聚类条件，且与所述当前待聚类样本集合中的其他成员不满足所述聚类条件。5.根据权利要求1所述的方法，其特征在于，所述根据所述聚类操作所得到的样本集合对所述当前待聚类样本集合中的成员进行更新包括: 将所述当前待聚类样本集合中的成员更新为所述聚类操作所得到的样本集合；或者将所述当前待聚类样本集合中除未参与所述聚类操作的成员之外的成员更新为所述聚类操作所得到的样本集合，并在更新后的所述当前待聚类样本集合中保留所述未参与所述聚类操作的成员。6.根据权利要求1至4中任一项所述的方法，其特征在于，所述聚类条件包括以下至少之一: 样本与样本之间的距离满足第一预定阈值；样本与样本集合之间的距离满足第二预定阈值；样本集合与样本集合之间的距离满足第三预定阈值。7.根据权利要求1至...

【专利技术属性】
技术研发人员：季铎，
申请(专利权)人：沈阳航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人