本发明专利技术公开了一种数据聚类方法和装置,其中,该方法包括:重复执行以下步骤直到完成对待聚类的样本集合中的所有样本的聚类:根据样本距离排序关系在当前待聚类样本集合中查找第一样本集合和/或第二样本集合;第二样本集合中的每个成员自身满足聚类条件,但与第二样本集合中的其他成员或者与第一样本集合中的成员之间不满足聚类条件;并行对第一样本集合中的每个成员和/或第二样本集合中的每个成员执行聚类操作,每个成员执行完成聚类操作后形成一个样本集合;根据聚类操作所得到的样本集合对当前待聚类样本集合中的成员进行更新。本发明专利技术解决了传统聚类过程中运行速度慢的技术问题,达到了降低复杂度,提高运行速度的技术效果。
【技术实现步骤摘要】
数据聚类方法和装置
本专利技术涉及计算机领域,具体而言,涉及一种数据聚类方法和装置。
技术介绍
聚类是一种数据集合的划分方法,其主要过程是根据一定的相似性或距离计算函数按照距离相近的样本划分到相同的类中,而距离较远的样本划分到不同的类中的原则自动地将数据集分成若干类(簇)。由于聚类是一种无指导的学习方法,无需耗费大量的人力、物力,因此自动聚类技术已成为最有效的信息处理手段之一。虽然聚类的用途很广泛,但传统的层次聚类算法的时间复杂度和空间复杂度高,对于大规模聚类问题运行速度慢,并对硬件的要求很高,需要用到服务器,无法在PC机上完成。传统的层次聚类算法,分为基于矩阵和基于优先队列两种,其相对最简单的单链接层次聚类的时间复杂度都分别达到了 0(n3)和0(n2log η),二者的空间复杂度为O (η2)。由此可见,传统的层次聚类算法的时间复杂度和空间复杂度都比较高,对于大规模聚类问题,特别是在通用的PC计算机上很难完成。目前,有一些处理大规模数据聚类的方法,如⑶RE和CURD,但算法过于复杂,需要预先对样本数据进行复杂分析,不适合在PC计算机上实现大规模数据聚类。因此,从理论上和实用上的需求出发,研制一种面向普通PC计算机的大规模数据的层次聚类算法成为了急需解决的新课题。
技术实现思路
本专利技术实施例提供了一种数据聚类方法和装置,以至少解决传统聚类过程中运行速度慢的技术问题。根据本专利技术实施例的一个方面,提供了一种数据聚类方法,包括:重复执行以下步骤直到完成对待聚类的样本集合中的所有样本的聚类,其中,当前待聚类样本集合的初始值为待聚类的样本集合中的每个样本:根据样本距离排序关系在当前待聚类样本集合中查找第一样本集合和/或第二样本集合,其中,第一样本集合和第二样本集合中的每个成员包含以下至少之一:样本、样本集合,其中,样本集合包括多个样本,第一样本集合中的每个成员各自形成一个阶梯簇;第二样本集合中的每个成员自身满足聚类条件,但与第二样本集合中的其他成员或者与第一样本集合中的成员之间不满足聚类条件;并行对第一样本集合中的每个成员和/或第二样本集合中的每个成员执行聚类操作,每个成员执行完成聚类操作后形成一个样本集合;根据聚类操作所得到的样本集合对当前待聚类样本集合中的成员进行更新。作为一种可选的方案,在重复执行步骤直到完成对待聚类的样本集合中的所有样本的聚类之前,还包括:获取待聚类的样本集合中的每两个样本之间的距离;按照距离的大小对待聚类的样本集合中的每两个样本形成的样本对进行排序,形成样本距离排序关系O作为一种可选的方案,根据样本距离排序关系在当前待聚类样本集合中查找第一样本集合包括:若当前待聚类样本集合中的多个成员满足以下条件,则将满足以下条件的多个成员记录为第一样本集合中的一个成员:当前待聚类样本集合中的多个成员按照样本距离排序关系中记录的排序顺序依次满足聚类条件,且与当前待聚类样本集合中的其他成员不满足聚类条件。作为一种可选的方案,根据样本距离排序关系在当前待聚类样本集合中查找第二样本集合包括:若当前待聚类样本集合中的相邻两个成员满足以下条件,则将满足以下条件的多个成员记录为第二样本集合中的一个成员:当前待聚类样本集合中的相邻两个成员之间满足聚类条件,且与当前待聚类样本集合中的其他成员不满足聚类条件。作为一种可选的方案,根据聚类操作所得到的样本集合对当前待聚类样本集合中的成员进行更新包括:将当前待聚类样本集合中的成员更新为聚类操作所得到的样本集合;或者将当前待聚类样本集合中除未参与聚类操作的成员之外的成员更新为聚类操作所得到的样本集合,并在更新后的当前待聚类样本集合中保留未参与聚类操作的成员。作为一种可选的方案,其特征在于,聚类条件包括以下至少之一:样本与样本之间的距离满足第一预定阈值;样本与样本集合之间的距离满足第二预定阈值;样本集合与样本集合之间的距离满足第三预定阈值。作为一种可选的方案,距离包括以下至少之一:最近距离,最远距离。根据本专利技术实施例的另一方面,还提供了一种数据聚类装置,包括:查找单元,用于根据样本距离排序关系在当前待聚类样本集合中查找第一样本集合和/或第二样本集合,其中,第一样本集合和第二样本集合中的每个成员包含以下至少之一:样本、样本集合,其中,样本集合包括多个样本,第一样本集合中的每个成员各自形成一个阶梯簇;第二样本集合中的每个成员自身满足聚类条件,但与第二样本集合中的其他成员或者与第一样本集合中的成员之间不满足聚类条件;聚类单元,用于并行对第一样本集合中的每个成员和/或第二样本集合中的每个成员执行聚类操作,每个成员执行完成聚类操作后形成一个样本集合;更新单元,用于根据聚类操作所得到的样本集合对当前待聚类样本集合中的成员进行更新;判断单元,用于判断是否完成对待聚类的样本集合中的所有样本的聚类,若未完成对待聚类的样本集合中的所有样本的聚类,则通知查找单元执行查找的操作,通知聚类单元执行聚类的操作以及通知更新单元执行更新的操作,其中,当前待聚类样本集合的初始值为待聚类的样本集合中的每个样本。作为一种可选的方案,该装置还包括:获取单元,用于在根据样本距离排序关系在当前待聚类样本集合中查找第一样本集合和/或第二样本集合之前,获取待聚类的样本集合中的每两个样本之间的距离;排序单元,用于按照距离的大小对待聚类的样本集合中的每两个样本形成的样本对进行排序,形成样本距离排序关系。作为一种可选的方案,查找单元包括:第一查找模块,用于若当前待聚类样本集合中的多个成员满足以下条件,则将满足以下条件的多个成员记录为第一样本集合中的一个成员:当前待聚类样本集合中的多个成员按照样本距离排序关系中记录的排序顺序依次满足聚类条件,且与当前待聚类样本集合中的其他成员不满足聚类条件。作为一种可选的方案,查找单元还包括:第二查找模块,用于若当前待聚类样本集合中的相邻两个成员满足以下条件,则将满足以下条件的多个成员记录为第二样本集合中的一个成员:当前待聚类样本集合中的相邻两个成员之间满足聚类条件,且与当前待聚类样本集合中的其他成员不满足聚类条件。作为一种可选的方案,更新单元包括:第一更新模块,用于将当前待聚类样本集合中的成员更新为聚类操作所得到的样本集合;或者第二更新模块,用于将当前待聚类样本集合中除未参与聚类操作的成员之外的成员更新为聚类操作所得到的样本集合,并在更新后的当前待聚类样本集合中保留未参与聚类操作的成员。在本专利技术实施例中,采用阶梯簇优先合并的方式,通过将大规模样本数据分类,得到阶梯簇,使其优先合并,达到了降低复杂度的目的,从而实现了提高运行速度的技术效果,进而解决了传统聚类过程中运行速度慢的技术问题。【附图说明】此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种可选的数据聚类方法的流程图;图2是根据本专利技术实施例的另一种可选的数据聚类方法的流程图;图3是根据本专利技术实施例的一种可选的数据聚类方法的示意图;图4是根据本专利技术实施例的另一种可选的数据聚类方法的示意图;图5是根据本专利技术实施例的又一种可选的数据聚类方法的示意图;图6是根据本专利技术实施例的一种可选的数据聚类装置的示意图;图本文档来自技高网...
【技术保护点】
一种数据聚类方法,其特征在于,包括:重复执行以下步骤直到完成对待聚类的样本集合中的所有样本的聚类,其中,当前待聚类样本集合的初始值为所述待聚类的样本集合中的每个样本:根据样本距离排序关系在所述当前待聚类样本集合中查找第一样本集合和/或第二样本集合,其中,所述第一样本集合和所述第二样本集合中的每个成员包含以下至少之一:样本、样本集合,其中,所述样本集合包括多个样本,所述第一样本集合中的每个成员各自形成一个阶梯簇;所述第二样本集合中的每个成员自身满足聚类条件,但与所述第二样本集合中的其他成员或者与所述第一样本集合中的成员之间不满足所述聚类条件;并行对所述第一样本集合中的每个成员和/或所述第二样本集合中的每个成员执行聚类操作,每个成员执行完成所述聚类操作后形成一个样本集合;根据所述聚类操作所得到的样本集合对所述当前待聚类样本集合中的成员进行更新。
【技术特征摘要】
1.一种数据聚类方法,其特征在于,包括:重复执行以下步骤直到完成对待聚类的样本集合中的所有样本的聚类,其中,当前待聚类样本集合的初始值为所述待聚类的样本集合中的每个样本: 根据样本距离排序关系在所述当前待聚类样本集合中查找第一样本集合和/或第二样本集合,其中,所述第一样本集合和所述第二样本集合中的每个成员包含以下至少之一:样本、样本集合,其中,所述样本集合包括多个样本,所述第一样本集合中的每个成员各自形成一个阶梯簇;所述第二样本集合中的每个成员自身满足聚类条件,但与所述第二样本集合中的其他成员或者与所述第一样本集合中的成员之间不满足所述聚类条件; 并行对所述第一样本集合中的每个成员和/或所述第二样本集合中的每个成员执行聚类操作,每个成员执行完成所述聚类操作后形成一个样本集合; 根据所述聚类操作所得到的样本集合对所述当前待聚类样本集合中的成员进行更新。2.根据权利要求1所述的方法,其特征在于,在重复执行所述步骤直到完成对待聚类的样本集合中的所有样本的聚类之前,还包括: 获取所述待聚类的样本集合中的每两个样本之间的距离; 按照所述距离的大小对所述待聚类的样本集合中的每两个样本形成的样本对进行排序,形成所述样本距离排序关系。3.根据权利要求1所述的方法,其特征在于,所述根据样本距离排序关系在所述当前待聚类样本集合中查找第一样本集合包括: 若所述当前待聚类样本集合中的多个成员满足以下条件,则将满足所述以下条件的所述多个成员记录为所述第一样本集合中的一个成员:所述当前待聚类样本集合中的所述多个成员按照所述样本距离排序`关系中记录的排序顺序依次满足所述聚类条件,且与所述当前待聚类样本集合中的其他成员不满足所述聚类条件。4.根据权利要求1所述的方法,其特征在于,所述根据样本距离排序关系在所述当前待聚类样本集合中查找第二样本集合包括: 若所述当前待聚类样本集合中的相邻两个成员满足以下条件,则将满足所述以下条件的多个成员记录为所述第二样本集合中的一个成员:所述当前待聚类样本集合中的所述相邻两个成员之间满足所述聚类条件,且与所述当前待聚类样本集合中的其他成员不满足所述聚类条件。5.根据权利要求1所述的方法,其特征在于,所述根据所述聚类操作所得到的样本集合对所述当前待聚类样本集合中的成员进行更新包括: 将所述当前待聚类样本集合中的成员更新为所述聚类操作所得到的样本集合;或者 将所述当前待聚类样本集合中除未参与所述聚类操作的成员之外的成员更新为所述聚类操作所得到的样本集合,并在更新后的所述当前待聚类样本集合中保留所述未参与所述聚类操作的成员。6.根据权利要求1至4中任一项所述的方法,其特征在于,所述聚类条件包括以下至少之一: 样本与样本之间的距离满足第一预定阈值; 样本与样本集合之间的距离满足第二预定阈值; 样本集合与样本集合之间的距离满足第三预定阈值。7.根据权利要求1至...
【专利技术属性】
技术研发人员:季铎,
申请(专利权)人:沈阳航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。