一种数据聚类方法和装置制造方法及图纸

技术编号:15273010 阅读:88 留言:0更新日期:2017-05-04 13:06
本发明专利技术提供了一种数据聚类的方法和装置,其中方法包括:获取待聚类的数据点集合;逐一将各数据点作为当前数据点执行以下聚类处理,得到各类别:判断是否当前已聚类的数据点中已经存在所述数据点集合中距离当前数据点最近的数据点,如果是,则将当前数据点归入所述距离当前数据点最近的数据点所在的类别;否则,将当前数据点单独作为一个类别,结束对当前数据点的聚类处理。本发明专利技术不受期望类别个数的限制,根据数据点的实际分布状况进行聚类,降低了人为因素的干扰,提高了聚类结果的准确性,另外无需额外对各类别进行分裂处理,降低了计算量的消耗和计算耗时。

Data clustering method and device

The present invention provides a method and a device for data clustering, the method includes: obtaining the set of clustered data points; one by one for each data point as the current data point performs the following clustering processing, each category: judgment has the presence of the data set from the current data point to recent data point is whether, if the clustering of data points in the current data point in the distance from the current data point to recent data point categories; otherwise, the current data point as a separate category, the end of the current clustering of data points. The present invention is not affected by the expected category of the limited number of clustering according to the actual distribution of data points, reducing the interference of human factors, improve the accuracy of clustering results, and without additional of each category is split, reducing consumption and calculation of amount of time.

【技术实现步骤摘要】

本专利技术涉及计算机应用
,特别涉及一种数据聚类方法和装置
技术介绍
在大数据时代,如何对海量的数据进行分析和利用已经成为各服务商的重点方向之一。在进行数据分析的过程中,常常会遇到对数据进行聚类的问题,例如对用户数据进行聚类,然后利用聚类后得到的用户数据类别对用户提供更有针对性、更个性化或更人性化的服务。目前主要采用的聚类方法主要包括以下过程:首先确定聚类期望类别数K、一个聚类的最少样本数、标准偏差控制参数、类间距离控制参数、每次迭代允许合并的最大聚类对数等控制参数;然后按照预设的聚类中心对数据进行聚类;聚类完成后计算各分配的标准偏差、所有数据偏离均值的平均距离,根据预设的合并和分裂策略,对聚类得到的类进行合并和分裂;判断是否达到终止条件,如果达到终止条件,则结束聚类过程。然而,上述的聚类方法存在以下缺陷:1)由于需要预先设定聚类期望类别数K,并且该K为最小类别数,一方面K值的确定比较困难,大部分用户都不能确定什么样的K值比较合适;另一方面会造成最终的聚类结果受到人为因素的干扰,聚类结果的准确性较差。2)这种聚类方式需要进行类别的分裂,无论是计算量还是计算耗时都较大。
技术实现思路
有鉴于此,本专利技术提供了一种数据聚类的方法和装置,以便于降低人为因素的干扰,提高聚类结果的准确性。具体技术方案如下:本专利技术提供了一种数据聚类的方法,该方法包括:获取待聚类的数据点集合;逐一将各数据点作为当前数据点执行以下聚类处理,得到各类别:判断是否当前已聚类的数据点中已经存在所述数据点集合中距离当前数据点最近的数据点,如果是,则将当前数据点归入所述距离当前数据点最近的数据点所在的类别;否则,将当前数据点单独作为一个类别,结束对当前数据点的聚类处理。根据本专利技术一优选实施方式,在所述将当前数据点归入所述距离当前数据点最近的数据点所在的类别之前,进一步包括:判断所述距离当前数据点最近的数据点与当前数据点是否满足突变条件,如果否,则继续执行所述将当前数据点归入所述距离当前数据点最近的数据点所在的类别的步骤;如果是,则将当前数据点单独作为一个类别,结束对当前数据点的聚类处理。根据本专利技术一优选实施方式,所述突变条件包括:Rx-y大于或等于突变距离;或者,Rx-y>Ry-z并且Rx-y大于或等于突变距离;其中,Rx-y为当前数据点x与距离当前数据点x最近的数据点y之间的距离,Ry-z为数据点y与距离数据点y最近的数据点z之间的距离。根据本专利技术一优选实施方式,所述突变距离包括:预设的经验值;或者,所述数据点集合中在预设排次的数据点距离基准点的距离;或者,所述当前数据点距离基准点的距离乘以预设比例值得到的距离。根据本专利技术一优选实施方式,所述预设排次包括在十分之一处的排次;所述预设比例值为十分之一。根据本专利技术一优选实施方式,在所述聚类处理之后,还包括:分别对各类别进行两两的合并判别,如果判别出两个类别需要进行合并,则将两个类别合并成一个类别,合并后得到的类别继续参与所述对各类别进行两两的合并判别的处理。根据本专利技术一优选实施方式,所述合并判别包括:判断是否如果是,则将类别a和类别b合并成一个类别;或者,判断是否并且如果是,则将类别a和类别b合并成一个类别;或者,判断是否并且如果是,则将类别a和类别b合并成一个类别;其中,所述Ra-b为类别a和类别b之间数据点的最近距离,Sa为类别a中距离类别b最近的数据点与基准点之间的距离,Sb为类别b中距离类别a最近的数据点与基准点之间的距离,max(Sa,Sb)为Sa和Sb中的最大值,h1和h2分别为类别a的中心点距离基准点的距离和类别b的中心点距离基准点的距离,max(h1,h2)为h1和h2中的最大值,k为类别a和类别b中中心点距离基准点近的类别的直径,m为类别a和类别b中中心点距离基准点远的类别中,各数据点与距离其最近的数据点之间的距离平均值,θ1、θ2和θ3分别取试验值。根据本专利技术一优选实施方式,所述θ1、θ2和θ3分别取0.1、0.8和0.8。根据本专利技术一优选实施方式,该方法还包括:遍历合并后得到的各类别,分别对各类别中的数据点进行异常点检测,输出检测到的异常点。根据本专利技术一优选实施方式,所述异常点检测包括:判断类别中的数据点数量是否小于或等于最小数量阈值,如果是,则确定该类别中的数据点为异常点;或者,如果某类别与其他各类别间的距离均大于或等于距离阈值,则确定所述某类别中的数据点为异常点。根据本专利技术一优选实施方式,所述待聚类的数据点为用户数据点,各用户数据点之间的距离为各用户数据点对应的特征向量的距离。根据本专利技术一优选实施方式,将种子用户作为待聚类的数据点,执行所述数据聚类的方法,得到至少一个类别;从得到的至少一个类别中确定目标类别;将待挖掘用户作为待聚类的数据点,在所述至少一个类别的基础上继续执行所述数据聚类的方法;将归入所述目标类别的待挖掘用户确定为潜在用户;其中各数据点之间的距离为各用户对应的特征向量的距离。本专利技术还提供了一种数据聚类的装置,该装置包括:获取单元,用于获取待聚类的数据点集合;聚类单元,用于逐一将各数据点作为当前数据点当前数据点执行以下聚类处理,得到各类别:判断是否当前已聚类的数据点中已经存在所述数据点集合中距离当前数据点最近的数据点,如果是,则将当前数据点归入所述距离当前数据点最近的数据点所在的类别;否则,将当前数据点单独作为一个类别,结束对当前数据点的聚类处理。根据本专利技术一优选实施方式,所述聚类单元具体包括:第一判断子单元,用于判断是否当前已聚类的数据点中已经存在所述数据点集合中距离当前数据点最近的数据点;第二判断子单元,用于在所述第一判断子单元的判断结果为是时,判断所述距离当前数据点最近的数据点与当前数据点是否满足突变条件;分类子单元,用于在所述第二判断子单元的判断结果为是时,将当前数据点归入所述距离当前数据点最近的数据点所在的类别;在所述第一判断子单元的判断结果为否,或者所述第二判断子单元的判断结果为否时,将当前数据点单独作为一个类别。根据本专利技术一优选实施方式,所述突变条件包括:Rx-y大于或等于突变距离;或者,Rx-y>Ry-z并且Rx-y大于或等于突变距离;其中,Rx-y为当前数据点x与距离当前数据点x最近的数据点y之间的距离,Ry-z为数据点y与距离数据点y最近的数据点z之间的距离。根据本专利技术一优选实施方式,所述突变距离包括:预设的经验值;或者,所述数据点集合中在预设排次的数据点距离基准点的距离;或者,所述当前数据点距离基准点的距离乘以预设比例值得到的距离。根据本专利技术一优选实施方式,所述预设排次包括在十分之一处的排次;所述预设比例值为十分之一。根据本专利技术一优选实施方式,该装置还包括:合并单元,用于分别对所述聚类单元得到的各类别进行两两的合并判别,如果判别出两个类别需要进行合并,则将两个类别合并成一个类别,合并后得到的类别继续参与所述对各类别进行两两的合并判别的处理。根据本专利技术一优选实施方式,所述合并单元,具体用于:判断是否如果是,则将类别a和类别b合并成一个类别;或者,判断是否并且如果是,则将类别a和类别b合并成一个类别;或者,判断是否并且如果是,则将类别a和类别b合并成一个类别;其中,所本文档来自技高网...
一种数据聚类方法和装置

【技术保护点】
一种数据聚类的方法,其特征在于,该方法包括:获取待聚类的数据点集合;逐一将各数据点作为当前数据点执行以下聚类处理,得到各类别:判断是否当前已聚类的数据点中已经存在所述数据点集合中距离当前数据点最近的数据点,如果是,则将当前数据点归入所述距离当前数据点最近的数据点所在的类别;否则,将当前数据点单独作为一个类别,结束对当前数据点的聚类处理。

【技术特征摘要】
1.一种数据聚类的方法,其特征在于,该方法包括:获取待聚类的数据点集合;逐一将各数据点作为当前数据点执行以下聚类处理,得到各类别:判断是否当前已聚类的数据点中已经存在所述数据点集合中距离当前数据点最近的数据点,如果是,则将当前数据点归入所述距离当前数据点最近的数据点所在的类别;否则,将当前数据点单独作为一个类别,结束对当前数据点的聚类处理。2.根据权利要求2所述的方法,其特征在于,在所述将当前数据点归入所述距离当前数据点最近的数据点所在的类别之前,进一步包括:判断所述距离当前数据点最近的数据点与当前数据点是否满足突变条件,如果否,则继续执行所述将当前数据点归入所述距离当前数据点最近的数据点所在的类别的步骤;如果是,则将当前数据点单独作为一个类别,结束对当前数据点的聚类处理。3.根据权利要求2所述的方法,其特征在于,所述突变条件包括:Rx-y大于或等于突变距离;或者,Rx-y>Ry-z并且Rx-y大于或等于突变距离;其中,Rx-y为当前数据点x与距离当前数据点x最近的数据点y之间的距离,Ry-z为数据点y与距离数据点y最近的数据点z之间的距离。4.根据权利要求3所述的方法,其特征在于,所述突变距离包括:预设的经验值;或者,所述数据点集合中在预设排次的数据点距离基准点的距离;或者,所述当前数据点距离基准点的距离乘以预设比例值得到的距离。5.根据权利要求4所述的方法,其特征在于,所述预设排次包括在十分之一处的排次;所述预设比例值为十分之一。6.根据权利要求1所述的方法,其特征在于,在所述聚类处理之后,还包括:分别对各类别进行两两的合并判别,如果判别出两个类别需要进行合并,则将两个类别合并成一个类别,合并后得到的类别继续参与所述对各类别进行两两的合并判别的处理。7.根据权利要求6所述的方法,其特征在于,所述合并判别包括:判断是否如果是,则将类别a和类别b合并成一个类别;或者,判断是否并且如果是,则将类别a和类别b合并成一个类别;或者,判断是否并且如果是,则将类别a和类别b合并成一个类别;其中,所述Ra-b为类别a和类别b之间数据点的最近距离,Sa为类别a中距离类别b最近的数据点与基准点之间的距离,Sb为类别b中距离类别a最近的数据点与基准点之间的距离,max(Sa,Sb)为Sa和Sb中的最大值,h1和h2分别为类别a的中心点距离基准点的距离和类别b的中心点距离基准点的距离,max(h1,h2)为h1和h2中的最大值,k为类别a和类别b中中心点距离基准点近的类别的直径,m为类别a和类别b中中心点距离基准点远的类别中,各数据点与距离其最近的数据点之间的距离平均值,θ1、θ2和θ3分别取试验值。8.根据权利要求7所述的方法,其特征在于,所述θ1、θ2和θ3分别取0.1、0.8和0.8。9.根据权利要求1至8任一权项所述的方法,其特征在于,该方法还包括:遍历合并后得到的各类别,分别对各类别中的数据点进行异常点检测,输出检测到的异常点。10.根据权利要求9所述的方法,其特征在于,所述异常点检测包括:判断类别中的数据点数量是否小于或等于最小数量阈值,如果是,则确定该类别中的数据点为异常点;或者,如果某类别与其他各类别间的距离均大于或等于距离阈值,则确定所述某类别中的数据点为异常点。11.根据权利要求1至8任一权项所述的方法,其特征在于,所述待聚类的数据点为用户数据点,各用户数据点之间的距离为各用户数据点对应的特征向量的距离。12.根据权利要求1至8任一权项所述的方法,其特征在于,将种子用户作为待聚类的数据点,执行所述数据聚类的方法,得到至少一个类别;从得到的至少一个类别中确定目标类别;将待挖掘用户作为待聚类的数据点,在所述至少一个类别的基础上继续执行所述数据聚类的方法;将归入所述目标类别的待挖掘用户确定为潜在用户;其中各数据点之间的距离为各用户对应的特征向量的距离。13.一种数据聚类的装置,其特征在于,该装置包括:获取单元,用于获取待聚类的数据点集合;聚类单元,用于逐一将各数据点作为当前数据点当前数据点执行以下聚类处理,得...

【专利技术属性】
技术研发人员:兰红云
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1