The present invention provides a method and a device for data clustering, the method includes: obtaining the set of clustered data points; one by one for each data point as the current data point performs the following clustering processing, each category: judgment has the presence of the data set from the current data point to recent data point is whether, if the clustering of data points in the current data point in the distance from the current data point to recent data point categories; otherwise, the current data point as a separate category, the end of the current clustering of data points. The present invention is not affected by the expected category of the limited number of clustering according to the actual distribution of data points, reducing the interference of human factors, improve the accuracy of clustering results, and without additional of each category is split, reducing consumption and calculation of amount of time.
【技术实现步骤摘要】
本专利技术涉及计算机应用
,特别涉及一种数据聚类方法和装置。
技术介绍
在大数据时代,如何对海量的数据进行分析和利用已经成为各服务商的重点方向之一。在进行数据分析的过程中,常常会遇到对数据进行聚类的问题,例如对用户数据进行聚类,然后利用聚类后得到的用户数据类别对用户提供更有针对性、更个性化或更人性化的服务。目前主要采用的聚类方法主要包括以下过程:首先确定聚类期望类别数K、一个聚类的最少样本数、标准偏差控制参数、类间距离控制参数、每次迭代允许合并的最大聚类对数等控制参数;然后按照预设的聚类中心对数据进行聚类;聚类完成后计算各分配的标准偏差、所有数据偏离均值的平均距离,根据预设的合并和分裂策略,对聚类得到的类进行合并和分裂;判断是否达到终止条件,如果达到终止条件,则结束聚类过程。然而,上述的聚类方法存在以下缺陷:1)由于需要预先设定聚类期望类别数K,并且该K为最小类别数,一方面K值的确定比较困难,大部分用户都不能确定什么样的K值比较合适;另一方面会造成最终的聚类结果受到人为因素的干扰,聚类结果的准确性较差。2)这种聚类方式需要进行类别的分裂,无论是计算量还是计算耗时都较大。
技术实现思路
有鉴于此,本专利技术提供了一种数据聚类的方法和装置,以便于降低人为因素的干扰,提高聚类结果的准确性。具体技术方案如下:本专利技术提供了一种数据聚类的方法,该方法包括:获取待聚类的数据点集合;逐一将各数据点作为当前数据点执行以下聚类处理,得到各类别:判断是否当前已聚类的数据点中已经存在所述数据点集合中距离当前数据点最近的数据点,如果是,则将当前数 ...
【技术保护点】
一种数据聚类的方法,其特征在于,该方法包括:获取待聚类的数据点集合;逐一将各数据点作为当前数据点执行以下聚类处理,得到各类别:判断是否当前已聚类的数据点中已经存在所述数据点集合中距离当前数据点最近的数据点,如果是,则将当前数据点归入所述距离当前数据点最近的数据点所在的类别;否则,将当前数据点单独作为一个类别,结束对当前数据点的聚类处理。
【技术特征摘要】
1.一种数据聚类的方法,其特征在于,该方法包括:获取待聚类的数据点集合;逐一将各数据点作为当前数据点执行以下聚类处理,得到各类别:判断是否当前已聚类的数据点中已经存在所述数据点集合中距离当前数据点最近的数据点,如果是,则将当前数据点归入所述距离当前数据点最近的数据点所在的类别;否则,将当前数据点单独作为一个类别,结束对当前数据点的聚类处理。2.根据权利要求2所述的方法,其特征在于,在所述将当前数据点归入所述距离当前数据点最近的数据点所在的类别之前,进一步包括:判断所述距离当前数据点最近的数据点与当前数据点是否满足突变条件,如果否,则继续执行所述将当前数据点归入所述距离当前数据点最近的数据点所在的类别的步骤;如果是,则将当前数据点单独作为一个类别,结束对当前数据点的聚类处理。3.根据权利要求2所述的方法,其特征在于,所述突变条件包括:Rx-y大于或等于突变距离;或者,Rx-y>Ry-z并且Rx-y大于或等于突变距离;其中,Rx-y为当前数据点x与距离当前数据点x最近的数据点y之间的距离,Ry-z为数据点y与距离数据点y最近的数据点z之间的距离。4.根据权利要求3所述的方法,其特征在于,所述突变距离包括:预设的经验值;或者,所述数据点集合中在预设排次的数据点距离基准点的距离;或者,所述当前数据点距离基准点的距离乘以预设比例值得到的距离。5.根据权利要求4所述的方法,其特征在于,所述预设排次包括在十分之一处的排次;所述预设比例值为十分之一。6.根据权利要求1所述的方法,其特征在于,在所述聚类处理之后,还包括:分别对各类别进行两两的合并判别,如果判别出两个类别需要进行合并,则将两个类别合并成一个类别,合并后得到的类别继续参与所述对各类别进行两两的合并判别的处理。7.根据权利要求6所述的方法,其特征在于,所述合并判别包括:判断是否如果是,则将类别a和类别b合并成一个类别;或者,判断是否并且如果是,则将类别a和类别b合并成一个类别;或者,判断是否并且如果是,则将类别a和类别b合并成一个类别;其中,所述Ra-b为类别a和类别b之间数据点的最近距离,Sa为类别a中距离类别b最近的数据点与基准点之间的距离,Sb为类别b中距离类别a最近的数据点与基准点之间的距离,max(Sa,Sb)为Sa和Sb中的最大值,h1和h2分别为类别a的中心点距离基准点的距离和类别b的中心点距离基准点的距离,max(h1,h2)为h1和h2中的最大值,k为类别a和类别b中中心点距离基准点近的类别的直径,m为类别a和类别b中中心点距离基准点远的类别中,各数据点与距离其最近的数据点之间的距离平均值,θ1、θ2和θ3分别取试验值。8.根据权利要求7所述的方法,其特征在于,所述θ1、θ2和θ3分别取0.1、0.8和0.8。9.根据权利要求1至8任一权项所述的方法,其特征在于,该方法还包括:遍历合并后得到的各类别,分别对各类别中的数据点进行异常点检测,输出检测到的异常点。10.根据权利要求9所述的方法,其特征在于,所述异常点检测包括:判断类别中的数据点数量是否小于或等于最小数量阈值,如果是,则确定该类别中的数据点为异常点;或者,如果某类别与其他各类别间的距离均大于或等于距离阈值,则确定所述某类别中的数据点为异常点。11.根据权利要求1至8任一权项所述的方法,其特征在于,所述待聚类的数据点为用户数据点,各用户数据点之间的距离为各用户数据点对应的特征向量的距离。12.根据权利要求1至8任一权项所述的方法,其特征在于,将种子用户作为待聚类的数据点,执行所述数据聚类的方法,得到至少一个类别;从得到的至少一个类别中确定目标类别;将待挖掘用户作为待聚类的数据点,在所述至少一个类别的基础上继续执行所述数据聚类的方法;将归入所述目标类别的待挖掘用户确定为潜在用户;其中各数据点之间的距离为各用户对应的特征向量的距离。13.一种数据聚类的装置,其特征在于,该装置包括:获取单元,用于获取待聚类的数据点集合;聚类单元,用于逐一将各数据点作为当前数据点当前数据点执行以下聚类处理,得...
【专利技术属性】
技术研发人员:兰红云,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。