一种基于密度峰值的混合属性数据聚类方法技术

技术编号:16102472 阅读:26 留言:0更新日期:2017-08-29 22:49
本发明专利技术实施例公开了一种基于密度峰值的混合属性数据聚类方法,包括获取待聚类混合属性数据集,并计算出待聚类混合属性数据集中每两个数据点之间的距离以及截断距离;根据每两个数据点之间的距离及截断距离,得到每一个数据点的局部密度,并计算出相对距离;定义由每一个数据点的局部密度及其相对距离形成的γ参数曲线,得到γ参数值;根据每一个数据点的序号、γ参数值及相对距离,构建拐点索引矩阵,并采用预设的双拐点算法得到聚类中心点;根据聚类中心点,实现待聚类混合属性数据集聚类结果的表示和输出。本发明专利技术实施例,比传统的k‑prototypes算法聚类效果好、算法效率高且能够自动发现聚类数目,对离群点的影响不敏感。

【技术实现步骤摘要】
一种基于密度峰值的混合属性数据聚类方法
本专利技术涉及计算机数据挖掘及处理
,尤其涉及一种基于密度峰值的混合属性数据聚类方法。
技术介绍
聚类分析一直是数据挖掘和机器学习领域中的研究热点之一,随着大数据时代的发展,各类数据层出不穷,其中大部分是同时具有数值和分类等多种属性类型的数据,传统的聚类算法如K-Means等主要是针对数值属性数据的聚类算法。为了处理混合属性数据聚类问题,研究人员提出了各种各样的解决方案,按其处理思路可主要分为传统的类型转换方法、聚类融合方法、基于原型的方法和基于密度的方法、基于层次的方法等。类型转换的方法就是将其他属性转换为某种属性再进行聚类,如David和Averbuch提出的SpectralCAT算法,这个方法首先把数值属性转换成分类属性,然后使用谱聚类方法处理转换后的数据。聚类融合的思想是采用多种算法对一组对象进行划分,将不同算法得出的结果采用共识函数加以合并以得出最终的聚类结果。其最早由A.Strehl和J.Ghosh于2002年提出,随后成为混合属性聚类的主流方法之一。赵宇等提出了一种基于聚类融合的混合属性聚类算法CEMC,将聚类融合的方法体系引入混合属性数据聚类问题中。He等提出了基于聚类融合和Squeezer算法的混合属性聚类算法CEBMDC,该算法针对分类属性子集聚类和最后的聚类融合都采用了Squeezer算法进行。Huang于1997年提出的k-prototypes(k原型)算法,该算法采用k-means算法的基本思想,将数值属性的聚类中心和分类属性的模式组合起来,构建了一个新的混合属性数据中心即原型(prototype),并以原型为基础构建了一个针对混合属性数据的距离度量公式和代价函数,采用k-means算法类似的聚类过程直接对混合属性进行聚类。基于原型的算法思想简单,效率高,其关键是在于数据元组之间的距离度量公式的定义。Yiu-mingCheung等提出了一种统一相似性度量(unifiedsimilaritymetric)方法,将数值属性部分的距离度量进行归一化处理,使相似性度量的值约束在[0,1]区间,然后将各分类属性的相似性度量分别赋予权重并进行归一化处理,最后获得一个统一的距离度量公式。基于此公式,他们提出了一种迭代算法OCIL来对混合属性数据进行聚类,同时,通过引入竞争和惩罚机制,对OCIL进行了进一步的改进,提出了能够自动判别聚类数目的混合属性聚类算法(PCL-OC)。他们将OCIL算法与k-prototypes算法进行了实验比较,其聚类精度有较大提高,但其统一度量值的计算复杂度较高。Li和Biswas提出了SBAC(SimilarityBasedAgglomerativeClustering)算法[i],这是基于Goodall相似度的凝聚层次聚类算法,该方法效果不错,但计算复杂度高于O(n2*logn)。黄德才等提出的RDBC_M算法采用了面向维度的距离公式,对每一维单独计算距离,对数值属性采用欧氏距离,对分类属性则通过专家打分的方式为该属性不同值之间的相似性定义一个距离矩阵来衡量维度距离,其构建需要人工打分。陈晋音等提出的MDCDen算法和DC-MDACC算法均是将混合属性数据分为数值占优、分类占优和均衡型混合属性数据三类,然后针对每一类定义不同的距离度量函数。它们需要先对数据集进行占优分析。上述基于原型的方法仍存在需要确定聚类个数、对簇中心的选取敏感、不能发现任意形状的簇以及对异常点比较敏感等缺点;基于层次的方法存在时间和空间复杂度较高、聚类过程不可逆的缺点;RDBC_M算法中的分类属性的相似度度量需要领域专家的评价赋值;MDCDen算法需要调节三个参数来获得较佳结果。2014年,AlexRodriguez和AlessandroLaio在《Science》杂志上发表了一种快速搜索和发现密度峰值的聚类算法(本文简称DPC算法)。该算法聚类效果好、效率高、参数少,能够发现聚类数目,并能够对不同形状的数据进行聚类,自动识别离群点。DPC算法的输入是数据点间的距离矩阵,只要解决混合属性数据的数据点间的距离度量问题,就可以直接应用该算法进行聚类分析,但目前尚未查询到其他采用DPC算法对混合属性数据进行聚类的研究报告。因此,亟需一种合理的混合属性数据点距离计算方法和处理混合属性数据的聚类方法,比传统的k-prototypes算法聚类效果好、算法效率高且能够自动发现聚类数目,对离群点的影响不敏感。
技术实现思路
本专利技术实施例的目的在于提供一种基于密度峰值的混合属性数据聚类方法,比传统的k-prototypes算法聚类效果好、算法效率高且能够自动发现聚类数目,对离群点的影响不敏感。为了解决上述技术问题,本专利技术实施例提供了一种基于密度峰值的混合属性数据聚类方法,所述方法包括:S1、获取待聚类混合属性数据集,并根据所述待聚类混合属性数据集,计算出所述待聚类混合属性数据集中每两个数据点之间的距离,以及计算出所述待聚类混合属性数据集的截断距离;S2、根据所述计算出的待聚类混合属性数据集中每两个数据点之间的距离以及所述计算出的截断距离,得到所述待聚类混合属性数据集中每一个数据点的局部密度,并进一步根据所述得到的待聚类混合属性数据集中每一个数据点的局部密度,计算出所述待聚类混合属性数据集中每一个数据点的相对距离;S3、定义由所述待聚类混合属性数据集中每一个数据点的局部密度及其对应的相对距离形成的γ参数曲线,并确定所述待聚类混合属性数据集中每一个数据点的γ参数值;S4、根据所述待聚类混合属性数据集中每一个数据点的序号、γ参数值及相对距离,构建拐点索引矩阵,并采用预设的双拐点算法对所述构建的拐点索引矩阵求解,得到所述待聚类混合属性数据集的聚类中心点;S5、根据所述得到的待聚类混合属性数据集的聚类中心点,实现所述待聚类混合属性数据集聚类结果的表示和输出;其中,所述待聚类混合属性数据集中除所述得到的聚类中心点之外的数据点将被分配到近邻局部密度最高的聚簇中,完成聚类结果的表示和输出。其中,所述待聚类混合属性数据集中每两个数据点之间的距离是通过公式D(Xi,Xj)=d(Xi,Xj)r+d(Xi,Xj)c来实现;其中,d(Xi,Xj)r表示待聚类混合属性数据集中数值属性部分的距离,d(Xi,Xj)c表示待聚类混合属性数据集中分类属性部分的距离;其中,d(Xi,Xj)r是通过公式来实现;其中,表示数据点Xi和Xj的数值部分属性归一化后的欧氏距离,且距离值d(Xi,Xj)r在[0,1]区间;其中,d(Xi,Xj)c是通过公式来实现;其中,为数据点Xi和Xj在第t维分类属性上的匹配距离;为第t维分类属性上的熵权,其中,p(ats)为第t维分类属性上的分类值的总个数为mt时,第s(s=1,2,...,mt)个值出现的概率。其中,所述待聚类混合属性数据集中每一个数据点的γ参数值是通过公式γi=ρi×δi而获得的;其中,γi为第i个数据点的γ参数值;ρi为第i个数据点的局部密度;δi为第i个数据点的相对距离。其中,所述步骤S4具体包括:确定所述待聚类混合属性数据集中每一个数据点的序号、γ参数值及相对距离,并进一步分别形成序号集合、γ参数值集合及相对距离集合;其中,序号集合I=[1,本文档来自技高网
...
一种基于密度峰值的混合属性数据聚类方法

【技术保护点】
一种基于密度峰值的混合属性数据聚类方法,其特征在于,所述方法包括:S1、获取待聚类混合属性数据集,并根据所述待聚类混合属性数据集,计算出所述待聚类混合属性数据集中每两个数据点之间的距离,以及计算出所述待聚类混合属性数据集的截断距离;S2、根据所述计算出的待聚类混合属性数据集中每两个数据点之间的距离以及所述计算出的截断距离,得到所述待聚类混合属性数据集中每一个数据点的局部密度,并进一步根据所述得到的待聚类混合属性数据集中每一个数据点的局部密度,计算出所述待聚类混合属性数据集中每一个数据点的相对距离;S3、定义由所述待聚类混合属性数据集中每一个数据点的局部密度及其对应的相对距离形成的γ参数曲线,并确定所述待聚类混合属性数据集中每一个数据点的γ参数值;S4、根据所述待聚类混合属性数据集中每一个数据点的序号、γ参数值及相对距离,构建拐点索引矩阵,并采用预设的双拐点算法对所述构建的拐点索引矩阵求解,得到所述待聚类混合属性数据集的聚类中心点;S5、根据所述得到的待聚类混合属性数据集的聚类中心点,实现所述待聚类混合属性数据集聚类结果的表示和输出;其中,所述待聚类混合属性数据集中除所述得到的聚类中心点之外的数据点将被分配到近邻局部密度最高的聚簇中,完成聚类结果的表示和输出。...

【技术特征摘要】
1.一种基于密度峰值的混合属性数据聚类方法,其特征在于,所述方法包括:S1、获取待聚类混合属性数据集,并根据所述待聚类混合属性数据集,计算出所述待聚类混合属性数据集中每两个数据点之间的距离,以及计算出所述待聚类混合属性数据集的截断距离;S2、根据所述计算出的待聚类混合属性数据集中每两个数据点之间的距离以及所述计算出的截断距离,得到所述待聚类混合属性数据集中每一个数据点的局部密度,并进一步根据所述得到的待聚类混合属性数据集中每一个数据点的局部密度,计算出所述待聚类混合属性数据集中每一个数据点的相对距离;S3、定义由所述待聚类混合属性数据集中每一个数据点的局部密度及其对应的相对距离形成的γ参数曲线,并确定所述待聚类混合属性数据集中每一个数据点的γ参数值;S4、根据所述待聚类混合属性数据集中每一个数据点的序号、γ参数值及相对距离,构建拐点索引矩阵,并采用预设的双拐点算法对所述构建的拐点索引矩阵求解,得到所述待聚类混合属性数据集的聚类中心点;S5、根据所述得到的待聚类混合属性数据集的聚类中心点,实现所述待聚类混合属性数据集聚类结果的表示和输出;其中,所述待聚类混合属性数据集中除所述得到的聚类中心点之外的数据点将被分配到近邻局部密度最高的聚簇中,完成聚类结果的表示和输出。2.如权利要求1所述的基于密度峰值的混合属性数据聚类方法,其特征在于,所述待聚类混合属性数据集中每两个数据点之间的距离是通过公式D(Xi,Xj)=d(Xi,Xj)r+d(Xi,Xj)c来实现;其中,d(Xi,Xj)r表示待聚类混合属性数据集中数值属性部分的距离,d(Xi,Xj)c表示待聚类混合属性数据集中分类属性部分的距离;其中,d(Xi,Xj)r是通过公式来实现;其中,表示数据点Xi和Xj的数值部分属性归一化后的欧氏距离,且距离值d(Xi,Xj)r在[0,1]区间;其中,d(Xi,Xj)c是通过公式来实现;其中...

【专利技术属性】
技术研发人员:刘世华叶展翔周炳忠张浩
申请(专利权)人:温州职业技术学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1