一种基于密度峰值的混合属性数据聚类方法技术

技术编号：16102472 阅读：26 留言：0更新日期：2017-08-29 22:49

本发明专利技术实施例公开了一种基于密度峰值的混合属性数据聚类方法，包括获取待聚类混合属性数据集，并计算出待聚类混合属性数据集中每两个数据点之间的距离以及截断距离；根据每两个数据点之间的距离及截断距离，得到每一个数据点的局部密度，并计算出相对距离；定义由每一个数据点的局部密度及其相对距离形成的γ参数曲线，得到γ参数值；根据每一个数据点的序号、γ参数值及相对距离，构建拐点索引矩阵，并采用预设的双拐点算法得到聚类中心点；根据聚类中心点，实现待聚类混合属性数据集聚类结果的表示和输出。本发明专利技术实施例，比传统的k‑prototypes算法聚类效果好、算法效率高且能够自动发现聚类数目，对离群点的影响不敏感。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于密度峰值的混合属性数据聚类方法
本专利技术涉及计算机数据挖掘及处理
，尤其涉及一种基于密度峰值的混合属性数据聚类方法。
技术介绍
聚类分析一直是数据挖掘和机器学习领域中的研究热点之一，随着大数据时代的发展，各类数据层出不穷，其中大部分是同时具有数值和分类等多种属性类型的数据，传统的聚类算法如K-Means等主要是针对数值属性数据的聚类算法。为了处理混合属性数据聚类问题，研究人员提出了各种各样的解决方案，按其处理思路可主要分为传统的类型转换方法、聚类融合方法、基于原型的方法和基于密度的方法、基于层次的方法等。类型转换的方法就是将其他属性转换为某种属性再进行聚类，如David和Averbuch提出的SpectralCAT算法，这个方法首先把数值属性转换成分类属性，然后使用谱聚类方法处理转换后的数据。聚类融合的思想是采用多种算法对一组对象进行划分，将不同算法得出的结果采用共识函数加以合并以得出最终的聚类结果。其最早由A.Strehl和J.Ghosh于2002年提出，随后成为混合属性聚类的主流方法之一。赵宇等提出了一种基于聚类融合的混合属性聚类算法CEMC，将聚类融合的方法体系引入混合属性数据聚类问题中。He等提出了基于聚类融合和Squeezer算法的混合属性聚类算法CEBMDC，该算法针对分类属性子集聚类和最后的聚类融合都采用了Squeezer算法进行。Huang于1997年提出的k-prototypes(k原型)算法，该算法采用k-means算法的基本思想，将数值属性的聚类中心和分类属性的模式组合起来，构建了一个新的混合属性数据中心即原型(pro...
一种基于密度峰值的混合属性数据聚类方法

【技术保护点】
一种基于密度峰值的混合属性数据聚类方法，其特征在于，所述方法包括：S1、获取待聚类混合属性数据集，并根据所述待聚类混合属性数据集，计算出所述待聚类混合属性数据集中每两个数据点之间的距离，以及计算出所述待聚类混合属性数据集的截断距离；S2、根据所述计算出的待聚类混合属性数据集中每两个数据点之间的距离以及所述计算出的截断距离，得到所述待聚类混合属性数据集中每一个数据点的局部密度，并进一步根据所述得到的待聚类混合属性数据集中每一个数据点的局部密度，计算出所述待聚类混合属性数据集中每一个数据点的相对距离；S3、定义由所述待聚类混合属性数据集中每一个数据点的局部密度及其对应的相对距离形成的γ参数曲线，并确定所述待聚类混合属性数据集中每一个数据点的γ参数值；S4、根据所述待聚类混合属性数据集中每一个数据点的序号、γ参数值及相对距离，构建拐点索引矩阵，并采用预设的双拐点算法对所述构建的拐点索引矩阵求解，得到所述待聚类混合属性数据集的聚类中心点；S5、根据所述得到的待聚类混合属性数据集的聚类中心点，实现所述待聚类混合属性数据集聚类结果的表示和输出；其中，所述待聚类混合属性数据集中除所述得到的聚类中心点...

【技术特征摘要】
1.一种基于密度峰值的混合属性数据聚类方法，其特征在于，所述方法包括：S1、获取待聚类混合属性数据集，并根据所述待聚类混合属性数据集，计算出所述待聚类混合属性数据集中每两个数据点之间的距离，以及计算出所述待聚类混合属性数据集的截断距离；S2、根据所述计算出的待聚类混合属性数据集中每两个数据点之间的距离以及所述计算出的截断距离，得到所述待聚类混合属性数据集中每一个数据点的局部密度，并进一步根据所述得到的待聚类混合属性数据集中每一个数据点的局部密度，计算出所述待聚类混合属性数据集中每一个数据点的相对距离；S3、定义由所述待聚类混合属性数据集中每一个数据点的局部密度及其对应的相对距离形成的γ参数曲线，并确定所述待聚类混合属性数据集中每一个数据点的γ参数值；S4、根据所述待聚类混合属性数据集中每一个数据点的序号、γ参数值及相对距离，构建拐点索引矩阵，并采用预设的双拐点算法对所述构建的拐点索引矩阵求解，得到所述待聚类混合属性数据集的聚类中心点；S5、根据所述得到的待聚类混合属性数据集的聚类中心点，实现所述待聚类混合属性数据集聚类结果的表示和输出；其中，所述待聚类混合属性数据集中除所述得到的聚类中心点之外的数据点将被分配到近邻局部密度最高的聚簇中，完成聚类结果的表示和输出。2.如权利要求1所述的基于密度峰值的混合属性数据聚类方法，其特征在于，所述待聚类混合属性数据集中每两个数据点之间的距离是通过公式D(Xi,Xj)＝d(Xi,Xj)r+d(Xi,Xj)c来实现；其中，d(Xi,Xj)r表示待聚类混合属性数据集中数值属性部分的距离，d(Xi,Xj)c表示待聚类混合属性数据集中分类属性部分的距离；其中，d(Xi,Xj)r是通过公式来实现；其中，表示数据点Xi和Xj的数值部分属性归一化后的欧氏距离，且距离值d(Xi,Xj)r在[0,1]区间；其中，d(Xi,Xj)c是通过公式来实现；其中...

【专利技术属性】
技术研发人员：刘世华，叶展翔，周炳忠，张浩，
申请(专利权)人：温州职业技术学院，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人