【技术实现步骤摘要】
本专利技术涉及一种数据聚类方法,尤其是涉及一种基于网格快速搜寻密度峰值的数据聚类方法。
技术介绍
聚类分析是数据挖掘的一个重要方法,广泛应用于文本处理、Web搜索等多领域。其中比较典型的有k-means和DBSCAN算法,K-means算法将数据点划分到距离最近的中心点进行聚类,该类算法很难将非球形数据集聚类,DBSCAN算法可以对任意形状的数据集进行聚类,但须指定一个密度阈值,从而可以去除噪声点。基于密度峰值的空间聚类算法ClusteringbyFastSearchandFindofDensityPeaks(简称CFSFDP),用于发现被低密度区域分离的高密度区域。与K-means算法相比,CFSFDP可自动获取类的个数,且算法的复杂度相对较低。与DBSCAN算法相比,CFSFDP可在噪声环境下聚类任意形状数据集且实现简单速度快。但同样也存在如下缺点:(1)算法使用全局密度阈值,并没有考虑数据空间的分布特性,所以当数据密度和类间距分布不均匀时,聚类质量不高;(2)当一个类中存在多密度峰值时,CFSFDP算法虽然对数据点按密度值降序进行排序,但聚类效果并不理想。
技术实现思路
针对现有技术的不足,本专利技术的目的是提供一种基于网格快速搜寻密度峰值的数据聚类方法,解决了原CFSFDP算法中使用全局密度阈值,当数据密度和类间距分布不均匀时,聚类质量不高的问题。本专利技术技术方案如下:一种基于网格快速搜寻密度峰值的数据聚类方法,依次包括以下步骤,步骤1:读取数据库中数据,进行数据预处理形成待聚类数据集;步骤2:计算单个网格单元的边长side,以及每维区间数,根据计 ...
【技术保护点】
一种基于网格快速搜寻密度峰值的数据聚类方法,其特征在于,依次包括以下步骤,步骤1:读取数据库中数据,进行数据预处理形成待聚类数据集;步骤2:计算单个网格单元的边长side,以及每维区间数,根据计算结果,对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格单元;步骤3:对数据点进行映射,映射至对应的网格单元中,获取每维上对应的下标;步骤4:对每一网格单元,计算其包含的数据点数,考察任一网格单元P相邻的网格单元,与相邻网格单元比较密度大小,并向密度大于网格单元P的网格单元进行扩展,得到网格单元合集,形成数据分区;步骤5:计算各数据分区中各数据点xi的局部密度ρi和距离δi并确定密度阈值dc,根据决策图确定聚类中心及其个数;步骤6:对非聚类中心的数据点进行归类,根据密度阈值dc确定各类的核心区域和边界区域,并指定边界区域中最高点密度值ρb作为去除噪声点的阈值;步骤7:假设边界点p的dc邻域中包含的核心点同属于一个聚类中,则把该点p直接划分到包含这些核心点的簇中;假设边界点p同时落在几个分属于不同簇的核心点的dc邻域内,那么就把该边界点划入距离最近的簇中;步骤8:计算类间相似度,合 ...
【技术特征摘要】
1.一种基于网格快速搜寻密度峰值的数据聚类方法,其特征在于,依次包括以下步骤,步骤1:读取数据库中数据,进行数据预处理形成待聚类数据集;步骤2:计算单个网格单元的边长side,以及每维区间数,根据计算结果,对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格单元;步骤3:对数据点进行映射,映射至对应的网格单元中,获取每维上对应的下标;步骤4:对每一网格单元,计算其包含的数据点数,考察任一网格单元P相邻的网格单元,与相邻网格单元比较密度大小,并向密度大于网格单元P的网格单元进行扩展,得到网格单元合集,形成数据分区;步骤5:计算各数据分区中各数据点xi的局部密度ρi和距离δi并...
【专利技术属性】
技术研发人员:张明新,孙昊,郑金龙,戴娇,彭颖,王子清,
申请(专利权)人:常熟理工学院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。