一种密度自适应的快速聚类方法技术

技术编号:24577818 阅读:20 留言:0更新日期:2020-06-21 00:38
本发明专利技术提供了一种密度自适应的快速聚类方法。首先,利用近似近邻算法得到每个样本的近邻样本,并计算得到近邻距离矩阵;然后,对每个样本计算其与各个近邻样本的相似度;接着,给样本及其近邻样本的相似度加以自适应的权重;最后,设定阈值,若两个样本间的相似度大于该阈值则归为一类,对所有样本进行判断后,得到最终的聚类结果。本发明专利技术方法既能够保留谱聚类可处理非线性可分数据的良好性质,又能够极大地降低大规模谱聚类任务的时间复杂度和空间复杂度。

A fast clustering method of density adaptive

【技术实现步骤摘要】
一种密度自适应的快速聚类方法
本专利技术属机器学习与数据挖掘
,具体涉及一种密度自适应的快速聚类方法。
技术介绍
随着网络的普及,收集人们的行为数据变得十分方便,且所收集的数据规模也在持续性增长。因此,对大规模的数据进行分析利用是十分必要的。无监督学习中的聚类算法是数据分析中应用最为广泛的技术之一,它致力于将样本划分为多个簇,每个簇内的样本具有很大的相似度,而不同簇间的样本相似度很小。由于聚类算法通常不需要监督信息,因此广泛应用于学术界和工业界很多涉及无标签数据的应用中,包括计算机科学、社会科学和医学等。在各种聚类算法中,基于图的谱聚类算法因其出色的性能而颇受关注,该类算法大体分为三步:首先,构建样本间的相似度矩阵,然后,对该矩阵进行特征值分解,最后,通过k均值或者谱旋转的方式将特征向量转化为离散的聚类结果。该类算法因为涉及到n乘n矩阵的特征值分解(n为样本个数),计算复杂度和存储复杂度都较高,在大规模数据上很难得到结果。在当前的大数据时代,针对大规模数据设计快速的聚类算法有着十分现实的意义。文献“CharlessFowlkes,SergeBelongie,FanChung,andJitendraMalik,SpectralgroupingusingtheNystrommethod,IEEEtransactionsonpatternanalysisandmachineintelligence,vol.26,no.2,pp.214–225,2004.”采用经典的Nystrom算法来高效的计算特征值分解问题的近似解。文献“MuLi,JamesTKwok,andBao-LiangLu,Makinglarge-scalenystromapproximationpossible.,inICML,2010,pp.631–638.”提出了一种随机低秩矩阵的逼近算法,使得Nystrom算法更加具有可扩展性。文献NicolasTremblay,GillesPuy,RemiGribonval,andPierreVandergheynst,Compressivespectralclustering,inInternationalConferenceonMachineLearning,2016,pp.1002–1011.”通过在原始数据上采样来降低数据规模,然后在缩减的数据集上执行聚类过程。文献“YangZhao,YuanYuan,andQiWang,Fastspectralclusteringforunsupervisedhyperspectralimageclassification,RemoteSensing,vol.11,no.4,pp.399,2019.”通过使用锚点图、锚点与样本间的相似度矩阵,来逼近原始的相似度矩阵。通常来讲,锚点图的相似度矩阵维度更小,因此,在该图上做计算的复杂度要远远低于原始相似度矩阵。但该方法的聚类性能与锚点图的构造密切相关,并且在选择锚点时会不可避免地损失一些样本之间的信息。文献“DavidLDonohoandMichaelElad,Optimallysparserepresentationingeneral(nonorthogonal)dictionariesvial1minimization,ProceedingsoftheNationalAcademyofSciences,vol.100,no.5,pp.2197–2202,2003.”提出用稀疏编码对人类视觉皮层建模,且成功应用于许多领域。文献“HuiZou,TrevorHastie,andRobertTibshirani,“Sparseprincipalcomponentanalysis,”Journalofcomputationalandgraphicalstatistics,vol.15,no.2,pp.265–286,2006.”对多种经典聚类算法的稀疏版本进行了描述,且注意到传统的谱聚类方法是两阶段式的,即先学得一个原始数据的低维嵌入,然后通过离散化的方法得到聚类结果,因此,最终的聚类结果相对于原始目标函数的最优解是存在差距的。为了解决该问题,文献“XiaojunChen,FeipingNie,JoshuaZhexueHuang,andMinYang,Scalablenormalizedcutwithimprovedspectralrotation.,inIJCAI,2017,pp.1518–1524”提出了一种直接求解谱聚类的方法。以上加速算法都减小了数据结构的大小,在计算时间复杂度和空间复杂度上都有一定程度上地降低。但是,这些算法的聚类结果似乎并不理想,因为在采样或者稀疏表示的过程中数据的信息必然得到损失;另外,由于锚点个数一般要大于类别个数,类别个数是锚点个数的下界,因此,在多类别数据上基于锚点图的方法对计算的时间复杂度并不能取得十分显著的缩减。
技术实现思路
为了克服现有技术的不足,本专利技术提供一种密度自适应的快速聚类方法。首先,利用近似近邻算法得到每个样本的近邻样本,并计算得到近邻距离矩阵;然后,对每个样本计算其与各个近邻样本的相似度;接着,给样本及其近邻样本的相似度加以自适应的权重;最后,设定阈值,若两个样本间的相似度大于该阈值则归为一类,对所有样本进行判断后,得到最终的聚类结果。本专利技术方法既保留了谱聚类良好的聚类性质,又降低了大规模谱聚类任务的时间复杂度和空间复杂度。一种密度自适应的快速聚类方法,其特征在于步骤如下:步骤1:输入原始数据矩阵X=[x1,…,xn]T,采用近似近邻算法为每一个样本找到与其最近的k个样本,记为其中,xi为第i个样本,为1×d维向量,i=1,…,n,n为原始数据点的个数,d为样本特征的维度,k为近邻点个数,取值范围为[1,+∞)之间的正整数,表示距离样本xi最近的第j个样本,j=1,…,k;然后,计算所有样本与其近邻样本之间的欧式距离,得到近邻距离矩阵B,其中,第i行j列元素Bij为样本xi与其近邻样本之间的欧式距离,其中i=1,…,n,j=1,…,k;步骤2:按下式计算得到第i个样本与第j个样本的局部距离矩阵E(ij)的第f行g列元素其中,i=1,…,n,j=1,…,n,f=1,2,…,2k,g=1,2,…,2k,表示样本xi的第f个近邻样本,表示样本xi的第g个近邻样本,表示样本xj的第g-k个近邻样本,表示样本xi的第f-k个近邻样本,表示样本xj的第g个近邻样本,表示样本xj的第f-k个近邻样本;然后,按下式计算得到第i个样本与第j个样本的局部相似度矩阵W(ij):其中,t为带宽参数,取值为局部距离矩阵中所有元素的中位数;接着,按下式对第i个样本与第j个样本的局部相似度矩阵W(ij)进行归一化处理:其中,为归一化后的第i个样本与第j个样本的局部相似度矩阵,D为2k×2k大小的对角矩阵,其对角线元素步骤3:按下式计算得到第i个样本与第j个样本的相似度Sij:假定xj是xi的第α个近邻,本文档来自技高网
...

【技术保护点】
1.一种密度自适应的快速聚类方法,其特征在于步骤如下:/n步骤1:输入原始数据矩阵X=[x

【技术特征摘要】
1.一种密度自适应的快速聚类方法,其特征在于步骤如下:
步骤1:输入原始数据矩阵X=[x1,…,xn]T,采用近似近邻算法为每一个样本找到与其最近的k个样本,记为其中,xi为第i个样本,为1×d维向量,i=1,…,n,n为原始数据点的个数,d为样本特征的维度,k为近邻点个数,取值范围为[1,+∞)之间的正整数,表示距离样本xi最近的第j个样本,j=1,…,k;然后,计算所有样本与其近邻样本之间的欧式距离,得到近邻距离矩阵B,其中,第i行j列元素Bij为样本xi与其近邻样本之间的欧式距离,其中i=1,…,n,j=1,…,k;
步骤2:按下式计算得到第i个样本与第j个样本的局部距离矩阵E(ij)的第f行g列元素



其中,i=1,…,n,j=1,…,n,f=1,2,…,2k,g=1,2,…,2k,表示样本xi的第f个近邻样本,表示样本xi的第g个近邻样本,表示样本xj的第g-k个近邻样本,表示样本xi的第f-k个近邻样本,表示样本xj的第g个近邻样本,表示样本xj的第f-k个近邻样本;
然后,按下式计算得到第i个样本与第j个样本的局部相似度矩阵W(ij):



其中,t为带宽参数,取值为局部距离矩阵中所有元素的中位数;
接着,按下式对第i个样本与第j个样本的局部相似度...

【专利技术属性】
技术研发人员:聂飞平裴申飞王榕李学龙
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1