一种基于L2稀疏限制的特征加权k‑means聚类方法技术

技术编号:14737744 阅读:145 留言:0更新日期:2017-03-01 11:14
一种基于L2稀疏限制的特征加权k‑means聚类方法,包含以下步骤:(1)预处理,把每个数据对象表示成一个特征向量,同时随机初始化分配矩阵、簇中心和权向量,并归一化权向量;(2)计算分配矩阵,计算每个对象与每个簇中心的带权距离,把对象分配到与之具有最小带权距离的簇中;(3)计算簇中心,根据当前分配矩阵计算每个簇的中心;(4)计算特征权重,根据簇内散度和稀疏参数计算每个特征的权重。循环步骤(2)到(4),直到算法收敛。本发明专利技术所述方法设计了一种能够集成簇内散度和L2稀疏限制的新目标函数,通过求解目标函数获得各求解步骤和特征权重,通过特征权重鉴别出不同特征的作用,从而提高聚类的性能。

【技术实现步骤摘要】

本专利技术涉及一种基于L2稀疏限制的特征加权k-means聚类方法,属数据处理

技术介绍
近年来,随着信息技术快速发展,特别是移动互联网的迅速推广,人们日常生产生活的各种数据被收集和保存下来,使得人们能够更方便、快捷的获取数据。然而,随着数据指数级增长,人们越来越难以理解数据中所蕴含的知识。聚类是挖掘大规模数据中所蕴含知识的一种重要方法。传统的聚类方法在数据分析过程中平等对待所有的特征,然而在很多情况下,这些传统方法分析高维数据可能会存在误差。因为在高维数据中,不同的特征在聚类过程中可能起不同的作用,例如在区分话题“伦敦是第一个举办了三次奥运会的现代城市”过程中,关键词“伦敦”、“奥运会”比关键词“现代”、“城市”具有更重要的作用。因此,设计不同的子空间或者用权重来选择出重要的特征是解决高维数据聚类的一种重要方式。k-means聚类由于其简单性和有效性被广泛的应用于各种数据处理系统中。传统的k-means聚类算法在聚类过程中平等利用所用特征来计算数据对象与中心的距离。为了提高k-means聚类高维数据的精度,研究人员提出了一种新的利用权重向量对特征进行加权的算法W-k-means(J.Z.Huang,M.K.Ng,H.Rong,Z.Li,Automatedvariableweightingink-meanstypeclustering,IEEETrans.PatternAnal.Mach.Intell.27(2005)657–668.)。该算法为每一个特征计算一个权重,用于代表该特征在聚类过程中所具有的区分性。然而,在现实世界中,同一个特征在不同的簇中可能起不同的作用,研究人员又提出矩阵加权方法(E.Y.Chan,W.K.Ching,M.K.Ng,J.Z.Huang,Anoptimizationalgorithmforclusteringusingweighteddissimilaritymeasures,PatternRecognit.37(2004)943–952),即为每一个簇计算一个权重向量代表特征在该簇中的作用。然而,如果在某个簇中有散度为0维度,该算法将只用到散度为0的维度进行聚类,而忽略其他的维度。然而,只用少数几个散度为0的维度聚类高维数据在大部分情况下是不合理的。为了聚类高维稀疏数据,研究人员在矩阵加权k-means基础上利用熵对权重进行稀疏限制,提出了EWkmeans算法(L.Jing,M.K.Ng,J.Z.Huang,Anentropyweightingk-meansalgorithmforsubspaceclusteringofhigh-dimensionalsparsedata,IEEETrans.Knowl.DataEng.19(2007)1026–1041.)。该算法在获得特征权重的同时,使得更多特征参与聚类过程。然而,该算法在实现过程中需要计算自然对数e-D,其中e为自然对数的底数,D为某一维度上带权散度值。在大规模数据上,e-D通常非常小,在实现过程中很容易数值溢出。近年来,研究人员也提出一些新的方法来扩展W-k-means和EWkmeans算法。例如,在W-k-means和EWkmeans基础上集成簇内散度和簇间散度进行聚类。但是,这些算法都继承了W-k-means可能会只利用少数维度进行聚类和EWkmeans在实现时可能溢出的缺点。
技术实现思路
本专利技术的目的是,针对传统的k-means聚类方法不合适处理高维数据的问题,提出一种基于L2稀疏限制的特征加权k-means聚类方法。本专利技术的技术方案如下:一种基于L2稀疏限制的特征加权k-means聚类方法包括以下步骤:(1)预处理:把数据集中每个数据对象表示成一个特征向量,即X={x1,x2,...,xn本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201610864968.html" title="一种基于L2稀疏限制的特征加权k‑means聚类方法原文来自X技术">基于L2稀疏限制的特征加权k‑means聚类方法</a>

【技术保护点】
一种基于L2稀疏限制的特征加权k‑means聚类方法,其特征在于,所述方法包括以下步骤:(1)预处理:把数据集中每个数据对象表示成一个特征向量,即X={x1,x2,...,xn},n为数据对象数目;同时,随机初始化数据对象分配矩阵U,簇中心Z和权重W,并且针对每一个簇归一化其特征权向量;(2)计算数据对象分配矩阵:在给定簇中心Z和特征权重W的情况下,针对每个数据对象,计算该数据对象与每个簇中心的带权距离,并将该数据对象分配到与之具有最小带权距离的簇中;(3)计算簇中心:在给定数据对象分配矩阵U的情况下,针对每个簇中的每个特征计算其算术平均作为簇中心;(4)计算特征权重W:在给定分配矩阵U和簇中心Z的情况下,针对每个簇计算一个特征向量;这个步骤中,首先需要针对每个簇的每个特征计算其散度值;然后根据散度和稀疏参数计算一个阀值;最后根据散度、稀疏参数和阀值计算簇中每个特征的权重;(5)迭代步骤(2)、(3)和(4),直到算法收敛;通过目标函数值判定算法是否收敛,在算法收敛后,聚类结果保存在分配矩阵U中,而特征权重W用来表示簇中每个特征在簇中的重要性。

【技术特征摘要】
1.一种基于L2稀疏限制的特征加权k-means聚类方法,其特征在于,所述方法包括以下步骤...

【专利技术属性】
技术研发人员:黄晓辉
申请(专利权)人:华东交通大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1