【技术实现步骤摘要】
本专利技术涉及一种基于L2稀疏限制的特征加权k-means聚类方法,属数据处理
技术介绍
近年来,随着信息技术快速发展,特别是移动互联网的迅速推广,人们日常生产生活的各种数据被收集和保存下来,使得人们能够更方便、快捷的获取数据。然而,随着数据指数级增长,人们越来越难以理解数据中所蕴含的知识。聚类是挖掘大规模数据中所蕴含知识的一种重要方法。传统的聚类方法在数据分析过程中平等对待所有的特征,然而在很多情况下,这些传统方法分析高维数据可能会存在误差。因为在高维数据中,不同的特征在聚类过程中可能起不同的作用,例如在区分话题“伦敦是第一个举办了三次奥运会的现代城市”过程中,关键词“伦敦”、“奥运会”比关键词“现代”、“城市”具有更重要的作用。因此,设计不同的子空间或者用权重来选择出重要的特征是解决高维数据聚类的一种重要方式。k-means聚类由于其简单性和有效性被广泛的应用于各种数据处理系统中。传统的k-means聚类算法在聚类过程中平等利用所用特征来计算数据对象与中心的距离。为了提高k-means聚类高维数据的精度,研究人员提出了一种新的利用权重向量对特征进行加权的算法W-k-means(J.Z.Huang,M.K.Ng,H.Rong,Z.Li,Automatedvariableweightingink-meanstypeclustering,IEEETrans.PatternAnal.Mach.Intell.27(2005)657–668.)。该算法为每一个特征计算一个权重,用于代表该特征在聚类过程中所具有的区分性。然而,在现实世界中,同一个特征在不 ...
【技术保护点】
一种基于L2稀疏限制的特征加权k‑means聚类方法,其特征在于,所述方法包括以下步骤:(1)预处理:把数据集中每个数据对象表示成一个特征向量,即X={x1,x2,...,xn},n为数据对象数目;同时,随机初始化数据对象分配矩阵U,簇中心Z和权重W,并且针对每一个簇归一化其特征权向量;(2)计算数据对象分配矩阵:在给定簇中心Z和特征权重W的情况下,针对每个数据对象,计算该数据对象与每个簇中心的带权距离,并将该数据对象分配到与之具有最小带权距离的簇中;(3)计算簇中心:在给定数据对象分配矩阵U的情况下,针对每个簇中的每个特征计算其算术平均作为簇中心;(4)计算特征权重W:在给定分配矩阵U和簇中心Z的情况下,针对每个簇计算一个特征向量;这个步骤中,首先需要针对每个簇的每个特征计算其散度值;然后根据散度和稀疏参数计算一个阀值;最后根据散度、稀疏参数和阀值计算簇中每个特征的权重;(5)迭代步骤(2)、(3)和(4),直到算法收敛;通过目标函数值判定算法是否收敛,在算法收敛后,聚类结果保存在分配矩阵U中,而特征权重W用来表示簇中每个特征在簇中的重要性。
【技术特征摘要】
1.一种基于L2稀疏限制的特征加权k-means聚类方法,其特征在于,所述方法包括以下步骤...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。