本发明专利技术公开了一种基于子空间聚类的数据处理方法,包括步骤:对于需要进行子空间聚类的全部数据,提取其中的特征点;对所提取的全部特征点归一化处理,获得特征点矩阵;为经过归一化处理的每个特征点x建立一个近邻集Ω;根据每个特征点x的近邻集Ω,构建全部特征点间的相似度矩阵W;计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L,并对每个拉普拉斯矩阵L进行谱聚类分割,获得每个特征点的类别标号,实现对全部数据的子空间聚类处理。本发明专利技术公开的一种基于子空间聚类的数据处理方法,其在保证高精度的同时,高效地对大规模数据进行聚类处理,满足大规模数据处理需求,很好地适用于图像处理、计算机视觉和图像运动分割等数据处理领域。
【技术实现步骤摘要】
本专利技术涉及模式识别、数字图像处理等数据处理
,特别是涉及一种基于 子空间聚类的数据处理方法。
技术介绍
目前,聚类分析是数据挖掘领域中的关键技术之一。高维数据聚类是聚类分析技 术的难点和重点,子空间聚类是实现高维数据集聚类的有效途径,它是在高维数据空间中 对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行。子空间聚类技术因 其在现实生活中的适用性而在图像分割、运动分割、人脸聚类、图像压缩与表示等方面具有 广泛的应用。子空间聚类的目的是是寻找位于混合高维空间中的聚类,其基本假设是高维 空间中的点往往分布于多个不同的低维子空间中,而每个低维子空间即为一个类。 对于基于谱聚类的子空间聚类方法,目前由于其优异的性能而备受关注,国内外 领先的子空间聚类算法大多属于这一类。基于谱聚类的子空间聚类方法通常分为两个步 骤:首先对输入的特征点计算一个亲和力矩阵,用于度量特征点之间的相关性;然后对此 亲和力矩阵应用谱聚类算法得到聚类分割结果。基于谱聚类的子空间聚类算法主要差异在 于不同的亲和力矩阵构建方法。而亲和力矩阵的构建方法可以分为两类,第一类方式是: 将每个特征数据表示为其他特征数据的线性组合,从而将这些线性组合稀疏作为亲和力的 度量。求解这种线性组合的过程往往依赖于最优化理论,因此这种方法被称为基于最优化 的亲和力矩阵构建方法。第二类构建亲和力矩阵的方法则不经过优化过程,而是使用贪婪 算法直接为每个特征数据选择一批相近特征数据作为其近邻集,然后以特征数据是否在其 近邻集内的所属关系来构建亲和力矩阵。这类方法的计算过程相比基于最优化的方法要简 化很多,因此,具有计算速度快的优点,但是由于贪婪算法只能达到单步最优的特征,其聚 类结果往往容易收到噪声点的影响,因此,严重影响到聚类的效果,其所取得的聚类精度较 低,无法满足人们的使用需求。 如今,随着大数据时代的来临,人们需要处理的数据规模往往非常大,因此,人们 对基于聚类算法的数据处理方法提出了更要的要求,要求不仅高效,而且具有更高的聚类 精度。因此,目前现有的基于谱聚类的子空间聚类的数据处理方法中,基于最优化的方法时 间复杂度较高,而基于贪婪算法的方法聚类结果易受噪声点影响,鲁棒性不强,因此现有的 子空间聚类数据处理方法并不适用于大规模数据的处理。 因此,目前迫切需要开发出一种方法,其可以在保证高精度的同时,快速、有效地 对大规模的数据进行聚类处理,可以满足人们的大规模数据处理需求,节约人们宝贵的时 间。
技术实现思路
有鉴于此,本专利技术的目的是提供,其可以在 保证高精度的同时,快速、有效地对大规模的数据进行聚类处理,可以满足人们的大规模数 据处理需求,节约人们宝贵的时间,可以很好地适用于图像处理、计算机视觉和图像运动分 割等数据处理领域,具有重大的生产实践意义。 为此,本专利技术提供了,包括以下步骤: 第一步:对于需要进行子空间聚类的全部数据,提取其中的特征点; 第二步:对所提取的全部特征点进行归一化处理,获得特征点矩阵; 第三步:为经过归一化处理的每个特征点X建立一个近邻集Ω,每个所述近邻集 Ω包含与其所归属特征点X所在的子空间距离最近的、预设数量的样本特征点; 第四步:根据每个特征点X的近邻集Ω,对应构建全部特征点间的相似度矩阵W ; 第五步:计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L,并对每个拉普 拉斯矩阵L进行谱聚类分割,获得每个特征点的类别标号,实现对全部数据的子空间聚类 处理。 其中,所述第二步具体为:将全部特征点分别除以自己的模长,获得对应的单位向 量,然后以获得的单位向量代替原特征点作为新的特征点,最终获得特征点矩阵X e Rdxn; 其中,D为特征维度,N为特征点数量,X的每一列即对应一个特征点的特征向量。 其中,所述第三步具体包括以下步骤: 步骤A)以经过归一化处理的每个特征点X为中心样本特征点,为每个特征点X构 建初始化的近邻集Ω ; 步骤B)根据近邻集Ω内包含的样本特征点,确定所述中心样本特征点X所在子 空间U的正交基,实现对子空间U张成的更新; 步骤C)对于不在中心样本特征点X近邻集Ω内的所有特征点,逐一计算它们到 中心样本特征点X的子空间U的投影,在子空间U上投影长度最大的特征点即为距离子空 间U最近的样本特征点,将与当前所述中心样本特征点X所在的子空间距离最近的样本特 征点新添加到近邻集Ω中; 步骤D)计算所述近邻集Ω中的每个样本特征点与中心样本特征点X的亲和力, 如果所述近邻集Ω中与中心样本特征点X的亲和力最低的样本特征点不是新添加到近邻 集Ω中的样本特征点,则从近邻集Ω中删除该样本特征点,然后返回执行步骤B),直到所 述近邻集Ω中所有样本特征点的数量达到预设数量。 其中,所述步骤A)包括以下步骤: 首先将每个特征点X作为中心样本特征点,并将自身加入到初始化的近邻集Ω 内; 对于除中心样本特征点X外的其余特征点,选取距中心样本特征点X最近的P个 特征点,P为预设的大于1的整数,根据稀疏表示目标函数min I I c I I t. X = X(P)c,逐一计 算所述距中心样本特征点X最近的P个特征点对中心样本特征点X的重构系数,并选择其 中重构系数c最大项对应的特征点作为除中心样本特征点X外加入近邻集Ω的第一个样 本特征点,从而为每个中心样本特征点X构建初始化的近邻集Ω。 其中,在所述步骤B)中,所述子空间U的正交基按增量方式计算得到,具体正交基 的计算公式如下: CN 105139031 A IX m "ti 3/8 页 - :5 其中,为加入近邻集Ω的最后一个特征点·与正交基nk的内 积。。 其中,在所述步骤C)中,对于不在中心样本特征点X近邻集Ω内的所有特征点, 其在子空间U上的投影长度按以下公式计算: 其中,m为当前中心样本特征点X的子空间的维度,〈X,n k>为X与正交基n k的 内积。。 其中,在所述步骤D)中,计算所述近邻集Ω中的每个样本特征点与中心样本特征 点X的亲和力的公式如下: 其中,ΧΩ*由位于近邻集Ω内的特征点构成的矩阵,碎为乂,的Moore-Penrose 伪逆矩阵,?1指难的第k行,Ck即为近邻集Ω中第k个特征点与中心样本特征点X的 亲和力。 其中,所述第四步具体包括以下步骤:[003当前第1页1 2 3 4 本文档来自技高网...
【技术保护点】
一种基于子空间聚类的数据处理方法,其特征在于,包括以下步骤:第一步:对于需要进行子空间聚类的全部数据,提取其中的特征点;第二步:对所提取的全部特征点进行归一化处理,获得特征点矩阵;第三步:为经过归一化处理的每个特征点x建立一个近邻集Ω,每个所述近邻集Ω包含与其所归属特征点x所在的子空间距离最近的、预设数量的样本特征点;第四步:根据每个特征点x的近邻集Ω,对应构建全部特征点间的相似度矩阵W;第五步:计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L,并对每个拉普拉斯矩阵L进行谱聚类分割,获得每个特征点的类别标号,实现对全部数据的子空间聚类处理。
【技术特征摘要】
【专利技术属性】
技术研发人员:孙哲南,谭铁牛,宋凌霄,张曼,赫然,
申请(专利权)人:天津中科智能识别产业技术研究院有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。