基于联合流形投影均值聚类的数据分类方法及系统技术方案

技术编号：38399858 阅读：10 留言：0更新日期：2023-08-07 11:12

本发明专利技术涉及人工智能与数据处理技术领域，具体公开了一种基于联合流形投影均值聚类的数据分类方法及系统，该方法基于近邻样本的样本对连接挖掘样本之间的近邻关系，采用联合流形投影均值聚类模块构建聚类包络样本空间，实现对结构化样本的特征学习与分类器建模。该方法实现了结构化样本的生成及在此基础上的特征学习与分类器建模。整体上，经验证，针对不同的数据集，本方法具有较高的分类准确率(在AD数据集中的分类准确率比基于原样本的分类系统高23.03％，比简单均值聚类算法生成的包络样本的分类系统高1.7％；在Wisconsin数据集中的分类准确率从比基于原样本的分类系统高2.2％，比简单均值聚类算法生成的包络样本的分类系统高0.97％)和较短的训练时长。分类系统高0.97％)和较短的训练时长。分类系统高0.97％)和较短的训练时长。

全部详细技术资料下载

【技术实现步骤摘要】
基于联合流形投影均值聚类的数据分类方法及系统

[0001]本专利技术涉及人工智能和数据科学
，尤其涉及一种基于联合流形投影均值聚类的数据分类方法及系统。

技术介绍

[0002]现有的分类系统在原始样本基础上进行建模，即只关注原始样本，没有考虑样本之间的层次结构。其训练算法只考虑最小化每个输入样本与其输出重建样本之间的误差，因此没有挖掘样本之间的结构信息。但是，忽略样本结构信息会导致样本间可分性降低，限制对最优样本的搜索，影响算法的分类性能。因此，有必要考虑样本之间的结构信息。此外，当特征维度较大时，单纯采用均值聚类来挖掘样本间结构信息效果有限，因此有必要将均值聚类与特征降维同时进行。如今代表性的分类系统的类型有基于流形学习、基于深度学习、基于迁移学习，这些类型的分类算法直接基于原样本，没有考虑样本之间的层次结构，导致最后模型的分类精度仍不够高。还有一种基于内嵌式堆栈自动编码器的分类方法，其分类效果虽好，但对于高纬度数据集的训练耗费时间较长。

技术实现思路

[0003]本专利技术提供了一种基于联合流形投影均值聚类的数据分类方法及系统，解决的技术问题在于：针对各种维度的数据集特别是高纬度数据集，如何平衡分类精度和训练时长。
[0004]为解决以上技术问题，本专利技术提供一种基于联合流形投影均值聚类的数据分类方法，其关键在于，包括步骤：
[0005]S1、采用第一近邻样本包络学习模块生成原始样本X的邻近包络样本X
OS
；
[0006]S2、采用联合聚类包络模块...

【技术保护点】

【技术特征摘要】
1.基于联合流形投影均值聚类的数据分类方法，其特征在于，包括步骤：S1、采用第一近邻样本包络学习模块生成原始样本X的邻近包络样本X
OS
；S2、采用联合聚类包络模块生成邻近包络样本X
OS
的聚类包络样本X
JS
；所述联合聚类包络模块包括迭代均值聚类模块、联合流形投影均值聚类模块，所述联合流形投影均值聚类模块的损失函数为：s.t.P
T
P＝I其中，J
RJSIMC
(V,P)表示进行联合流形投影均值聚类的损失，V代表联合聚类中心，P代表投影矩阵；C代表类别数；N代表样本数；X代表输入所述迭代均值聚类模块的样本；X
i
和X
j
表示投影后的样本；W
ij
代表亲和矩阵；I表示所有元素都等于1的列向量；||||
2,1
代表2,1范数；参数μ是用于量化贡献的一个平衡因子；η代表投影矩阵P的权衡系数；S3、采用第二近邻样本包络学习模块生成聚类包络样本X
JS
的邻近包络样本X
PS
；S4、将邻近包络样本X
PS
输入到分类器中进行分类，得到分类结果。2.根据权利要求1所述的基于联合流形投影均值聚类的数据分类方法，其特征在于，在步骤S2中，所述迭代均值聚类模块的损失函数为：其中，M＝[m1,m2,
…
,m
u
]是所述迭代均值聚类模块的聚类中心集合；M
P
是由p个样本组成的初始聚类中心，M
u
是由u个样本组成的初始聚类中心，S
P
是以M
u
为簇心的样本集合，p＝1,2,
…
,u。3.根据权利要求2所述的基于联合流形投影均值聚类的数据分类方法，其特征在于，所述联合聚类包络模块的总损失函数为：minJ
JMPC
(M,V,P)＝J
IMC
(M)+J
RJSIMC
(V,P)s.t.P
T
P＝I。4.根据权利要求3所述的基于联合流形投影均值聚类的数据分类方法，其特征在于，所述联合聚类包络模块生成邻近包络样本X
OS
的聚类包络样本X
JS
的具体步骤包括：S21、采用所述迭代均值聚类模块并基于损失函数J
IMC
(M)对邻近包络样本X
OS
进行均值聚类，得到初始聚类中心集合M及初始化的V用V0表示；S22、采用所述联合流形投影均值聚类模块计算V0的亲和矩阵，并采用目标函数J
RJSIMC
(V,P)优化更新后的V、P；S23、输出聚类包络样本X
JS
＝VP。5.根据权利要求4所述的基于联合流形投影均值聚类的数据分类方法，其特征在于，在步骤S22中，通过交替优化方法求解V、P，具体包括步骤：S221、固定P，求V；S222、固定V，求解P。6.根据权利要求5所述的基于联合流形投影均值聚类的数据分类方法，其特征在于，所
述S221具体包括步骤：S2211、固定...

【专利技术属性】
技术研发人员：李勇明，周传艳，王品，马洁，颜芳，曾孝平，
申请(专利权)人：重庆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人