当前位置: 首页 > 专利查询>重庆大学专利>正文

基于联合流形投影均值聚类的数据分类方法及系统技术方案

技术编号:38399858 阅读:10 留言:0更新日期:2023-08-07 11:12
本发明专利技术涉及人工智能与数据处理技术领域,具体公开了一种基于联合流形投影均值聚类的数据分类方法及系统,该方法基于近邻样本的样本对连接挖掘样本之间的近邻关系,采用联合流形投影均值聚类模块构建聚类包络样本空间,实现对结构化样本的特征学习与分类器建模。该方法实现了结构化样本的生成及在此基础上的特征学习与分类器建模。整体上,经验证,针对不同的数据集,本方法具有较高的分类准确率(在AD数据集中的分类准确率比基于原样本的分类系统高23.03%,比简单均值聚类算法生成的包络样本的分类系统高1.7%;在Wisconsin数据集中的分类准确率从比基于原样本的分类系统高2.2%,比简单均值聚类算法生成的包络样本的分类系统高0.97%)和较短的训练时长。分类系统高0.97%)和较短的训练时长。分类系统高0.97%)和较短的训练时长。

【技术实现步骤摘要】
基于联合流形投影均值聚类的数据分类方法及系统


[0001]本专利技术涉及人工智能和数据科学
,尤其涉及一种基于联合流形投影均值聚类的数据分类方法及系统。

技术介绍

[0002]现有的分类系统在原始样本基础上进行建模,即只关注原始样本,没有考虑样本之间的层次结构。其训练算法只考虑最小化每个输入样本与其输出重建样本之间的误差,因此没有挖掘样本之间的结构信息。但是,忽略样本结构信息会导致样本间可分性降低,限制对最优样本的搜索,影响算法的分类性能。因此,有必要考虑样本之间的结构信息。此外,当特征维度较大时,单纯采用均值聚类来挖掘样本间结构信息效果有限,因此有必要将均值聚类与特征降维同时进行。如今代表性的分类系统的类型有基于流形学习、基于深度学习、基于迁移学习,这些类型的分类算法直接基于原样本,没有考虑样本之间的层次结构,导致最后模型的分类精度仍不够高。还有一种基于内嵌式堆栈自动编码器的分类方法,其分类效果虽好,但对于高纬度数据集的训练耗费时间较长。

技术实现思路

[0003]本专利技术提供了一种基于联合流形投影均值聚类的数据分类方法及系统,解决的技术问题在于:针对各种维度的数据集特别是高纬度数据集,如何平衡分类精度和训练时长。
[0004]为解决以上技术问题,本专利技术提供一种基于联合流形投影均值聚类的数据分类方法,其关键在于,包括步骤:
[0005]S1、采用第一近邻样本包络学习模块生成原始样本X的邻近包络样本X
OS

[0006]S2、采用联合聚类包络模块生成邻近包络样本X
OS
的聚类包络样本X
JS
;所述联合聚类包络模块包括迭代均值聚类模块、联合流形投影均值聚类模块,所述联合流形投影均值聚类模块的损失函数为:
[0007][0008]s.t.P
T
P=I
[0009]其中,J
RJSIMC
(V,P)表示进行联合流形投影均值聚类的损失,V代表联合聚类中心,P代表投影矩阵;C代表类别数;N代表样本数;X代表输入所述迭代均值聚类模块的样本;X
i
和X
j
表示投影后的样本;W
ij
代表亲和矩阵;I表示所有元素都等于1的列向量;||||
2,1
代表2,1范数;参数μ是用于量化贡献的一个平衡因子;η代表投影矩阵P的权衡系数;
[0010]S3、采用第二近邻样本包络学习模块生成聚类包络样本X
JS
的邻近包络样本X
PS

[0011]S4、将邻近包络样本X
PS
输入到分类器中进行分类,得到分类结果。
[0012]进一步地,在步骤S2中,所述迭代均值聚类模块的损失函数为:
[0013][0014]其中,M=[m1,m2,

,m
u
]是所述迭代均值聚类模块的聚类中心集合;M
P
是由p个样本组成的初始聚类中心,M
u
是由u个样本组成的初始聚类中心,S
P
是以M
u
为簇心的样本集合,p=1,2,

,u。
[0015]进一步地,所述联合聚类包络模块的总损失函数为:
[0016][0017]s.t.P
T
P=I
[0018]进一步地,所述联合聚类包络模块生成邻近包络样本X
OS
的聚类包络样本X
JS
的具体步骤包括:
[0019]S21、采用所述迭代均值聚类模块并基于损失函数J
IMC
(M)对邻近包络样本X
OS
进行均值聚类,得到初始聚类中心集合M及初始化的V用V0表示;
[0020]S22、采用所述联合流形投影均值聚类模块计算V0的亲和矩阵,并采用目标函数J
RJSIMC
(V,P)优化更新后的V、P;
[0021]S23、输出聚类包络样本X
JS
=VP。
[0022]进一步地,在步骤S22中,通过交替优化方法求解V、P,具体包括步骤:
[0023]S221、固定P,求V;
[0024]S222、固定V,求解P。
[0025]进一步地,所述S221具体包括步骤:
[0026]S2211、固定P,将损失函数J
RJSIMC
(V,P)改写为:
[0027][0028]S2212、引入辅助变量H=[h
ik
]N
×
C
,表示在投影空间中X和V
k
之间的距离,将损失函数J
RJSIMC
(V,P)进一步改写为:
[0029][0030]S2213、计算上式对每个V
k
的偏导数,有:
[0031][0032]S2214、令偏导数为0,可得出V
k

[0033][0034]进一步地,所述S222具体包括步骤:
[0035]S2221、固定P,将损失函数J
RJSIMC
(V,P)改写为:
[0036][0037]s.t.P
T
P=I
[0038]S2222、求解第一部分:
[0039][0040]其中,代表由辅助变量H第N个对角线上的元素形成的对角矩阵,代表由辅助变量H第C个对角线上的元素形成的对角矩阵,表示如下:
[0041][0042][0043][0044][0045]其中,表示对角线上第i行i列元素,表示对角线上第k行k列元素;
[0046]S2223、求解第二部分:
[0047][0048]其中,引入的辅助变量Q=[q
ij
]N
×
N
,W=[w
ij
]N
×
N
代表亲和矩阵,q
ij
视为给w
ij
增加一个权重,X
i
和X
j
距离越远,q
ij
越小,如果X
i
和X
j
重合,则w
ij
无用;是根据的拉普拉斯矩阵,表示矩阵W和矩阵Q的Hadamard乘积,
[0049]S2224、求解第三部分:
[0050]||P||
2,1
=2Tr(PTDP)
[0051]其中,D为度矩阵,i=1,2

,M,
[0052]S2225、将三部分整合:
[0053][0054]进一步地,所述步骤S21具体包括步骤:
[0055]S211、对数据集中样本观测做不同类混合聚类,要求聚为u类,首先选择u个点作为初始中心点;
[0056]S212、按照距离初始中心点最小的原则,把所有观测分到各中心点所在的类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于联合流形投影均值聚类的数据分类方法,其特征在于,包括步骤:S1、采用第一近邻样本包络学习模块生成原始样本X的邻近包络样本X
OS
;S2、采用联合聚类包络模块生成邻近包络样本X
OS
的聚类包络样本X
JS
;所述联合聚类包络模块包括迭代均值聚类模块、联合流形投影均值聚类模块,所述联合流形投影均值聚类模块的损失函数为:s.t.P
T
P=I其中,J
RJSIMC
(V,P)表示进行联合流形投影均值聚类的损失,V代表联合聚类中心,P代表投影矩阵;C代表类别数;N代表样本数;X代表输入所述迭代均值聚类模块的样本;X
i
和X
j
表示投影后的样本;W
ij
代表亲和矩阵;I表示所有元素都等于1的列向量;||||
2,1
代表2,1范数;参数μ是用于量化贡献的一个平衡因子;η代表投影矩阵P的权衡系数;S3、采用第二近邻样本包络学习模块生成聚类包络样本X
JS
的邻近包络样本X
PS
;S4、将邻近包络样本X
PS
输入到分类器中进行分类,得到分类结果。2.根据权利要求1所述的基于联合流形投影均值聚类的数据分类方法,其特征在于,在步骤S2中,所述迭代均值聚类模块的损失函数为:其中,M=[m1,m2,

,m
u
]是所述迭代均值聚类模块的聚类中心集合;M
P
是由p个样本组成的初始聚类中心,M
u
是由u个样本组成的初始聚类中心,S
P
是以M
u
为簇心的样本集合,p=1,2,

,u。3.根据权利要求2所述的基于联合流形投影均值聚类的数据分类方法,其特征在于,所述联合聚类包络模块的总损失函数为:minJ
JMPC
(M,V,P)=J
IMC
(M)+J
RJSIMC
(V,P)s.t.P
T
P=I。4.根据权利要求3所述的基于联合流形投影均值聚类的数据分类方法,其特征在于,所述联合聚类包络模块生成邻近包络样本X
OS
的聚类包络样本X
JS
的具体步骤包括:S21、采用所述迭代均值聚类模块并基于损失函数J
IMC
(M)对邻近包络样本X
OS
进行均值聚类,得到初始聚类中心集合M及初始化的V用V0表示;S22、采用所述联合流形投影均值聚类模块计算V0的亲和矩阵,并采用目标函数J
RJSIMC
(V,P)优化更新后的V、P;S23、输出聚类包络样本X
JS
=VP。5.根据权利要求4所述的基于联合流形投影均值聚类的数据分类方法,其特征在于,在步骤S22中,通过交替优化方法求解V、P,具体包括步骤:S221、固定P,求V;S222、固定V,求解P。6.根据权利要求5所述的基于联合流形投影均值聚类的数据分类方法,其特征在于,所
述S221具体包括步骤:S2211、固定...

【专利技术属性】
技术研发人员:李勇明周传艳王品马洁颜芳曾孝平
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1