基于子空间学习的嵌入式属性选择方法及其应用技术

技术编号:10738593 阅读:89 留言:0更新日期:2014-12-10 13:22
本发明专利技术的基于子空间学习的嵌入式属性选择方法及其应用,在嵌入式属性选择框架上加入了子空间学习技术,利用子空间技术高效的学习能力改进属性选择进行属性约简的能力。本方法包括1)给定训练集条件属性及对应的类标签,建立一个具有LDA功能和LPP功能的嵌入式的属性选择方法的目标函数;2)优化目标函数,得到优化后的系数矩阵;3)根据所得的系数矩阵的特征,排除重要度为0的属性;4)将步骤3)得到的条件属性类标签送到支持向量机中进行分类或者回归分析,得到选择结果。本方法能解决高维大数据的实际应用问题,降维后的数据能可应用到各种领域,例如分类,回归或者缺失数据填充等。

【技术实现步骤摘要】
【专利摘要】本专利技术的基于子空间学习的嵌入式属性选择方法及其应用,在嵌入式属性选择框架上加入了子空间学习技术,利用子空间技术高效的学习能力改进属性选择进行属性约简的能力。本方法包括1)给定训练集条件属性及对应的类标签,建立一个具有LDA功能和LPP功能的嵌入式的属性选择方法的目标函数;2)优化目标函数,得到优化后的系数矩阵;3)根据所得的系数矩阵的特征,排除重要度为0的属性;4)将步骤3)得到的条件属性类标签送到支持向量机中进行分类或者回归分析,得到选择结果。本方法能解决高维大数据的实际应用问题,降维后的数据能可应用到各种领域,例如分类,回归或者缺失数据填充等。【专利说明】基于子空间学习的嵌入式属性选择方法及其应用
本专利技术涉及大数据,具体是高维数据的数据约简或属性约简,更具体是一种同时使用属性选择和子空间学习进行属性约简的方法,特别是基于子空间学习的嵌入式属性选择方法及其应用。
技术介绍
大数据时代的实际应用经常接触到高维数据,例如文本分类,计算机视觉,图像检索,基因分析等应用数据的维数可以从几百维到几千维甚至到几万维。当前的计算机虽然能直接在高维数据上进行运算,但是常常面临很多问题,例如处理时间过长,维灾难问题,以及噪音或者冗余属性的存在等问题。而且,现有的研究已经显示高维数据的“内在”维通常很低。因此,对高维数据进行降维处理(简称数据约简-Dimens1nalityReduct1n)以找出数据的“内在”维是目前数据挖掘和机器学习研究的一个热点。 现有的属性约简方法通常被分成两大类,即属性选择(Feature Select1n)和子空间学习(Subspace Learning) 。属性选择方法首先根据某种准则对每个属性进行重要性赋值,之后通过删除重要度低的属性达到属性降维目的。属性选择方法分为过滤法、封装法和嵌入法三类。过滤法首先分析数据的大致特征,然后仔细评估数据的具体特征值看是否需要对属性进行过滤。实际应用中,过滤方法是一种非学习方法,其鲁棒性较强,但常过滤掉一些重要的属性。封装法首先定义一个好的学习算法(例如支持向量机),然后据此寻找属性的一个子集,实际应用中的封装法从原则上来说可以找到所有最有用的属性,所以它的效果通常比过滤法好;然而,封装法需要计算量更大并且容易出现过度拟合的情况。嵌入法在建立模型的时候同时执行属性选择,且通优化学习模型中的目标函数来获取有效属性。因此,其属性选择的效果非常好。嵌入法比封装法计算量小并且出现过度拟合的几率也小。属性选择方法已经被应用到基因研究、医学图像分析等领域。 子空间学习通过设置一定的准则把原始高维数据投影到新空间的低维数据达到属性降维目的。子空间学习方法分为映射法和流形学习法两种。映射法通过最大化预设目标函数找到一个包含大多数原始数据信息的低维数据集,且能够找到原始高维数据和新低维数据的转换矩阵。存在的映射法包括主成分分析(PCA)和独立成分分析(ICA)等。流行学习方法首先假设原始高维数据位于一个低维的流形,然后通过满足一些合适的目标函数找到目标属性。常见的流形学习方法包括多维标度分析(MDS)、ISPMAP、局部线性嵌入法(LPP)和拉普拉斯特征映射等。子空间学习方法已经被广泛的用于脸部识别,图像分类、多媒体数据检索等计算视觉领域。 属性选择和子空间学习都有明显的特点。属性选择由于可解释能力强而实际应用范围广,缺点是属性约简的效果不如子空间学习的效果。子空间学习由于不具解释能力而实际应用范围受限,但属性约简后的学习能力明显比属性选择强。 参考文献: X.Zhuj L.Zhang and Z.Huang, A Sparse Embedding and Least VarianceEncoding Approach to Hashing, to appear in IEEE Transact1ns on ImageProcessing, 2014. X.Zhu,H.1.Suk,and D.Shen: A Novel Matrix-Simi larity BasedLoss Funct1n for Joint Regress1n and Classificat1n in AD Diagnosis.NeuroImagej2014. X.Zhu,H.1.Suk,and D.Shen:A Novel Mult1-Relat1n Regularizat1nMethod for Regress1n and Classificat1n in AD Diagnosis.1n Proceedings ofMICCAI 2014. X.Zhu,H.1.Suk,and D.Shen:Multi_Modality Canonical Feature Select1nfor Alzheimer’s Disease Diagnosis.1n Proceedings of MICCAI2014. X.Zhuj H.1.Sukj and D.Shen:Matrix-Similarity Based Loss Funct1n andFeature Select1n for Alzheimer’s Disease Diagnosis.1n Proceedings of CVPR2014. X.Zhuj Z.Huang, H.Cheng, J.Cui and H.T.Shen,Sparse Hashing for FastMultimedia Search".ACM Transact1ns on Informat1n Systems (TOIS), 31(2), 2013. X.Zhuj Z.Huang, J.Cuij H.T.Shen."Video-to-Shot Tag Propagat1n byGraph Sparse Group Lasso' IEEE Transact1ns on Multimedia (TMM),15 (3):633-646,2013. X.Zhu,Z.Huang, Y.Yang, H.T.Shen, C.Xu,J.Luo: Self-taughtdimens1nality reduct1n on the high-dimens1nal small-sized data.PatternRecognit1n 46(1):215-229(2013 X.Zhuj Z.Huang, H.T.Shen, and X.Zhao, Linear Cross-Modal Hashing forEffective Multimedia Search.1n Proceedings of ACM MM,143-152,2013. X.Zhuj Z.Huang, H.T.Shen, J.Cheng and C.Xu.^Dimens1nality reduct1nby mixed kernel canonical correlat1n analysis".Pattern Recognit1n, 45(8):30 03- 3016,2012.
技术实现思路
本专利技术注意到:(I)属性选择三种方法中嵌入法最简单且效本文档来自技高网
...

【技术保护点】
基于子空间学习的嵌入式属性选择方法,包括下述步骤:1)模型建立:给定训练集条件属性及对应的类标签,建立一个具有LDA功能和LPP功能的嵌入式的属性选择方法的目标函数;2)优化:优化步骤1)的目标函数,得到优化后的系数矩阵;3)根据所得的系数矩阵的特征,排除重要度为0的属性;4)分析:将经过步骤3)后得到的条件属性类标签送到支持向量机中进行分类或者回归分析,得到选择结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:朱永华宗鸣程德波邓振云孙可朱晓峰张师超
申请(专利权)人:广西师范大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1