当前位置: 首页 > 专利查询>扬州大学专利>正文

一种基于局部样条嵌入的核化分类器制造技术

技术编号:13899900 阅读:103 留言:0更新日期:2016-10-25 13:54
本发明专利技术涉及一种基于局部样条嵌入的核化分类器。本发明专利技术选择训练数据和测试数据,训练数据的基于局部样条嵌入的非线性降维,根据已获得的训练数据的最佳非线性嵌入对测试数据使用核方法推导出其扩展形式,即获得测试数据在低维流形上的非线性嵌入,使用线性的支持向量机算法对降维后的测试数据进行分类。本发明专利技术克服了无法在非线性分类问题上达到很好的分类性能的缺陷。本发明专利技术采用局部样条嵌入的非线性降维算法对高维有标签数据降维,再对高维有标签数据进行了特征提取,然后将新的无标签高维测试数据的嵌入,最后根据数据特点使用SVM算法实现对新的测试数据的分类。

【技术实现步骤摘要】

本专利技术应用于对高维数据的分类分析,特别涉及一种基于局部样条嵌入的核化分类器
技术介绍
局部样条嵌入算法是一种优秀的流形降维算法,但它的目的主要是对数据进行降维,所以,这一点就导致了它的降维结果并不一定利于对数据进行分类。在本专利技术提出之前,与本专利技术最相关的工作是由专利技术人提出的一种基于局部样条嵌入的线性分类方法,该方法将局部样条嵌入算法与线性判别算法相结合,寻找能够最小化训练数据在全局低维坐标种的重构误差并且能够具有最佳局部类判别性的最佳线性映射,并将它应用于测试数据上,最后使用KNN算法对线性映射后的测试数据分类。但是,该线性分类算法只能找到最佳的线性映射,其隐含的假设是数据线性可分,事实上这一假设也普遍存在于其它基于局部样条嵌入的分类器设计中。在现实世界中,真实数据集绝大部分都是非线性可分的。虽然基于局部样条嵌入的线性分类方法通过采用KNN分类器的方法,能够在一定程度上弥补这一缺陷,但是仍然无法在非线性分类问题上达到很好的分类性能。要处理非线性的流形分类问题,最理想的方法就是设计一种非线性的降维分类方法。然而,目前尚未有研究者提出过基于局部样条嵌入的非线性分类器。因此,如何设计一种基于局部样条嵌入的非线性分类器,使之能够处理非线性可分的分类问题,这是亟待解决的重要问题。核方法是一种用于解决线性不可分问题的方法,通过将原始数据经过隐式的非线性变换,映射至一个高维特征空间中去,将在原本线性不可分的问题转化为线性可分的问题。本专利技术将使用核方法,设计一种基于局部样条嵌入的非线性核化分类器
技术实现思路
本专利技术的目的在于克服上述缺陷,充分发挥训练数据的类别信息的作用,设计一种基于局部样条嵌入的核化分类器。本专利技术的技术方案是:一种基于局部样条嵌入的核化分类器,其主要技术特征在于步骤如下:(1)选择训练数据和测试数据;(2)训练数据的基于局部样条嵌入的非线性降维,包括:(2-1)分别构建类内图和类间图并选取邻域;(2-2)根据所选取邻域的训练数据点的类内图和类间图分别构建测试点的类内局部切空间和类间局部切空间;(2-3)从类内局部切空间和类间局部切空间出发,借助核方法将训练数据在局部切空间的坐标变换为全局低维坐标,计算出使得训练数据点映射至全局低维坐标时重构误差最小并且具有最佳局部类判别性的目标函数,得到训练数据的最佳非线性嵌入;(3)根据已获得的训练数据的最佳非线性嵌入对测试数据使用核方法推导出其扩展形式,即获得测试数据在低维流形上的非线性嵌入;(4)使用线性的支持向量机算法对降维后的测试数据进行分类。所述步骤(1)训练数据为高维有标签数据,测试数据为高维无标签数据。所述步骤(2)构建类内图和类间图邻域,对训练数据进行基于局部样条嵌入的非线性降维,通过定义最优化目标并结合核方法,寻找能够使投影后的样本达到最大类间离散度和最小类内离散度的全局最佳非线性嵌入。所述步骤(3)测试数据的低维嵌入是:根据已获得的训练样本的最佳非线性嵌入,对测试数据使用核方法进行推导,获得测试数据的扩展形式,得到测试数据在训练数据的低维流形上的非线性嵌入。本专利技术的优点和效果在于采用基于局部样条嵌入的核化分类器对高维无标签测试数据进行降维分类分析,表现为:(1)借鉴了局部样条嵌入算法、线性判别函数算法和核方法的思想,并融合了监督信息,在最大化保持了样本局部特性的同时,提高了信息分类的准确度。(2)在邻域内构建类内图和类间图,对类内近邻和类间近邻进行区分,并通过最大化样条插值函数的类内近邻光滑度,同时最小化样条插值函数的类内近邻光滑度,来实现映射类内紧凑、类间离散的效果。(3)能够有效处理非线性流形分类问题,通过使用核方法寻找训练数据的非线性嵌入,再使用核方法对测试数据推导其扩展形式,获得测试数据在低维目标流形中的非线性嵌入,实现对高维无标签非线性数据的低维嵌入,有利于对真实数据的处理。本专利技术采用基于局部样条嵌入的非线性降维算法对高维有标签数据降维,再对高维有标签数据进行了特征提取,然后将新的无标签高维测试数据的嵌入,最后根据数据特点使用SVM算法实现对新的测试数据的分类。附图说明图1——本专利技术流程示意图。具体实施方式本专利技术的主要技术思路是:本专利技术采用基于局部样条嵌入的非线性降维算法加上线性SVM(线性的支持向量机)分类算法对高维有标签的数据进行降维分类,融入监督信息克服了局部样条嵌入算法对高维信息降维后的结果不一定利于分类处理的缺陷,同时,构建类内图和类间图对类内近邻和类间近邻进行区分,对实现类内紧凑和类间离散的效果有极大的帮助,尤其是引入了再生核希尔伯特空间,使用核方法寻找测试数据的最佳非线性嵌入,能够处理原本无法处理非线性数据的分类问题。因为经过使用核方法,已经使得数据变为线性可分,所以最后使用线性SVM算法对数据进行分类即可。本专利技术的步骤如下:1.选择训练数据和测试数据。训练数据为高维有标签的数据,测试数据为高维无标签的数据。2.对训练数据进行基于局部样条嵌入非线性降维,这个步骤包括三个阶段:(2.1)通过构建类内图、类间图来选取邻域。定义一个样本点并选其k个近邻作为邻域其邻域Xi可以分为和两个部分,与它具有相同类标签的样本点为表示在样本点xi的邻域中具有同类标签的第j个样本点,与它具有不同类标签的样本点为表示在样本点xi的邻域中具有不同类标签的第j个样本点,对邻域和这两个样本点定义如下:(2.2)假设切空间的维度为d(d<<D),分别用ηi|w和ηi|b表示Ni|w(xi)和Ni|b(xi)的关于xi的类内局部切空间坐标和类间局部切空间坐标:先构建类内图中每个类内点xi|w在低维局部切空间中的坐标。令对Xi|w进行奇异值分解: X i | w = U i | w Σ i | w V i | w T - - - ( 5 ) ]]>则样本中的点在近局部切空间中的坐标为: η i | w j = Σ ^ i | w V i | w T - - - ( 6 ) ]]>其中表示类内点xi|w的第j个近邻在局部切空间中的坐标,j∈[1,ki|w],则有同理再对类间图构建每个类间点xi|b的低维局部切空间坐标。令对Xi|b进行奇异值分解,最后可得类间点近邻坐标本文档来自技高网...

【技术保护点】
一种基于局部样条嵌入的核化分类器,其特征在于步骤如下:(1)选择训练数据和测试数据;(2)训练数据的基于局部样条嵌入的非线性降维,包括:(2‑1)分别构建类内图和类间图并选取邻域;(2‑2)根据所选取邻域的训练数据点的类内图和类间图分别构建测试点的类内局部切空间和类间局部切空间;(2‑3)从类内局部切空间和类间局部切空间出发,借助核方法将训练数据在局部切空间的坐标变换为全局低维坐标,计算出使得训练数据点映射至全局低维坐标时重构误差最小并且具有最佳局部类判别性的目标函数,得到训练数据的最佳非线性嵌入;(3)根据已获得的训练数据的最佳非线性嵌入对测试数据使用核方法推导出其扩展形式,即获得测试数据在低维流形上的非线性嵌入;(4)使用线性的支持向量机算法对降维后的测试数据进行分类。

【技术特征摘要】
1.一种基于局部样条嵌入的核化分类器,其特征在于步骤如下:(1)选择训练数据和测试数据;(2)训练数据的基于局部样条嵌入的非线性降维,包括:(2-1)分别构建类内图和类间图并选取邻域;(2-2)根据所选取邻域的训练数据点的类内图和类间图分别构建测试点的类内局部切空间和类间局部切空间;(2-3)从类内局部切空间和类间局部切空间出发,借助核方法将训练数据在局部切空间的坐标变换为全局低维坐标,计算出使得训练数据点映射至全局低维坐标时重构误差最小并且具有最佳局部类判别性的目标函数,得到训练数据的最佳非线性嵌入;(3)根据已获得的训练数据的最佳非线性嵌入对测试数据使用核方法推导出其扩展形式,即获得测试数据在低维流形上的非线性嵌入;(4)使用线性的支持向...

【专利技术属性】
技术研发人员:何萍敬田禹徐晓华林惠惠
申请(专利权)人:扬州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1