本发明专利技术公开了自适应向量投影的非线性支持向量选取方法,方法用于非线性数据的文本分类,包括以下步骤:(1)将原始样本映射到高维空间转化为线性样本;(2)计算线性样本的中心距离;(3)将线性样本投影到线性样本的中心向量后,在一维空间内选取具有原始特征的边界样本;(4)利用支持向量机对边界样本进行训练,得到分类结果。本发明专利技术自适应向量投影的非线性支持向量选取方法相较于现有的支持向量机的方法,针对非线性不可分的数据,其分类精度更高,分类速度更快,更适用于人脸识别、手写体识别,文本分类等领域内。
【技术实现步骤摘要】
本专利技术属于支持向量机的学习方法,具体涉及一种自适应向量投影的非线性支持 向量选取方法。
技术介绍
统计学习理论最早提出于20世纪60年代,它是针对小样本进行研宄,20世纪90 年代中期,Vapnik基于此理论提出了新的学习算法--支持向量机。近年来,支持向量机 的研宄获得了越来越多的关注,支持向量机已经成功应用于许多实际问题,例如人脸识别、 手写体识别,文本分类等。文本分类是信息过滤、信息检索、搜索引擎、文本数据库、数字化 图书管等领域的技术基础,而支持向量机是文本分类的最主要最简单的手段之一。然而,标准支持向量机的训练速度比较慢,在实际应用中受到极大限制,通过研 宄发现,支持向量机在训练的时候,仅仅由位于边界的支持向量决定,因此如果能预先确 定支持向量,能够极大的加快支持向量机的训练速度。目前很多相关的算法被提出,例如 Chunking算法,Decomposing算法和序列最小最优化算法,这些算法获得支持向量需要多 次迭代。为了加快获得支持向量的时间,研宄者提出了一种改进的支持向量机BS-SVM(见 参考文献1)、基于向量投影的支撑向量预选取方法(见参考文献2)。然而在实际中,由于 样本分布难以预测,如何选取边界向量代替支持向量成为研宄的关键。在文献2中采用类 中心向量作为投影方向,但是当样本分散时,类中心并不能反映该样本的原始特征,降低分 类精度。针对样本分布不均匀和离散度大的问题,在选取支持向量时,难以确定包含原始 样本特征的边界向量,从而造成分类速度低下。而随着科技的日益发展,在信息过滤、信息 检索、搜索引擎、文本数据库、数字化图书管等领域,都其渴望一种更快速、分类更精确的方 法来提尚其彳目息过滤、彳目息检索、搜索的速率和效果。 故一种分类精度高、分类速度快的亟 待提出。 参考文献1 :郭亚琴,王正群,一种改进的支持向量机BS-SVMLJ].微电子学与计算 机,2010, 28(6) :54-56。 参考文献2:李青,焦李成,周伟达.基于向量投影的支撑向量预选取.计算机 学报,2005, 28(2) :145-151。
技术实现思路
为了解决上述技术问题,本专利技术提出了自适应向量投影的非线性支持向量选取方 法,该方法相较于现有的支持向量机的方法,针对非线性不可分的数据,其分类精度更高, 分类速度更快,更适用于人脸识别、手写体识别,文本分类等领域内。为了达到上述目的,本专利技术的技术方案如下:,方法用于非线性数据的文本分类, 包括以下步骤: (1)将原始样本映射到高维空间转化为线性样本; (2)计算线性样本的中心距离; (3)将线性样本投影到线性样本的中心向量后,在一维空间内选取具有原始特征 的边界样本; (4)利用支持向量机对边界样本进行训练,得到分类结果。 本专利技术一种,运用自适应投影方法, 从原始样本中提取出包含样本特征的边界样本作为新的训练样本,在保证原始样本所有特 征的同时限制边界样本数量,以提高训练速度和分类精度。 在上述技术方案的基础上,还可做如下改进: 作为优选的方案,在步骤(2)中,根据下式来得到线性样本的中心距离D,【主权项】1. ,所述方法用于非线性数据的文本分 类,其特征在于,包括以下步骤: (1) 将原始样本映射到高维空间转化为线性样本; (2) 计算所述线性样本的中心距离; (3) 将线性样本投影到所述线性样本的中心向量后,在一维空间内选取具有原始特征 的边界样本; (4) 利用支持向量机对边界样本进行训练,得到分类结果。2. 根据权利要求1所述的,其特征在于, 在所述步骤(2)中,根据下式来得到所述线性样本的中心距离D,其中%两类原始样本,为原始样本的均值; Φ ( ·)为非线性映射;K(x,y)为核函数。3. 根据权利要求2所述的,其特征在 于,在所述步骤(3)中:将所述线性样本投影到所述中心向量W (^1),w (m2)上后,计算 Φ (Xli)到Φ (IIi1)的最大距离Dl和Φ (X2j)到Φ (m2)的最大距离D2。4. 根据权利要求3所述的,其特征在于, 利用下式来选取所述边界样本: 当 D1+D2 < D 时, Dl- λ # d( Φ (X η),Φ On1)) < Dl ; D2- λ 2彡 d ( Φ (x 2J),Φ (m2))彡 D2 ; 当D1+D2彡D时, D-D2+ λ Dl-d ( Φ (X π),Φ (In1)) < Dl- λ 1; D-Dl+ λ D2_d ( Φ (χ 2j.),φ (m2)) < D2_ λ 2; 其中:λ ^ λ 2。5. 根据权利要求3或4所述的,其特征在 于,采用下式来得到Φ (Xli)到Φ (Hi1)的最大距离D1,6.根据权利要求3或4所述的,其特征在 于,采用下式得到Φ 0?)到Φ (m2)的最大距离D2,【专利摘要】本专利技术公开了,方法用于非线性数据的文本分类,包括以下步骤:(1)将原始样本映射到高维空间转化为线性样本;(2)计算线性样本的中心距离;(3)将线性样本投影到线性样本的中心向量后,在一维空间内选取具有原始特征的边界样本;(4)利用支持向量机对边界样本进行训练,得到分类结果。本专利技术相较于现有的支持向量机的方法,针对非线性不可分的数据,其分类精度更高,分类速度更快,更适用于人脸识别、手写体识别,文本分类等领域内。【IPC分类】G06F17-30【公开号】CN104750857【申请号】CN201510180702【专利技术人】郭亚琴, 秦燕, 王青 【申请人】南通理工学院【公开日】2015年7月1日【申请日】2015年4月16日本文档来自技高网...
【技术保护点】
自适应向量投影的非线性支持向量选取方法,所述方法用于非线性数据的文本分类,其特征在于,包括以下步骤:(1)将原始样本映射到高维空间转化为线性样本;(2)计算所述线性样本的中心距离;(3)将线性样本投影到所述线性样本的中心向量后,在一维空间内选取具有原始特征的边界样本;(4)利用支持向量机对边界样本进行训练,得到分类结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:郭亚琴,秦燕,王青,
申请(专利权)人:南通理工学院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。