本发明专利技术提供了一种文本分类方法,基于最小二乘支持向量机的文本分类方法,先将文本信息进行预处理,将其转化为向量形式。然后利用支持向量机方法对处理后的文本向量构造超平面。最后利用最小二乘法对得到的分类超平面进行拟合,从而找出最优的分类超平面,实现文本分类过程。本发明专利技术基于最小二乘支持向量机的文本分类方法具有分类时间短,召回率高,内存需求少,学习速度快的特点。尤其适用于当今有多链接的Internet网页及大规模搜索引擎。
【技术实现步骤摘要】
本专利技术涉及文本分类方法,特别是基于最小二乘支持向量机的文 本分类方法。二
技术介绍
随着Internet的广泛应用及WWW技术的快速发展,文本分类技 术成为WEB挖掘的一个重要分支。目前常用的文本分类方法主要有: 基于模糊聚类的中文文本自动分类方法、朴素贝叶斯(NaiveBayes) 方法、KNN方法、神经网络算法和支持向量机(SVM)经典文本分 类算法。这些方法虽能够进行比较准确的文本分类,但在分类时间和 召回率方面已不能适应当今Internet发展的速度。三
技术实现思路
本专利技术的目的是克服上述不足问题,提供一种基于最小二乘支持 向量机的文本分类方法。该方法利用最小二乘法与传统支持向量机的 方法的相结合,具有分类时间短,召回率高,内存需求少,学习速度 快的特点。本专利技术为实现上述目的所采用的技术方案是 一种基于最小二乘 支持向量机的文本分类方法,将进行过文本预处理后的文本信息,利用最小二乘方法来拟合用传统的支持向量机方法所得到的分类超平 面,从而得到最优的超平面,实现文本分类。所述在文本预处理过程中,所进行的特征抽取采用属性约简方 法,提取相对重要的属性。所述使用传统的支持向量机时采用二次函数y=io^作为事先给定的非线性映射。本专利技术分类方法的特点利用最小二乘法来拟合由传统的支持向 量机得到的超平面,该专利技术的优点是可以在短时间内达到高效的分类效果和召回率,特别适用于有多链接的Internet网页及大规模搜索引 擎。具体实施例方式下面结合具体实施方式对本专利技术作进一步详细说明,但不限于具 体实施例。按照下列方法对文本进行分类,首先对文本进行预处理,预处理 的过程采用属性约简技术,从众多的属性中挑选出对于文本分类影响 因素大的属性。并将文本信息做成向量形式,向量中的每个元素对应 着一个属性值。然后利用支持向量机方法得到分类的超平面,最后利 用最小二乘法拟合得到的最优超平面,实现文本分类过程。具体实现步骤如下1.设训练样本集为(x,j;,), /=h 2......,","为训练样本的个数,A为表示文本信息的向量,乂.e(l,-l)是输入样本x,.的类标记(期望输出)。2. 通过事先给定的非线性影射7=^把输入向量1映射到一个 高维特征空间Z,在这个空间中构造最优分类超平面,将此问题归结 为 一个带约束的二次规划问题min ||co||2/2 s.t. ;^(欣;+6)21,/=7,2,…/。3. 利用最小二乘法来判断最优分类超平面。若样本集线性可分, d维空间中线性判别函数g(x"cyjc+6,分类面方程为wxf6=0。利用 最小二乘法来判断最优的超平面,用mathematic软件的findfit函数判 断最优分类超平面。权利要求1.,其特征是将进行过文本预处理后的文本信息,利用最小二乘方法来拟合用支持向量机方法所得到的分类超平面,从而得到最优的超平面,实现文本分类。2、 根据权利要求1所述的基于最小二乘支持向量机的文本分类 方法,其特征是在文本预处理过程中,所进行的特征抽取采用属性 约简方法,提取相对重要的属性。3、 根据权利要求1所述的,其特征是使用支持向量机时采用二次函数作为事先给定的非线性映射。4. 根据权利要求1所述的基于最小二乘支持向量机的文本分类 方法,其特征是构造分类超平面时,利用二次规划模型<formula>formula see original document page 2</formula><formula>formula see original document page 2</formula>全文摘要本专利技术提供了一种文本分类方法,,先将文本信息进行预处理,将其转化为向量形式。然后利用支持向量机方法对处理后的文本向量构造超平面。最后利用最小二乘法对得到的分类超平面进行拟合,从而找出最优的分类超平面,实现文本分类过程。本专利技术具有分类时间短,召回率高,内存需求少,学习速度快的特点。尤其适用于当今有多链接的Internet网页及大规模搜索引擎。文档编号G06F17/30GK101350017SQ20081001288公开日2009年1月21日 申请日期2008年8月20日 优先权日2008年8月20日专利技术者盛秀英 申请人:盛秀英本文档来自技高网...
【技术保护点】
基于最小二乘支持向量机的文本分类方法,其特征是:将进行过文本预处理后的文本信息,利用最小二乘方法来拟合用支持向量机方法所得到的分类超平面,从而得到最优的超平面,实现文本分类。
【技术特征摘要】
【专利技术属性】
技术研发人员:盛秀英,
申请(专利权)人:盛秀英,
类型:发明
国别省市:91[中国|大连]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。