一种基于支持向量机的包含未知类别的多分类方法技术

技术编号:16819628 阅读:64 留言:0更新日期:2017-12-16 13:14
本发明专利技术提供一种基于支持向量机的包含未知类别的多分类方法,包括:1)分别基于每个训练后的第i类别分类器,识别出待识别样本是否属于第i类别;所述第i类别分类器是用已知的属于第i类别的样本构建正样本集,用已知的属于其余N‑1类别的所有样本构建负样本集,基于SVM模型进行训练而得到的用于识别所输入的样本是否属于第i类别的二分类分类器;2)当步骤1)中将待识别样本输入每个二分类分类器,所得结果均为否时,认定当前待识别样本属于未知类别;当步骤1)中,有且仅有一个二分类分类器的输出结果为是时,则认定当前待识别样本属于这个二分类分类器所对应的类别。本发明专利技术具有未知类别的检测能力,具有较高的查全率和查准率。

A multi classification method containing unknown categories based on Support Vector Machines

The invention provides a multi classification method, support vector machine contains unknown based on category include: 1) based on the I classifier for each category after training were identified to identify whether the sample belongs to the category I; construct positive sample set with samples belonging to the category I known the category I classification build a sample set, all samples known to belong to the remaining N 1 categories, the SVM model is trained based on the obtained classification for two classifier input samples belong to category I; 2) when step 1) will be identified for each of the two input sample classification classifier, the results are all not at present, identification of unknown sample is unknown; when step 1), and there is only a two output classification classifier results is that when the new sample belongs to the two classification The category corresponding to the device. The invention has the detection ability of unknown category, and has high recall and precision.

【技术实现步骤摘要】
一种基于支持向量机的包含未知类别的多分类方法
本专利技术涉及机器学习领域,具体地说,本专利技术涉及一种基于支持向量机的包含未知类别的多分类方法。
技术介绍
支持向量机(SVM)作为一种典型的机器学习算法,由于其完备的理论支持,在各种分类问题中得到了广泛应用。SVM假设样本数据在原始空间一般不是线性可分的,可以将样本数据从原始空间映射到新的特征空间(新特征空间一般是更高维的),样本数据在新特征空间的对应点为二分类SVM的目标可以描述为利用样本数据在特征空间中寻找一个线性超平面其中是线性超平面的法向量,b是偏移量,如果f(xi)>0则yi=+1表示该样本数据属于正类别,如果f(xi)<0则yi=-1表示该样本数据属于反类别。最优的线性超平面应该使得样本数据离该线性超平面的最小距离最大化,数学形式表示为满足约束条件其中C是经验系数,ξi为松弛变量,对少数不满足硬性约束条件的样本数据放松约束(代价是目标函数被惩罚)。对于多分类SVM,任取两种类别的样本数据采用上述方式进行训练,分别得到分类模型(线性超平面),新样本数据最终属于哪个类别由所有分类模型投票产生。例如N分类SVM可以分解为N(N-1)/2个二分类SVM,如果N(N-1)/2个二分类SVM选取相同的核函数(特征空间映射函数)以及相关参数,相当于N(N-1)/2个线性超平面将整个特征空间进行划分,如图1所示。目前几乎所有的机器学习算法,其判断结果均为已知类别,例如数字0-9的手写输入识别,无论输入何种数据,机器学习算法均会从这10个数字中选中其中一个作为识别结果,对于无效的随机输入数据,更理想的处理结果是输出一个未知类别来表示无效输出。在人机交互领域,该缺陷引起的问题并不明显,对于无效的识别结果,人类可以简单判别并忽略该输出。但在一些全自动领域,由于异常条件的存在,则必须自动判断输入数据是否正常或有效。对于SVM,目前可以采用如下三种方式解决该问题。第一种方式是在训练阶段获取未知类别的样本数据,对于数字识别即为采集各种随意输入的数据,例如波浪线(~~)、勾(√)、叉(×)等不属于数字0-9类别的数据,从而得到包含11种类别的样本数据,然后使用传统的SVM训练整个样本数据集得到分类模型。这种方式的缺点是明显的,未知类别的类别数目本身就是无穷的,因此采集的样本数据无法覆盖所有分布。第二种方式是采用概率的形式,训练得到的是含有概率的分类模型,预测阶段输出的是每个新样本数据属于各种类别的概率而不是单一的类别结果。这种方式可以部分解决该问题,尤其是预测阶段输出的前几个最大概率大小相当时,基本可以认定新样本数据是未知类别,因为属于已知类别时应该是对应该类别的概率值远远大于对应其他类别的概率值。如果某一已知类别和未知类别的某一子类别相对“接近”,该方式将会明显判断失误,例如数字1-9的识别,当实际输入“0”时,分类模型也将认为对应类别“6”的概率值远远大于对应其他类别的概率值。因此该方式是一个充分条件而非必要条件。第三种方式是联合使用SVM的变种算法——支持向量数据描述(SVDD)算法。在训练阶段,首先将所有已知类别的样本数据作为正常类别,其次利用这一正常类别的样本数据训练得到SVDD模型,然后使用传统的SVM训练整个样本数据集得到SVM模型。在预测阶段,首先根据SVDD模型判断新样本数据是否正常,如果正常,则使用SVM模型判断新样本数据具体属于哪一个类别。这种方式的主要缺点存在于SVDD阶段,由于只有一种类别的样本数据,训练得到的SVDD模型一般较为粗糙,同时缺少其他类别样本数据的限制和矫正,SVDD模型也容易产生过拟合,因此对于新样本数据是否正常的判断精度本身就较差,亦即对新样本数据是否属于未知类别的判断精度较差。
技术实现思路
因此,本专利技术的任务是提供一种更加适于含有未知类别的应用场景的基于支持向量机的多分类解决方案。根据本专利技术的一个方面,提供了一种基于支持向量机的包含未知类别的多分类方法,包括下列步骤:1)对于待识别样本,分别基于每个训练后的第i类别分类器,识别出该待识别样本是否属于第i类别;其中,i=1、2、……N;所述第i类别分类器是用已知的属于第i类别的样本构建正样本集,用已知的属于其余N-1类别的所有样本构建负样本集,基于SVM模型进行训练而得到的二分类分类器,该二分类分类器用于识别所输入的样本是否属于第i类别;2)当步骤1)中将待识别样本输入每个二分类分类器,所得结果均为否时,认定当前待识别样本属于未知类别;当步骤1)中,有且仅有一个二分类分类器的输出结果为是时,则认定当前待识别样本属于这个二分类分类器所对应的类别。其中,所述步骤2)还包括:当步骤1)中,有多个二分类分类器的输出结果为是时,直接认定当前待识别样本属于未知类别;或者在输出结果为是的这些二分类分类器所对应的类别的范围内,采用其它分类方法进一步地分辨当前待识别样本属于哪个类别。其中,所述步骤1)中,所述第i类别分类器按下述方法训练:11)取第i类别作为正类别,其余N-1种类别作为反类别;12)基于SVM模型进行训练而得到作为第i类别分类器的二分类分类器。其中,所述步骤12)中,在进行训练时,先将已知样本从原始空间映射到新的特征空间,得到对应的特征空间变换后的样本以使得SVM模型的类别分界线更加规则。其中,所述步骤12)中,SVM模型的目标函数被配置为:利用样本数据在特征空间中寻找一个超球面其中是超球面的球心,R是超球面的半径,如果f(x)<R则输出y=+1表示该样本属于正类别,如果f(x)>R则输出y=-1,表示该样本属于反类别;寻找最优的超球面,使得该超球面的表面积最小化并且已知样本数据离该超球面的最小距离最大化;然后根据所述的最优的超球面得到SVM模型的最优参数。其中,所述步骤12)中,使得已知样本数据离该超球面的最小距离最大化是:将正反类别样本数据离原超球面的最小距离分别形成两个同心超球面,使得同心超球面组成的超球壳的壳厚度最大化。其中,所述目标函数为:约束条件为其中C1和C2是经验系数,d相当于满足约束条件的样本数据离超球面的最小距离,ξi为松弛变量;所述的SVM模型的最优参数为:其中,所述步骤12)中,所述的SVM模型的最优参数求解方法如下:121)通过拉格朗日乘子法得到目标函数的拉格朗日函数;122)令拉格朗日函数中部分变量的偏导为零,得到求解目标函数的对偶问题,该对偶问题中的核函数优选高斯核;123)通过二次规划算法求解所述对偶问题,根据已知样本数据训练得到参数和R。需要说明,在步骤122)中,虽然在大部分情况高斯核是最优的,但高斯核并不是唯一的选择,在一些实施例中,多项式核(即用多项式核作为核函数)对部分场景也是有效的。其中,所述步骤12)中,所述特征空间变换能够使得SVM模型的类别线性可分或聚集可分。与现有技术相比,本专利技术具有下列技术效果:(1)同类别的样本数据是可聚类的,而非发散的,符合数据的实际分布,因此本专利技术更贴近实际数据。判断未知类别的精度较高。(2)分类模型具有未知类别的检测能力,不仅具有和传统SVM相当的查全率而且还具有较高的查准率。(3)分类模型简单,类似于传统的SVM,最终的分类模型仅和少量位于超球壳界面上或者错误侧的样本数据(即支持向量)有关。(4)本文档来自技高网
...
一种基于支持向量机的包含未知类别的多分类方法

【技术保护点】
一种基于支持向量机的包含未知类别的多分类方法,包括下列步骤:1)对于待识别样本,分别基于每个训练后的第i类别分类器,识别出该待识别样本是否属于第i类别;其中,i=1、2、……N;所述第i类别分类器是用已知的属于第i类别的样本构建正样本集,用已知的属于其余N‑1类别的所有样本构建负样本集,基于SVM模型进行训练而得到的二分类分类器,该二分类分类器用于识别所输入的样本是否属于第i类别;2)当步骤1)中将待识别样本输入每个二分类分类器,所得结果均为否时,认定当前待识别样本属于未知类别;当步骤1)中,有且仅有一个二分类分类器的输出结果为是时,则认定当前待识别样本属于这个二分类分类器所对应的类别。

【技术特征摘要】
1.一种基于支持向量机的包含未知类别的多分类方法,包括下列步骤:1)对于待识别样本,分别基于每个训练后的第i类别分类器,识别出该待识别样本是否属于第i类别;其中,i=1、2、……N;所述第i类别分类器是用已知的属于第i类别的样本构建正样本集,用已知的属于其余N-1类别的所有样本构建负样本集,基于SVM模型进行训练而得到的二分类分类器,该二分类分类器用于识别所输入的样本是否属于第i类别;2)当步骤1)中将待识别样本输入每个二分类分类器,所得结果均为否时,认定当前待识别样本属于未知类别;当步骤1)中,有且仅有一个二分类分类器的输出结果为是时,则认定当前待识别样本属于这个二分类分类器所对应的类别。2.根据权利要求1所述的基于支持向量机的包含未知类别的多分类方法,其特征在于,所述步骤2)还包括:当步骤1)中,有多个二分类分类器的输出结果为是时,直接认定当前待识别样本属于未知类别;或者在输出结果为是的这些二分类分类器所对应的类别的范围内,采用其它分类方法进一步地分辨当前待识别样本属于哪个类别。3.根据权利要求1所述的基于支持向量机的包含未知类别的多分类方法,其特征在于,所述步骤1)中,所述第i类别分类器按下述方法训练:11)取第i类别作为正类别,其余N-1种类别作为反类别;12)基于SVM模型进行训练而得到作为第i类别分类器的二分类分类器。4.根据权利要求3所述的基于支持向量机的包含未知类别的多分类方法,其特征在于,所述步骤12)中,在进行训练时,先将已知样本从原始空间映射到新的特征空间,得到对应的特征空间变换后的样本以使得已知样本的类别分界线更加规则。5.根据权利要求4所述的基于支持向量机的包含...

【专利技术属性】
技术研发人员:邢云冰陈益强忽丽莎
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1