The invention provides a multi classification method, support vector machine contains unknown based on category include: 1) based on the I classifier for each category after training were identified to identify whether the sample belongs to the category I; construct positive sample set with samples belonging to the category I known the category I classification build a sample set, all samples known to belong to the remaining N 1 categories, the SVM model is trained based on the obtained classification for two classifier input samples belong to category I; 2) when step 1) will be identified for each of the two input sample classification classifier, the results are all not at present, identification of unknown sample is unknown; when step 1), and there is only a two output classification classifier results is that when the new sample belongs to the two classification The category corresponding to the device. The invention has the detection ability of unknown category, and has high recall and precision.
【技术实现步骤摘要】
一种基于支持向量机的包含未知类别的多分类方法
本专利技术涉及机器学习领域,具体地说,本专利技术涉及一种基于支持向量机的包含未知类别的多分类方法。
技术介绍
支持向量机(SVM)作为一种典型的机器学习算法,由于其完备的理论支持,在各种分类问题中得到了广泛应用。SVM假设样本数据在原始空间一般不是线性可分的,可以将样本数据从原始空间映射到新的特征空间(新特征空间一般是更高维的),样本数据在新特征空间的对应点为二分类SVM的目标可以描述为利用样本数据在特征空间中寻找一个线性超平面其中是线性超平面的法向量,b是偏移量,如果f(xi)>0则yi=+1表示该样本数据属于正类别,如果f(xi)<0则yi=-1表示该样本数据属于反类别。最优的线性超平面应该使得样本数据离该线性超平面的最小距离最大化,数学形式表示为满足约束条件其中C是经验系数,ξi为松弛变量,对少数不满足硬性约束条件的样本数据放松约束(代价是目标函数被惩罚)。对于多分类SVM,任取两种类别的样本数据采用上述方式进行训练,分别得到分类模型(线性超平面),新样本数据最终属于哪个类别由所有分类模型投票产生。例如N分类SVM可以分解为N(N-1)/2个二分类SVM,如果N(N-1)/2个二分类SVM选取相同的核函数(特征空间映射函数)以及相关参数,相当于N(N-1)/2个线性超平面将整个特征空间进行划分,如图1所示。目前几乎所有的机器学习算法,其判断结果均为已知类别,例如数字0-9的手写输入识别,无论输入何种数据,机器学习算法均会从这10个数字中选中其中一个作为识别结果,对于无效的随机输入数据,更理想的处理结果是输 ...
【技术保护点】
一种基于支持向量机的包含未知类别的多分类方法,包括下列步骤:1)对于待识别样本,分别基于每个训练后的第i类别分类器,识别出该待识别样本是否属于第i类别;其中,i=1、2、……N;所述第i类别分类器是用已知的属于第i类别的样本构建正样本集,用已知的属于其余N‑1类别的所有样本构建负样本集,基于SVM模型进行训练而得到的二分类分类器,该二分类分类器用于识别所输入的样本是否属于第i类别;2)当步骤1)中将待识别样本输入每个二分类分类器,所得结果均为否时,认定当前待识别样本属于未知类别;当步骤1)中,有且仅有一个二分类分类器的输出结果为是时,则认定当前待识别样本属于这个二分类分类器所对应的类别。
【技术特征摘要】
1.一种基于支持向量机的包含未知类别的多分类方法,包括下列步骤:1)对于待识别样本,分别基于每个训练后的第i类别分类器,识别出该待识别样本是否属于第i类别;其中,i=1、2、……N;所述第i类别分类器是用已知的属于第i类别的样本构建正样本集,用已知的属于其余N-1类别的所有样本构建负样本集,基于SVM模型进行训练而得到的二分类分类器,该二分类分类器用于识别所输入的样本是否属于第i类别;2)当步骤1)中将待识别样本输入每个二分类分类器,所得结果均为否时,认定当前待识别样本属于未知类别;当步骤1)中,有且仅有一个二分类分类器的输出结果为是时,则认定当前待识别样本属于这个二分类分类器所对应的类别。2.根据权利要求1所述的基于支持向量机的包含未知类别的多分类方法,其特征在于,所述步骤2)还包括:当步骤1)中,有多个二分类分类器的输出结果为是时,直接认定当前待识别样本属于未知类别;或者在输出结果为是的这些二分类分类器所对应的类别的范围内,采用其它分类方法进一步地分辨当前待识别样本属于哪个类别。3.根据权利要求1所述的基于支持向量机的包含未知类别的多分类方法,其特征在于,所述步骤1)中,所述第i类别分类器按下述方法训练:11)取第i类别作为正类别,其余N-1种类别作为反类别;12)基于SVM模型进行训练而得到作为第i类别分类器的二分类分类器。4.根据权利要求3所述的基于支持向量机的包含未知类别的多分类方法,其特征在于,所述步骤12)中,在进行训练时,先将已知样本从原始空间映射到新的特征空间,得到对应的特征空间变换后的样本以使得已知样本的类别分界线更加规则。5.根据权利要求4所述的基于支持向量机的包含...
【专利技术属性】
技术研发人员:邢云冰,陈益强,忽丽莎,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。