本发明专利技术提供了一种SVM分类器的构造方法及装置,其中,该方法包括:根据MCP罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数;在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值;根据得到的各个模型参数的取值构造SVM分类器。本发明专利技术构造的SVM分类器可以在保证组特征选择准确性的同时,具备oracle性质和组效应性质,从而可以实现更为有效的特征选择和类标签分类。
【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种SVM分类器的构造方法及装置,其中,该方法包括:根据MCP罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数;在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值;根据得到的各个模型参数的取值构造SVM分类器。本专利技术构造的SVM分类器可以在保证组特征选择准确性的同时,具备oracle性质和组效应性质,从而可以实现更为有效的特征选择和类标签分类。【专利说明】SVM分类器的构造方法及装置
本专利技术涉及机器学习和数理统计
,特别涉及一种支持向量机(SupportVector Machine, SVM)分类器的构造方法及装置。
技术介绍
传统的L2范数SVM只能实现分类的目的,在面对像高维小样本数据甚至超高维小样本数据时,这些数据中因为存在大量的冗余特征,利用传统的L2范数SVM进行分类预测准确率不高,无法在分类的同时实现特征选择。传统的LI范数SVM能够在实现分类的同时实现特征选择,但是LI范数SVM不具有特征选择的oracle性质和组效应性质,并且无法处理数据中存在高度共线性的情形,所谓oracle性质指的是特征选择效果具有特征选择一致性,即将与类标签最相关的特征选中的能力;所谓的组效应性质就是在进行特征分类的过程中,特征系数趋向于相等的数据可以被分在同一组中。目前,还没有一种可以在保证进行准确的组特征选择的同时,又具备oracle性质和组效应性质的SVM分类器。
技术实现思路
本专利技术实施例提供了一种SVM分类器的构造方法,以达到构造一种可以在保证组特征选择准确性的同时,具备oracle性质和组效应性质的SVM分类器的目的,其中,该方法包括:根据最小化最大凹度罚(Minimax Concave Penalty,MCP)罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数;在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值;根据得到的各个模型参数的取值构造SVM分类器。本专利技术实施例还提供了一种SVM分类器的构造装置,以达到构造一种可以在保证组特征选择准确性的同时,具备oracle性质和组效应性质的SVM分类器的目的,其中,该装置包括:目标函数构造模块,用于根据MCP罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数;训练模块,用于在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值;分类器构造模块,用于根据得到的各个模型参数的取值构造SVM分类器。在本专利技术实施例中,利用MCP罚函数和基于相关系数的罚函数来构造SVM分类器的目标函数,因为MCP罚函数具备oracle性质,基于相关系数的罚函数构造的SVM分类器可以实现组效应性质,因此,通过上述方式最终构造的SVM分类器可以在保证组特征选择准确性的同时,具备oracle性质和组效应性质,可以实现更为有效的特征选择和类标签分类。【专利附图】【附图说明】此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。在附图中:图1是本专利技术实施例的SVM分类器的构造方法的方法流程图;图2是本专利技术实施例的十折交叉验证方法的方法流程图;图3是本专利技术实施的LI范数罚的示意图;图4是本专利技术实施例的MCP罚的示意图;图5是本专利技术实施例的LI范数罚的导函数的示意图;图6是本专利技术实施例的MCP罚的导函数示意图;图7是本专利技术实施例的SVM分类器的构造装置的结构框图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本专利技术做进一步详细说明。在此,本专利技术的示意性实施方式及其说明用于解释本专利技术,但并不作为对本专利技术的限定。专利技术人考虑到,基于LI范数罚的SVM分类器之所以不具备oracle性质,是因为LI范数罚对于全部特征的系数都进行压缩,而MCP罚函数倾向于仅对较小的系数压缩为零,而对较大的系数进行很小的压缩甚至不压缩,因此,如何采用MCP罚函数构造SVM分类器可以具备很好的oracle性质,进一步的,所谓组效应性质指的是在面对数据中存在高度共线性的情形时,得到的模型向量中高度共线性的那些特征的系数趋向于相等,因而这些系数相等或者几乎相等的特征明显地形成了一个组,这个组的特点就是系数相等或者几乎相等,因此可以利用基于相关系数的罚函数构造SVM分类器,基于相关系数的罚函数的优点在于其根据数据中特征之间的相关系数情况自适应地改变罚的程度,对于非共线性和低度共线性的特征的系数之差的绝对值惩罚程度小,因而对于非共线性和低度共线性的特征之间的系数不具有令其相等的作用,它们不能形成一个明显的组,而对于彼此之间高度共线性,即相关系数很大的特征的系数之差的绝对值惩罚程度大,因而倾向于令高度共线性的特征之间的系数相等,它们明显形成了一个以系数相等为特点的组,即实现了组效应性质。基于以上分析,在本例中提出了一种SVM分类器的构造方法,如图1所示,包括以下步骤:步骤101:根据MCP罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数;步骤102:在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值;步骤103:根据得到的各个模型参数的取值构造SVM分类器。在上述实施例中,利用MCP罚函数和基于相关系数的罚函数来构造SVM分类器的目标函数,因为MCP罚函数具备oracle性质,基于相关系数的罚函数构造的SVM分类器可以实现组效应性质,因此,通过上述方式最终构造的SVM分类器可以在保证组特征选择准确性的同时,具备oracle性质和组效应性质,可以实现更为有效的特征选择和类标签分类。在上述步骤101中,构造的SVM分类器的目标函数可以是:【权利要求】1.一种支持向量机SVM分类器的构造方法,其特征在于,包括: 根据最小化最大凹度罚MCP罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数; 在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值; 根据得到的各个模型参数的取值构造SVM分类器。2.如权利要求1所述的方法,其特征在于,构造的SVM分类器的目标函数为: 3.如权利要求2所述的方法,其特征在于: MCP罚函数的表达式为: 4.如权利要求3所述的方法,其特征在于,对所述目标函数进行训练,包括: 采用交叉验证方法对所述目标函数进行训练。5.如权利要求4所述的方法,其特征在于,采用交叉验证方法对所述目标函数进行训练,包括: 在可调参数入1、入2和y的取值区间上选取网格搜索的离散值,形成可调参数λρλ2和Y的离散取值; 将可调参数λ”入2和y的离散取值组合成三维网格点; 计算根据所述三维网格点中各个网格点的可调参数的离散值构造的SVM分类器的分类错误率; 将分类错误率最小的网格点作为最佳的网格点; 将选取的最佳的网格点对应的可调参数λP λ 2和y的数值作为训练得到的所述目标函数的可调参数值; 以训练得到的可调参数λ”入2和y作为已知量,在训练样本集上对SVM分类器进行训练得到模 型向量β和截距b; 将训练得到的可调参数入1、入2和Y、和模型向量β和截距b作为目标函数中各个模型参数的取值。6.如权利要求5所述的方法,其特征在于本文档来自技高网...
【技术保护点】
一种支持向量机SVM分类器的构造方法,其特征在于,包括:根据最小化最大凹度罚MCP罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数;在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值;根据得到的各个模型参数的取值构造SVM分类器。
【技术特征摘要】
【专利技术属性】
技术研发人员:刘建伟,崔立鹏,罗雄麟,
申请(专利权)人:中国石油大学北京,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。