基于噪声概率函数的多核学习分类方法技术

技术编号:15260252 阅读:56 留言:0更新日期:2017-05-03 13:03
本发明专利技术公开了一种基于噪声概率函数的多核学习分类方法,包括以下步骤:噪声概率函数的计算;每轮迭代中的基分类器ft*(x)的选择以及对应系数的计算;权重的更新。本发明专利技术所述基于噪声概率函数的多核学习分类方法适用于被噪声污染数据集的分类算法,优点在于不用去求解复杂的优化问题,计算量比传统多核学习方法小,而且有效地解决了传统多核集成学习(Multiple Kernel Boosting Learning)对噪声敏感的问题,鲁棒性更好。

Multi kernel learning classification method based on noise probability function

The invention discloses a multi kernel learning classification method based on noise probability function, which comprises the following steps: calculating the noise probability function; ft* based classifier in each iteration of the (x) selection and calculation of the corresponding coefficient; weight update. The invention is based on multiple kernel learning classification noise probability function classification algorithm is applicable to noise pollution data set, advantage is not to solve complex optimization problems, computation than the traditional multiple kernel learning method, but also effectively solve the traditional multi-core integrated learning (Multiple Kernel Boosting Learning) is sensitive to noise, better robustness.

【技术实现步骤摘要】

本专利技术涉及一种基于噪声概率函数的多核学习分类方法属于数据挖掘

技术介绍
线性支持向量机(SVM)由Cortes与Vapnik提出,随着SVM研究的深入,SVM渗透到了机器学习的诸多领域,例如模式分类、回归估计、概率密度估计等。SVM取得了巨大的成功,但它属于单核学习(SingleKernelLearning),具有一定的局限性。机器学习领域,多核学习(MultipleKernelLearning)越来越受到关注,因为相比单核学习,多核学习可以克服样本特征中规模巨大、异构信息、多维数据不规则及数据在高维特征空间分布不平坦的现象。近年来出现了多种有效的多核学习理论与方法,如2004年Lanckriet,Bartlett等人提出了基于半定规划(Semidefiniteprogram)的学习方法,同年Bach,Jordan等人提出了基于二次约束型二次规划的优化方法(Quadraticallyconstrainedquajdraticprogram),2006年Sonnernburg,Ratsch等人提出了基于半无限线性规化(Semi-infinitelinearprogram)的学习方法,同年Smola,Ratsch等人提出基于超核(Hyperkernels)的学习方法,2007年Rakotomamonjy等人提出了简单多核学习方法(SimpleMKL),2011年陶剑文与王士同提出了多核局部领域适应学习方法(LocalLearning-basedDomainAdaptation)。上述方法在不同应用领域均取得了一定的成功,但这些传统多核学习方法需要求解一个复杂的优化问题,计算量较大,不易收敛。2012年HaoXia,Steven提出了集成多核学习的算法框架MKBoost,其实验结果表明,该算法大大降低了计算量,也具有较高的精度,但Boosting思想的引入,也带来了对噪声敏感的问题。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于噪声概率函数的多核学习分类方法,该方法不用去求解复杂的优化问题,计算量小,而且有效解决了对噪声敏感的问题。本专利技术通过以下技术方案来实现上述目的:一种基于噪声概率函数的多核学习分类方法,包括以下步骤:(1)噪声概率函数的计算;(2)每轮迭代中的基分类器ft*(x)的选择以及对应系数的计算;(3)权重的更新。作为优选,所述步骤(1)中,按以下公式计算噪声概率函数其中:式中,Zi是样本(xi,yi)的K个最近邻点集合,f(x)为基分类器,yj为真实类别,uKNN(xi,yi)为噪声探测结果,是uKNN(xi,yi)在基分类器f(x)下的平均值,λ为人工设置参数;若集合Zi中分类错误的样本越多,则样本(xi,yi)是噪声的可能性越大所述步骤(2)中,基于噪声概率函数确定如下损失函数:最小化损失函数L(y,f(x)),然后按以下公式选择第t轮迭代中基分类器ft*(x)及计算其对应的系数其中,式中,Ft-1(xi)表示经过(t-1)轮迭代后得到的组合分类器;所述步骤(3)中,利用M个核函数下的样本噪声概率按以下公式初始化与基分类器的选择相关的系数以及样本权重已知第t轮迭代的数据,按以下公式更新权重:本专利技术的有益效果在于:本专利技术所述基于噪声概率函数的多核学习分类方法适用于被噪声污染数据集的分类算法,优点在于不用去求解复杂的优化问题,计算量比传统多核学习方法小,而且有效地解决了传统多核集成学习(MultipleKernelBoostingLearning)对噪声敏感的问题,鲁棒性更好。具体实施方式下面结合实施例对本专利技术作进一步说明:本专利技术所述基于噪声概率函数的多核学习分类方法包括以下步骤:(1)噪声概率函数的计算;(2)每轮迭代中的基分类器ft*(x)的选择以及对应系数的计算;(3)权重的更新;其中,所述步骤(1)中,按以下公式计算噪声概率函数其中:式中,Zi是样本(xi,yi)的K个最近邻点集合,f(x)为基分类器,yj为真实类别,uKNN(xi,yi)为噪声探测结果,是uKNN(xi,yi)在基分类器f(x)下的平均值,λ为人工设置参数;若集合Zi中分类错误的样本越多,则样本(xi,yi)是噪声的可能性越大所述步骤(2)中,基于噪声概率函数确定如下损失函数:最小化损失函数L(y,f(x)),然后按以下公式选择第t轮迭代中基分类器ft*(x)及计算其对应的系数其中,式中,Ft-1(xi)表示经过(t-1)轮迭代后得到的组合分类器;所述步骤(3)中,利用M个核函数下的样本噪声概率按以下公式初始化与基分类器的选择相关的系数以及样本权重已知第t轮迭代的数据,按以下公式更新权重:实施例:为了对本方法的正确性与有效性进行验证,我们使用6个UCI数据集进行实验。对于每个数据集,采用8个核函数(5个高斯核函数,3个多项式核函数),如下表1所示:表1UCI数据集的信息DatasetsSamplesFeaturesClassesBalance-scale56742Breast-cancer569322Ionosphere351342Blood-transfusion74852Diabetic-retinopathy1151202Pima-indians76882在每个噪声水平下,对数据集重复实验30次,实验结果为30次实验的平均值,如下表2所示:实验中分别随机修改10%、20%、30%的训练样本类别属性值,以得到不同噪声水平的训练集。在样本噪声概率计算时,K近邻法KNN中K=7,采用欧氏距离进行距离度量,噪声概率函数中λ=8.6。由表2可知,在无噪声的情况下,三种算法测试误差相当,当噪声水平为10%时,MKB_NP算法在Balance-scale、Ionosphere、Pima-indians这三个数据集中表现优于其他两个算法;当噪声水平为20%时,新算法在Balance-scale、Blood-transfusion、Diabetic-retinopathy这三个数据集中测试误差最小;当噪声水平为30%时,MKB_NP算法在Balance-scale、Breast-cancer、Blood-transfusion、Pima-indians这四个数据集中表现最为优异。综上所述,MKB_NP算法即本专利技术方法在6个数据集上的表现优于MKB_D1与MKB_D2算法,且在较高噪声水平的数据分类中,对噪声数据敏感性更低,训练误差更小,鲁棒性更好。上述实施例只是本专利技术的较佳实施例,并不是对本专利技术技术方案的限制,只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案,均应视为落入本专利技术专利的权利保护范围内。本文档来自技高网
...

【技术保护点】
一种基于噪声概率函数的多核学习分类方法,其特征在于:包括以下步骤:(1)噪声概率函数的计算;(2)每轮迭代中的基分类器ft*(x)的选择以及对应系数的计算;(3)权重的更新。

【技术特征摘要】
1.一种基于噪声概率函数的多核学习分类方法,其特征在于:包括以下步骤:(1)噪声概率函数的计算;(2)每轮迭代中的基分类器ft*(x)的选择以及对应系数的计算;(3)权重的更新。2.根据权利要求1所述的基于噪声概率函数的多核学习分类方法,其特征在于:所述步骤(1)中,按以下公式计算噪声概率函数其中:u‾=Σi=1NuKNN(xi,yi)/N,]]>式中,Zi是样本(xi,yi)的K个最近邻点集合,f(x)为基分类器,yj为真实类别,uKNN(xi,yi)为噪声探测结果,是uKNN(xi,yi)在基分类器f(x)下的平均值,λ为人工设置参数;若集合Zi中分类错误的样本越多,则样本(xi,yi)是噪声的可能性越大所述步骤(2)中,基于噪声概率函数确定如下损失函数:最小化损失函数L(y,f(x)),然后按以下公式选择第t轮迭代中基分类器ft*(x)及计算其对应的系数ft*(x)=arg...

【专利技术属性】
技术研发人员:武德安冯杰吴磊陈鹏冯江远
申请(专利权)人:电子科技大学成都国科海博信息技术股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1