【技术实现步骤摘要】
本专利技术涉及数据处理领域,特别涉及一种支持向量机的并行训练方法及装置。
技术介绍
支持向量机(Support Vector Machines,SVM)于1995年由Cortes和Vapnik提出,用于对数据进行分类。它是一种二分类模型训练方法,其基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机还包括核技巧(kernel trick),这使它成为实质上的非线性分类器,其分类策略是找到最大间隔超平面,进而进行数据分类。它可以形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数最小化问题。支持向量机具有许多特有的优势,比如分类正确率较高,可解决非线性数据分类问题等。而如何对支持向量机模型进行训练,使得到的最大间隔分离超平面最优化是模型训练方法的核心问题。现有技术中,对支持向量机模型的并行训练方法目前主要有以下两种:层叠支持向量机(CascadeSVM)又称级联支持向量机,层叠支持向量机是设计在分布式系统上的多层次模型训练方法,采用分而治之的思想训练SVM模型。常用序列最小最优化算法(Sequential Minimal Optimization,SMO)对Cascade SVM的目标函数进行求解。拥有P个结点的CascadeSVM系统有log(P)+1层,并且,将整个训练样本集(TD)划分成P个子集(TD1,TD2,…,TDp),每一个子集TDi都被当做一个独立的子模型进行训练。在训练过程中,逐步从所有训练样本里挑选出拉格朗日乘子非0的特定样本,即支持向量。支持向量集SV是其训练样本集的子集每一个子模型都会产生它自己的支持向量,且仅有支 ...
【技术保护点】
一种支持向量机的并行训练方法,其特征在于,包括:步骤1:获取训练样本集,并将所述训练样本集划分为n个子训练样本集,其中,n为偶数;步骤2:对所述n个子训练样本集进行并行训练,得到n组支持向量,其中,所述子训练样本集与所述支持向量具有唯一对应性;步骤3:将所述n组支持向量每两组归并为一组,得到n/2组支持向量;步骤4:将所述n/2组支持向量中的每组支持向量作为一个子训练样本集,返回步骤2,直到训练次数达到预设值后,得到初始支持向量,执行步骤5,其中,每个所述初始支持向量携带其真实标签yi及拉格朗日乘子i=1,2…m,m为所述初始支持向量的数量;步骤5:从所述初始支持向量中选取r个作为目标样本集;步骤6:令ω=sv,根据所述初始支持向量的真实标签yi及拉格朗日乘子确定当前权值ω表达式,根据所述初始支持向量的拉格朗日乘子确定每个目标样本集中样本的拉格朗日乘子αi,并根据ω确定每个目标样本集中样本的预测标签y′i,其中,s初始化为1;步骤7:遍历所述目标样本集,每遍历一个所述目标样本集中样本,将s更新为其倍,并根据该目标样本集中样本的预测标签y′i判断该目标样本集中样本分类是否正确,如果正确, ...
【技术特征摘要】
1.一种支持向量机的并行训练方法,其特征在于,包括:步骤1:获取训练样本集,并将所述训练样本集划分为n个子训练样本集,其中,n为偶数;步骤2:对所述n个子训练样本集进行并行训练,得到n组支持向量,其中,所述子训练样本集与所述支持向量具有唯一对应性;步骤3:将所述n组支持向量每两组归并为一组,得到n/2组支持向量;步骤4:将所述n/2组支持向量中的每组支持向量作为一个子训练样本集,返回步骤2,直到训练次数达到预设值后,得到初始支持向量,执行步骤5,其中,每个所述初始支持向量携带其真实标签yi及拉格朗日乘子i=1,2…m,m为所述初始支持向量的数量;步骤5:从所述初始支持向量中选取r个作为目标样本集;步骤6:令ω=sv,根据所述初始支持向量的真实标签yi及拉格朗日乘子确定当前权值ω表达式,根据所述初始支持向量的拉格朗日乘子确定每个目标样本集中样本的拉格朗日乘子αi,并根据ω确定每个目标样本集中样本的预测标签y′i,其中,s初始化为1;步骤7:遍历所述目标样本集,每遍历一个所述目标样本集中样本,将s更新为其倍,并根据该目标样本集中样本的预测标签y′i判断该目标样本集中样本分类是否正确,如果正确,执行步骤8,否则,执行步骤9,其中,t为预设的目标样本集确定次数;步骤8:根据当前s值对当前未遍历的目标样本集中样本的预测标签进行更新,继续遍历所述目标样本集,直至遍历结束;步骤9:确定更新后的该目标样本集中样本的拉格朗日乘子αi,将该更新后的目标样本集中样本的拉格朗日乘子αi记录在预先建立的哈希表中,并根据当前s值及更新后的αi对当前未遍历的目标样本集中样本的预测标签进行更新,继续遍历所述目标样本集,直至遍历结束,其中,更新后的该目标样本集中样本的拉格朗日乘子αi为其倍,λ为正则化参数;步骤10:在所述目标样本集遍历结束后,根据所述哈希表,将分类不正确的目标样本集中样本的拉格朗日乘子进行更新;步骤11:返回步骤5,直到达到预设的目标样本集确定次数后,遍历当前的初始支持向量,选取当前对应拉格朗日乘子不为0的初始支持向量作为最终支持向量进行线性加权得到v,根据ω=sv及f(x)=ωx确定最大间隔分离超平面方程f(x),完成分类模型训练。2.如权利要求1所述的方法,其特征在于,所述对所述n个子训练样本集进行并行训练,得到n组支持向量具体为:通过序列最小最优化算法SMO对所述n个子训练样本集进行并行训练,得到n组支持向量。3.如权利要求1所述的方法,其特征在于,根据所述真实标签yi及拉格朗日乘子所确定的当前权值ω表达式为: ω = Σ i = 1 m α i * y i φ ( x i ) ]]>其中,m为所述初始支持向量的数量,为所述初始支持向量xi的拉格朗日乘子,yi为所述初始支持向量xi的真实标签,φ(xi)为所述初始支持向量xi的映射函数。4.如权利要求1所述的方法,其特征在于,所述预测标签y′i通过以下公式确定:y′i=<ω,φ(xi)>其中,ω为所述当前权值,φ(xi)为所述目标样本集中样本xi的映射函数。5.如权利要求1所述的方法,其特征在于,所述根据该目标样本集中样本的预测标签y′i判断该目标样本集中样本分类是否正确具体为:判断所述该目标样本集中样本的预测标签y′i与该目标样本集中样本的真实标签yi的乘积是否小于1;如果小于1,则分类不正确,否则分类正确。6.如权利要求1所述的方法,其特征在于,所述预设的目标样本集确定次数t为用户设定的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。