当前位置: 首页 > 专利查询>南京大学专利>正文

一种针对样本性质提取有效特征的方法技术

技术编号:13587503 阅读:43 留言:0更新日期:2016-08-25 11:07
本发明专利技术公开一种针对样本性质提取有效特征的方法,包括训练样本特征序列化步骤、样本特征选择器与对应模型训练步骤和针对样本的模型分类步骤;分类时初期设定一个初始的特征集,对于每一个需要分类的样本根据当前已有特征集决定下一步需要提取特征集,然后判断是否停止提取特征,如果还需要提取特征,则重复上一步过程,如果停止提取特征,就输入到合适的分类器进行分类,得到预测结果。与现有技术相比,本发明专利技术充分考虑了样本特征提取的时间开销和分类的置信度。

【技术实现步骤摘要】

本专利技术涉及模式识别中针对样本的有效特征提取技术,特别适用于同时需要考虑特征提取代价和分类结果可靠性的问题。
技术介绍
随着互联网和各种便携式上网设备的快速发展,网络已经成为人们生活的重要组成部分和人类文明传播发展的重要载体;越来越多的数据通过网络传播。为了满足人们对于信息形式的不同需求,我们通常把文字、声音、图像等信息融为一体;这就导致了网络中数据形式的纷繁复杂。现在,越来越多的复杂媒体数据在网络中大量产生和传播。我们面临着如何在这些大量且复杂的数据上进行高效的检索和分类的问题。因此,人们希望寻求一种高效且有用的特征提取方式来处理这些大量的信息。目前,有很多在线的机器学习方法,比如:在线聚类、在线分类;它们都是通过采样或者优化策略来对学习过程进行加速。然而,这些方法都是建立在特征提出开销没有考虑的基础之上的;也就是说数据从原始数据到有效特征的提取开销是没有考虑的。实际上,在整个分类系统的运转中,从原始数据中提取出有效特征是一个不小的开销;随着数据形式越来越复杂,特征提取开销占整个系统的开销比例也越来越大。如何高效的提取有用特征是我们需要解决的一个问题。在医疗诊断系统中,有一系列的检测,比如:体温测量、血液检查、血压测量。然而,我们在诊断过程不是得到所有检测的结果,然后下诊断,这样做的成本过于高昂;而是先进行初步的检查,然后根据初步检查结果判断是否进行下一步检查,如果需要判断下一步做哪一项检查,如果不需要得出诊断结论。我们受到这个想法的启发,希望针对不同的样本提取对该样本来说最有效的一组特征来进行分类,而不是提取所有特征,从而减少特征提取开销。专利技术内容:专利技术目的:之前的很多机器学习算法都是从采样或者优化的角度来考虑如何提高学习算法的效率,很少有算法考虑到样本的特征提取开销的问题,随着数据形式的越来越复杂,特征提取的开销也越来越大。针对上述问题,本专利技术提出一
针对样本性质提取有效特征的方法,对于容易分类的样本,只提取简单的特征,也就是一些开销比较小的特征;对于很难分类的样本,不仅仅提取简单特征,还提取一些复杂的特征来帮助样本分类。技术方案:一种针对样本性质提取有效特征的方法,初期设定一个初始的特征集,对于每一个需要分类的样本根据当前已有特征集决定下一步需要提取特征集,然后判断是否停止提取特征。如果还需要提取特征,则重复上一步过程;如果停止提取特征,就输入到合适的分类器进行分类,得到预测结果。本专利技术方法具体包括训练样本特征序列化步骤、样本特征选择器与对应模型训练步骤和针对样本的模型分类步骤;所述训练样本特征序列化的具体步骤为:步骤100,对训练样本数据进行标注,获取所有特征和相应特征的时间开销;步骤101,根据获取的特征,计算训练样本样本对之间的欧式距离;步骤102,根据样本对之间的距离和设置的近邻个数,寻找训练样本的近邻集合;步骤103,在训练样本的近邻集合中计算每个训练样本各个特征具有的权重,即各组特征对样本分类的有用程度;步骤104,对特征进行排序,权重值越大,说明该特征对分类的贡献越大,应该早一点提取;所述样本特征选择器与对应模型训练的具体步骤为:步骤200,对训练数据进行序列化之后,把数据按照已有特征集和下一步需提取特征集的形式进行拆分,得到一组特征集对;步骤201,根据拆分的特征集对,训练基于当前已有特征的特征选择器G和针对不同的特征组合的分类器;所述的模型分类的具体步骤为:步骤300,对测试样本提取初始特征集;步骤301,根据评价指标,判断是否需要提取下一个特征集,若需要,跳转至步骤302;否则跳转至步骤303;步骤302,根据已有特征集和特征选择器G,决定下一步需要提取的特征集,并把当前提取特征集与已有特征集合并,跳转至步骤301;步骤303,根据当前已有特征集寻找训练好的对应的分类模型进行分类。所述步骤102寻找训练样本近邻集合的具体方法为:将计算出的欧式距离按照升序排序,根据设置的近邻个数k,选择出前k个。所述步骤103训练样本特征的权重的计算方法为:使它与每一个邻居的带权重均方差之和最小,具体公式如下:argminuiΣj∈δilog(1+exp(rij(Di(xj)-ci)))+λ||ui||1s.t.ui≥0---(1)]]>其中,Xi表示样本的第i个特征,Xj表示样本的第j个特征,Di(Xj)表示Xi与Xj之间的带权重的距离,ui表示样本的第i个特征的权重,δi是由第i个样本的k个邻居组成的样本集合;yi和yj分别表示第i和第j个样本的标记,如果yi=yj,则rij=1,否则rij=-1;ci和λ是设置的参数,ci表示同一个类之间样本距离的上限,λ为正则化参数。所述步骤201特征选择器G的具体公式如下:其中,xl表示前l次已经提取的特征,l表示第l次提取特征,c表示下一步提取的特征,表示提取的特征集合,f是关于特征的函数,w表示线性系数;特征的函数f表示为:f(xl,c)=xl1TC (4)1T是一个大小为1*m,元素全为1的向量,m为提取特征的组数;C表示对角矩阵,Ckk表示第k行主对角线上的元素,当c=k时,Ckk=1,否则Ckk=-1。线性系数w表示为:argminw||w||22+αΣi,lξils.t.wTf(Xil,cl+1)>Δ(cl+1,cl+1^)+wTf(Xil,c^l+1)-ξil---(5)]]>表示第i个样本已经提取的l组特征,cl+1表示第i个样本l+1步需提取的特征,表示第l+1步除了需提取特征外的其他候选特征,Δ定义为Δ(ci,ci)=0,Δ(ci,cj)=1,这里i≠j,为松弛变量,α为正则化参数。所述步骤201中分类器Cs的具体公式如下:Cs(xs)=argmaxy∈ZVTf(xs,y)---(6)]]>其中,xs表示已提取的特征,y表示样本的标记,Z表示标记空间,也就是所有标记的集合,f是关于特征的函数,V按照下面的优化公式求解:argminV||V||22+DΣiϵis.t.VTf(xis,yi)>Δ(yi,y^)+VTf(xis,y^)-ϵi---(7)]]>表示第i个样本已提取的特征,yi表示第i个样本的标记,为除样本标记yi外的其他标记,Δ定义为Δ(yi,yi)=0,这里εi为松弛变量。所述步骤301评价指标包括提取特征的时间上线阈值和分类器的分类准确率要求。有益效果:与现有技术相比本专利技术充分考虑了样本特征提取的时间开销和分类的置信度。本专利技术利用每个样本的特点,提取出对该类型样本最具分类作用的特征,针对简单样本,只提取一些基本特征;针对复杂样本,才提取更多的特征。由于对于同一个样本,不同的特征集的作用程度是有差别的,本专利技术提出最利于分类的特征,有助于提高分类精度。附图说明图1为本专利技术的训练样本特征序列化阶段的工作流程图;图2为本专利技术的样本特征选择器与对应模型训练阶段的工作流程图;图3为本专利技术的针对样本的模型分类阶段的工作流程图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本文档来自技高网
...

【技术保护点】
一种针对样本性质提取有效特征的方法,其特征在于:包括训练样本特征序列化步骤、样本特征选择器与对应模型训练步骤和针对样本的模型分类步骤;所述训练样本特征序列化的具体步骤为:步骤100,对训练样本数据进行标注,获取所有特征和相应特征的时间开销;步骤101,根据获取的特征,计算训练样本样本对之间的欧式距离;步骤102,根据样本对之间的距离和设置的近邻个数,寻找训练样本的近邻集合;步骤103,在训练样本的近邻集合中计算每个训练样本各个特征具有的权重,即各组特征对样本分类的有用程度;步骤104,对特征进行排序,权重值越大,说明该特征对分类的贡献越大,应该早一点提取;所述样本特征选择器与对应模型训练的具体步骤为:步骤200,对训练数据进行序列化之后,把数据按照已有特征集和下一步需提取特征集的形式进行拆分,得到一组特征集对;步骤201,根据拆分的特征集对,训练基于当前已有特征的特征选择器G和针对不同的特征组合的分类器;所述的模型分类的具体步骤为:步骤300,对测试样本提取初始特征集;步骤301,根据评价指标,判断是否需要提取下一个特征集,若需要,跳转至步骤302;否则跳转至步骤303;步骤302,根据已有特征集和特征选择器G,决定下一步需要提取的特征集,并把当前提取特征集与已有特征集合并,跳转至步骤301;步骤303,根据当前已有特征集寻找训练好的对应的分类模型进行分类。...

【技术特征摘要】
1.一种针对样本性质提取有效特征的方法,其特征在于:包括训练样本特征序列化步骤、样本特征选择器与对应模型训练步骤和针对样本的模型分类步骤;所述训练样本特征序列化的具体步骤为:步骤100,对训练样本数据进行标注,获取所有特征和相应特征的时间开销;步骤101,根据获取的特征,计算训练样本样本对之间的欧式距离;步骤102,根据样本对之间的距离和设置的近邻个数,寻找训练样本的近邻集合;步骤103,在训练样本的近邻集合中计算每个训练样本各个特征具有的权重,即各组特征对样本分类的有用程度;步骤104,对特征进行排序,权重值越大,说明该特征对分类的贡献越大,应该早一点提取;所述样本特征选择器与对应模型训练的具体步骤为:步骤200,对训练数据进行序列化之后,把数据按照已有特征集和下一步需提取特征集的形式进行拆分,得到一组特征集对;步骤201,根据拆分的特征集对,训练基于当前已有特征的特征选择器G和针对不同的特征组合的分类器;所述的模型分类的具体步骤为:步骤300,对测试样本提取初始特征集;步骤301,根据评价指标,判断是否需要提取下一个特征集,若需要,跳转至步骤302;否则跳转至步骤303;步骤302,根据已有特征集和特征选择器G,决定下一步需要提取的特征集,并把当前提取特征集与已有特征集合并,跳转至步骤301;步骤303,根据当前已有特征集寻找训练好的对应的分类模型进行分类。2.根据权利要求1所述的针对样本性质提取有效特征的方法,其特征在于:所述步骤102寻找训练样本近邻集合的具体方法为:将计算出的欧式距离按照升序排序,根据设置的近邻个数k,选择出前k个。3.根据权利要求1所述的针对样本性质提取有效特征的方法,其特征在于:所述步骤103训练样本特征的权重的计算方法为:使训练样本与每一个邻居的带
\t权重均方差之和最小,具体公式如下:argminuiΣj∈δilog(1+exp(rij(Di(xj)-ci)))+λ||ui||1s.t.ui≥0---(1)]]>其中,Xi表示样本的第i个特征,Xj表示样本的第j个特征,Di(Xj)表示Xi与Xj之间的带权重的距离,ui表示样本的第i个特征的权重,δi...

【专利技术属性】
技术研发人员:詹德川姜远周志华李静
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1