一种针对样本性质提取有效特征的方法技术

技术编号：13587503 阅读：55 留言：0更新日期：2016-08-25 11:07

本发明专利技术公开一种针对样本性质提取有效特征的方法，包括训练样本特征序列化步骤、样本特征选择器与对应模型训练步骤和针对样本的模型分类步骤；分类时初期设定一个初始的特征集，对于每一个需要分类的样本根据当前已有特征集决定下一步需要提取特征集，然后判断是否停止提取特征，如果还需要提取特征，则重复上一步过程，如果停止提取特征，就输入到合适的分类器进行分类，得到预测结果。与现有技术相比，本发明专利技术充分考虑了样本特征提取的时间开销和分类的置信度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及模式识别中针对样本的有效特征提取技术，特别适用于同时需要考虑特征提取代价和分类结果可靠性的问题。
技术介绍
随着互联网和各种便携式上网设备的快速发展，网络已经成为人们生活的重要组成部分和人类文明传播发展的重要载体；越来越多的数据通过网络传播。为了满足人们对于信息形式的不同需求，我们通常把文字、声音、图像等信息融为一体；这就导致了网络中数据形式的纷繁复杂。现在，越来越多的复杂媒体数据在网络中大量产生和传播。我们面临着如何在这些大量且复杂的数据上进行高效的检索和分类的问题。因此，人们希望寻求一种高效且有用的特征提取方式来处理这些大量的信息。目前，有很多在线的机器学习方法，比如：在线聚类、在线分类；它们都是通过采样或者优化策略来对学习过程进行加速。然而，这些方法都是建立在特征提出开销没有考虑的基础之上的；也就是说数据从原始数据到有效特征的提取开销是没有考虑的。实际上，在整个分类系统的运转中，从原始数据中提取出有效特征是一个不小的开销；随着数据形式越来越复杂，特征提取开销占整个系统的开销比例也越来越大。如何高效的提取有用特征是我们需要解决的一个问题。在医疗诊断系统中，有一系列的检测，比如：体温测量、血液检查、血压测量。然而，我们在诊断过程不是得到所有检测的结果，然后下诊断，这样做的成本过于高昂；而是先进行初步的检查，然后根据初步检查结果判断是否进行下一步检查，如果需要判断下一步做哪一项检查，如果不需要得出诊断结论。我们受到这个想法的启发，希望针对不同的样本提取对该样本来说最有效的一组特征来进行分类，而不是提取所有特征，从而减少特征提取开销。专利技术...

【技术保护点】
一种针对样本性质提取有效特征的方法，其特征在于：包括训练样本特征序列化步骤、样本特征选择器与对应模型训练步骤和针对样本的模型分类步骤；所述训练样本特征序列化的具体步骤为：步骤100，对训练样本数据进行标注，获取所有特征和相应特征的时间开销；步骤101，根据获取的特征，计算训练样本样本对之间的欧式距离；步骤102，根据样本对之间的距离和设置的近邻个数，寻找训练样本的近邻集合；步骤103，在训练样本的近邻集合中计算每个训练样本各个特征具有的权重，即各组特征对样本分类的有用程度；步骤104，对特征进行排序，权重值越大，说明该特征对分类的贡献越大，应该早一点提取；所述样本特征选择器与对应模型训练的具体步骤为：步骤200，对训练数据进行序列化之后，把数据按照已有特征集和下一步需提取特征集的形式进行拆分，得到一组特征集对；步骤201，根据拆分的特征集对，训练基于当前已有特征的特征选择器G和针对不同的特征组合的分类器；所述的模型分类的具体步骤为：步骤300，对测试样本提取初始特征集；步骤301，根据评价指标，判断是否需要提取下一个特征集，若需要，跳转至步骤302；否则跳转至步骤303；步骤302，根...

【技术特征摘要】
1.一种针对样本性质提取有效特征的方法，其特征在于：包括训练样本特征序列化步骤、样本特征选择器与对应模型训练步骤和针对样本的模型分类步骤；所述训练样本特征序列化的具体步骤为：步骤100，对训练样本数据进行标注，获取所有特征和相应特征的时间开销；步骤101，根据获取的特征，计算训练样本样本对之间的欧式距离；步骤102，根据样本对之间的距离和设置的近邻个数，寻找训练样本的近邻集合；步骤103，在训练样本的近邻集合中计算每个训练样本各个特征具有的权重，即各组特征对样本分类的有用程度；步骤104，对特征进行排序，权重值越大，说明该特征对分类的贡献越大，应该早一点提取；所述样本特征选择器与对应模型训练的具体步骤为：步骤200，对训练数据进行序列化之后，把数据按照已有特征集和下一步需提取特征集的形式进行拆分，得到一组特征集对；步骤201，根据拆分的特征集对，训练基于当前已有特征的特征选择器G和针对不同的特征组合的分类器；所述的模型分类的具体步骤为：步骤300，对测试样本提取初始特征集；步骤301，根据评价指标，判断是否需要提取下一个特征集，若需要，跳转至步骤302；否则跳转至步骤303；步骤302，根据已有特征集和特征选择器G，决定下一步需要提取的特征集，并把当前提取特征集与已有特征集合并，跳转至步骤301；步骤303，根据当前已有特征集寻找训练好的对应的分类模型进行分类。2.根据权利要求1所述的针对样本性质提取有效特征的方法，其特征在于：所述步骤102寻找训练样本近邻集合的具体方法为：将计算出的欧式距离按照升序排序，根据设置的近邻个数k，选择出前k个。3.根据权利要求1所述的针对样本性质提取有效特征的方法，其特征在于：所述步骤103训练样本特征的权重的计算方法为：使训练样本与每一个邻居的带
\t权重均方差之和最小，具体公式如下：argminuiΣj∈δilog(1+exp(rij(Di(xj)-ci)))+λ||ui||1s.t.ui≥0---(1)]]>其中，Xi表示样本的第i个特征，Xj表示样本的第j个特征，Di(Xj)表示Xi与Xj之间的带权重的距离，ui表示样本的第i个特征的权重，δi...

【专利技术属性】
技术研发人员：詹德川，姜远，周志华，李静，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人