一种基于样本特征值分布混淆度的特征选择方法技术

技术编号:16457247 阅读:31 留言:0更新日期:2017-10-25 21:22
本发明专利技术公开了一种基于样本特征值分布混淆度的特征选择方法,其包括:1、分别对数据集X中各类样本每一个特征fi的取值集合按从小到大的顺序进行排序;2、确定各类样本所对应的特征fi的限定值范围;3、确定数据集中M类样本对于第i个特征所对应的样本混淆数量,计算数据集X中第i个特征的特征值分布混淆度进而使用同样方法获得数据集X中每一个特征的Confusion值;4、依据所获得的Confusion值对数据集X中各个特征进行重要度排序以获得有序特征集合F;5、基于所设定的子集搜索策略,使用分类器对有序特征集合F或有序特征集合F中的部分特征所组成的子集Fsub进行子集搜索以得到所需的特征子集D。本发明专利技术能选出性能较好的特征子集,提高特征子集的识别能力,降低子集搜索过程中搜索次数。

A feature selection method based on the distribution confusion of sample eigenvalues

The invention discloses a feature selection method based on eigenvalue distribution, the confusion degree includes: 1. The value of fi data sets of various types of samples of each feature in the X collection are sorted according to the order from small to large; 2, determine the characteristics of fi corresponding to various samples of limited range; 3. From a data set M samples corresponding to the I characteristics of the sample quantity calculation of X in confusion, the characteristics of the I feature set the value of the data distribution and use the same method to obtain the confusion of the Confusion data set for every character in the X value; 4, according to the Confusion value ranking of each the characteristics of X data to obtain the ordered feature set F; 5, based on a subset of the set of search strategies, using a subset of Fsub classifier to the ordered feature set F or ordered feature set part features in F composed of Subset search is used to obtain the desired feature subset D. The proposed method can select feature subset with better performance, improve the recognition ability of feature subset, and reduce the number of search in subset search process.

【技术实现步骤摘要】
一种基于样本特征值分布混淆度的特征选择方法
本专利技术涉及一种降维方法,具体说是涉及一种基于样本特征值分布混淆度的特征选择方法。
技术介绍
特征选择是特征降维的一种方法,不同于主分量分析等降维方法,特征选择是求解一个计算量随特征个数呈指数增长的组合优化问题。在没有具体研究领域的相关知识做先验假设的情况下,要从原始的特征集中选取一个包含所有重要信息的特征子集,只能穷举地去遍历所有可能的特征子集,这种情况下,特征个数只要稍多一点,计算量就会变得非常庞大。特征选择主要包括候选特征子集生成、评价准则、停止准则和验证方法4个基本步骤,目前对特征选择方法的研究主要集中在子集搜索策略和评价准则两个方面。常见的特征选择方法大致可以分为三类:过滤式(Filter)、包裹式(Wrapper)和嵌入式(Embedding)。(1)过滤式选择:过滤式特征选择使用评价准则减少特征之间的相关性,增强特征与类之间的相关性,过滤式特征选择不考虑后续学习器,其中使用的评价函数可分成四类:其中距离度量有欧式距离、切比雪夫距离、平方距离等。例如Relief和ReliefF等;信息度量,如BIF(bestindividualfeature),MRMR(minimal-redundancyandmaximal-relevance)等算法以及它们的改进算法。依赖性度量:Pearson相关系数、Fisher分数、t-test、F-statistic、最小平方回归误差和平方关联系数等。一致性度量,对于给定的两个样本,若它们特征值相同但是类别不同,则称它们为不一致的,否则是一致的,使用不一率对特征进行度量,如Focus,LVF算法等。(2)包裹式选择:与过滤式选择方法不同,包裹式特征选择将算法使用最终要使用的学习器的性能作为特征子集的评价准则。由于包裹式特征选择出的特征子集是匹配于学习器的,从学习器性能来看,它选出的特征子集准确率更高。但在选择过程中需要对分类器进行多次训练,用于评价特征的分类算法有很多,如支持向量机、k近邻法、神经网络、贝叶斯分类器等。(3)嵌入式选择:嵌入式特征选择将特征选择过程与学习器训练过程融为一体,学习的过程同时自动地进行特征选择,学习过程结束之后特征选择也随之完成。决策树算法是一种典型的嵌入式算法,如ID3算法、C4.5算法以及CART算法。决策树算法会生成一个判定树,根据样本划分特征子集后的子集纯度,伴随着树的每一步增长的同时进行特征选择。特征选择算法按照子集搜索策略来分可分为全局最优搜索策略,如分支定界法;随机搜索策略,如ReliefF算法;启发式搜索策略,如单独最优特征组合,序列前向选择方法(SFS)、广义序列前向选择方法(GSFS)、序列后向选择算法(SBS)和广义序列后向选择方法(GSBS)等。由上述可以看出,目前存在着许多种类的特征选择算法,它们各有优点但都存在着不足。过滤式特征选择算法选择效率高,计算量相对小,速度快,通用性强,但是选择的特征子集性能通常较差。包裹式特征选择算法选出的特征子集具有较好的分类效果,且选出的特征子集特征维数要相对小的多,但计算复杂度高,速度上要比过滤式方法选择慢,泛化能力差。过滤式特征选择方法虽然计算速度快,能够对特征进行快速地评价,但是选出的特征子集性能一般较差。嵌入式的特征选择方法将选择方法嵌入到学习算法当中,只能适应于特定的几类算法。因而要根据具体问题而选择合理有效的特征选择算法。
技术实现思路
鉴于已有技术存在的缺陷,本专利技术的目的是要提供一种基于样本特征值分布混淆度的特征选择方法,该方法是一种分阶段的混合特征选择方法,能够将Filter和Wrapper特征选择算法结合并分阶段完成特征选择过程,进而能够选出性能较好的特征子集,提高特征子集的识别能力,降低子集搜索过程中搜索次数。为了实现上述目的,本专利技术的技术方案:一种基于样本特征值分布混淆度的特征选择方法,其特征在于,包括如下步骤:步骤1、分别对数据集X中各类样本所对应的每一个特征fi的取值集合按从小到大的顺序进行排序;所述数据集的特征取值类型为数值型,并设定数据集X中原始特征集F'表示为F'={fi|i=1,2,3,...,n},其中n为原始特征集中的特征个数,fi表示原始特征集中的第i个特征,同时设定数据集X中包含M类样本,M=1,2,…,m,第m类共有样本数Lm,将第m类的样本所对应的特征fi表示为X(i,m),则对X(i,m)的取值进行升序排序得到有序的特征取值集合为:X(i,m)={xi,m,p|p=1,2,3,...,Lm};步骤2、确定X(i,m)的各类样本所对应的特征fi的限定值范围[lower(i,m),upper(i,m)],其中,upper(i,m)和lower(i,m)分别为取值上限值和下限值,用以界定数据集X中其它类别样本与当前的第m类在特征fi取值上是否与X(i,m)混淆,上式中的,p取整数值,其表示特征取值集合X(i,m)中值的序号,上下限取值调节参数α的取值范围为α∈(0,1],具体值由用户设定;步骤3、确定M类样本对于第i个特征所对应的样本混淆数量N(i,m)即确定数据集X中其它类别的样本在第i个特征fi的取值落在限定值范围中的样本数量,并计算数据集X中第i个特征的特征值分布混淆度Confusion(i),以获得数据集X中每一个特征的Confusion值,对应的计算公式为式中n为原始特征集合中特征的个数,M表示数据集X中的类别个数,L表示数据集X中的样本总数;步骤4、依据所获得的Confusion值对数据集X中各个特征进行重要度排序,即按照从小至大的顺序,将各Confusion值所对应的特征进行重新排序以获得有序特征集合F;步骤5、基于所设定的子集搜索策略,使用分类器对有序特征集合F或者有序特征集合F中的部分特征所组成的子集Fsub进行子集搜索进而得到所需的特征子集D,且所述特征子集D初始为空集。进一步优选的,在步骤5中子集搜索策略为前向的有序搜索策略即首先将Confusion值最小所对应的特征加入特征子集D,即D={f1},并使用分类器进行训练得到在当前的特征子集D下的识别率J(D);其次遵循每次向特征子集D中加入待考察特征fi时,均按照特征fi在集合F中的顺序即按照每个特征的Confusion值排名顺序进行,依次加入特征到特征fi对应的特征子集D内,且每次仅加入一个特征,得到特征集合D+fi,在样本集上进行训练得到对应的识别率J(D+fi),如果满足规定的评价准则,则将特征fi加入到特征子集D中,若不满足则予以剔除;重复前面的步骤,直到达到子集搜索停止条件或者遍历完特征集合F,则子集搜索过程结束,获得特征子集D。进一步优选的,所述评价准则包括下述两种策略任意一种:策略A:如果向特征子集D中加入特征fi之后,分类器识别率升高,即满足下式:J(D+fi)>J(D)则将特征fi加入到当前的特征子集D中组成新的特征子集D,否则删除;策略B:如果特征子集D中加入特征fi之后,分类器识别率没有下降,即如果满足下式:J(D+fi)≥J(D)则将特征fi加入到当前的特征子集D中组成新的特征子集D,否则删除。进一步优选的,所述步骤5还包括设定停止条件停止搜索即在进行搜索时,若连续尝试所设定的r个特征均本文档来自技高网
...
一种基于样本特征值分布混淆度的特征选择方法

【技术保护点】
一种基于样本特征值分布混淆度的特征选择方法,其特征在于,包括如下步骤:步骤1、分别对数据集X中各类样本所对应的每一个特征fi的取值集合按从小到大的顺序进行排序;所述数据集的特征取值类型为数值型,并设定数据集X中原始特征集F'表示为F'={fi|i=1,2,3,...,n},其中n为原始特征集中的特征个数,fi表示原始特征集中的第i个特征,同时设定数据集X中包含M类样本,M=1,2,…,m,第m类共有样本数Lm,将第m类的样本所对应的特征fi表示为X(i,m),则对X(i,m)的取值进行升序排序得到有序的特征取值集合为:X(i,m)={xi,m,p|p=1,2,3,...,Lm};步骤2、确定X(i,m)的各类样本所对应的特征fi的限定值范围[lower(i,m),upper(i,m)],其中,upper(i,m)和lower(i,m)分别为取值上限值和下限值,用以界定数据集X中其它类别样本与当前的第m类在特征fi取值上是否与X(i,m)混淆,

【技术特征摘要】
1.一种基于样本特征值分布混淆度的特征选择方法,其特征在于,包括如下步骤:步骤1、分别对数据集X中各类样本所对应的每一个特征fi的取值集合按从小到大的顺序进行排序;所述数据集的特征取值类型为数值型,并设定数据集X中原始特征集F'表示为F'={fi|i=1,2,3,...,n},其中n为原始特征集中的特征个数,fi表示原始特征集中的第i个特征,同时设定数据集X中包含M类样本,M=1,2,…,m,第m类共有样本数Lm,将第m类的样本所对应的特征fi表示为X(i,m),则对X(i,m)的取值进行升序排序得到有序的特征取值集合为:X(i,m)={xi,m,p|p=1,2,3,...,Lm};步骤2、确定X(i,m)的各类样本所对应的特征fi的限定值范围[lower(i,m),upper(i,m)],其中,upper(i,m)和lower(i,m)分别为取值上限值和下限值,用以界定数据集X中其它类别样本与当前的第m类在特征fi取值上是否与X(i,m)混淆,上式中的,p取整数值,其表示特征取值集合X(i,m)中值的序号,上下限取值调节参数α的取值范围为α∈(0,1],具体值由用户设定;步骤3、确定M类样本对于第i个特征所对应的样本混淆数量N(i,m)即确定数据集X中其它类别的样本在第i个特征fi的取值落在限定值范围中的样本数量,并计算数据集X中第i个特征的特征值分布混淆度Confusion(i),以获得数据集X中每一个特征的Confusion值,对应的计算公式为式中n为原始特征集合中特征的个数,M表示数据集X中的类别个数,L表示数据集X中的样本总数;步骤4、依据所获得的Confusion值对数据集X中各个特征进行重要度排序,即按照从小至大的顺序,将各Confusion值所对应的特征进行重新排序以获得有序特征集合F;步骤5、基于所设定的子集搜索策略,使用分类器对有序特征集合F或者有序特征集合F中的部分特征所组成的子集Fsub进行子集搜索进而得到所需的特征子集D,且所述特征子集D初始为空集。2.根据权利要求1所述的方法,其特征在于:在步骤5中子集搜索策略为前...

【专利技术属性】
技术研发人员:王演邱东杰史晓非于丽丽巴海木祖成玉
申请(专利权)人:大连海事大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1