一种基于样本特征值分布混淆度的特征选择方法技术

技术编号：16457247 阅读：42 留言：0更新日期：2017-10-25 21:22

本发明专利技术公开了一种基于样本特征值分布混淆度的特征选择方法，其包括：1、分别对数据集X中各类样本每一个特征fi的取值集合按从小到大的顺序进行排序；2、确定各类样本所对应的特征fi的限定值范围；3、确定数据集中M类样本对于第i个特征所对应的样本混淆数量，计算数据集X中第i个特征的特征值分布混淆度进而使用同样方法获得数据集X中每一个特征的Confusion值；4、依据所获得的Confusion值对数据集X中各个特征进行重要度排序以获得有序特征集合F；5、基于所设定的子集搜索策略，使用分类器对有序特征集合F或有序特征集合F中的部分特征所组成的子集Fsub进行子集搜索以得到所需的特征子集D。本发明专利技术能选出性能较好的特征子集，提高特征子集的识别能力，降低子集搜索过程中搜索次数。

A feature selection method based on the distribution confusion of sample eigenvalues

The invention discloses a feature selection method based on eigenvalue distribution, the confusion degree includes: 1. The value of fi data sets of various types of samples of each feature in the X collection are sorted according to the order from small to large; 2, determine the characteristics of fi corresponding to various samples of limited range; 3. From a data set M samples corresponding to the I characteristics of the sample quantity calculation of X in confusion, the characteristics of the I feature set the value of the data distribution and use the same method to obtain the confusion of the Confusion data set for every character in the X value; 4, according to the Confusion value ranking of each the characteristics of X data to obtain the ordered feature set F; 5, based on a subset of the set of search strategies, using a subset of Fsub classifier to the ordered feature set F or ordered feature set part features in F composed of Subset search is used to obtain the desired feature subset D. The proposed method can select feature subset with better performance, improve the recognition ability of feature subset, and reduce the number of search in subset search process.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于样本特征值分布混淆度的特征选择方法
本专利技术涉及一种降维方法，具体说是涉及一种基于样本特征值分布混淆度的特征选择方法。
技术介绍
特征选择是特征降维的一种方法，不同于主分量分析等降维方法，特征选择是求解一个计算量随特征个数呈指数增长的组合优化问题。在没有具体研究领域的相关知识做先验假设的情况下，要从原始的特征集中选取一个包含所有重要信息的特征子集，只能穷举地去遍历所有可能的特征子集，这种情况下，特征个数只要稍多一点，计算量就会变得非常庞大。特征选择主要包括候选特征子集生成、评价准则、停止准则和验证方法4个基本步骤，目前对特征选择方法的研究主要集中在子集搜索策略和评价准则两个方面。常见的特征选择方法大致可以分为三类：过滤式(Filter)、包裹式(Wrapper)和嵌入式(Embedding)。(1)过滤式选择：过滤式特征选择使用评价准则减少特征之间的相关性，增强特征与类之间的相关性，过滤式特征选择不考虑后续学习器，其中使用的评价函数可分成四类：其中距离度量有欧式距离、切比雪夫距离、平方距离等。例如Relief和ReliefF等；信息度量，如BIF(bestindividualfeature)，MRMR(minimal-redundancyandmaximal-relevance)等算法以及它们的改进算法。依赖性度量：Pearson相关系数、Fisher分数、t-test、F-statistic、最小平方回归误差和平方关联系数等。一致性度量，对于给定的两个样本，若它们特征值相同但是类别不同，则称它们为不一致的，否则是一致的，使用不一率对特征进行度量...
一种基于样本特征值分布混淆度的特征选择方法

【技术保护点】
一种基于样本特征值分布混淆度的特征选择方法，其特征在于，包括如下步骤：步骤1、分别对数据集X中各类样本所对应的每一个特征fi的取值集合按从小到大的顺序进行排序；所述数据集的特征取值类型为数值型，并设定数据集X中原始特征集F'表示为F'＝{fi|i＝1,2,3,...,n}，其中n为原始特征集中的特征个数，fi表示原始特征集中的第i个特征，同时设定数据集X中包含M类样本，M＝1,2，…，m，第m类共有样本数Lm，将第m类的样本所对应的特征fi表示为X(i,m)，则对X(i,m)的取值进行升序排序得到有序的特征取值集合为：X(i,m)＝{xi,m,p|p＝1,2,3,...,Lm}；步骤2、确定X(i,m)的各类样本所对应的特征fi的限定值范围[lower(i,m),upper(i,m)]，其中，upper(i,m)和lower(i,m)分别为取值上限值和下限值，用以界定数据集X中其它类别样本与当前的第m类在特征fi取值上是否与X(i,m)混淆，

【技术特征摘要】
1.一种基于样本特征值分布混淆度的特征选择方法，其特征在于，包括如下步骤：步骤1、分别对数据集X中各类样本所对应的每一个特征fi的取值集合按从小到大的顺序进行排序；所述数据集的特征取值类型为数值型，并设定数据集X中原始特征集F'表示为F'＝{fi|i＝1,2,3,...,n}，其中n为原始特征集中的特征个数，fi表示原始特征集中的第i个特征，同时设定数据集X中包含M类样本，M＝1,2，…，m，第m类共有样本数Lm，将第m类的样本所对应的特征fi表示为X(i,m)，则对X(i,m)的取值进行升序排序得到有序的特征取值集合为：X(i,m)＝{xi,m,p|p＝1,2,3,...,Lm}；步骤2、确定X(i,m)的各类样本所对应的特征fi的限定值范围[lower(i,m),upper(i,m)]，其中，upper(i,m)和lower(i,m)分别为取值上限值和下限值，用以界定数据集X中其它类别样本与当前的第m类在特征fi取值上是否与X(i,m)混淆，上式中的，p取整数值，其表示特征取值集合X(i,m)中值的序号，上下限取值调节参数α的取值范围为α∈(0,1]，具体值由用户设定；步骤3、确定M类样本对于第i个特征所对应的样本混淆数量N(i,m)即确定数据集X中其它类别的样本在第i个特征fi的取值落在限定值范围中的样本数量，并计算数据集X中第i个特征的特征值分布混淆度Confusion(i)，以获得数据集X中每一个特征的Confusion值，对应的计算公式为式中n为原始特征集合中特征的个数，M表示数据集X中的类别个数，L表示数据集X中的样本总数；步骤4、依据所获得的Confusion值对数据集X中各个特征进行重要度排序，即按照从小至大的顺序，将各Confusion值所对应的特征进行重新排序以获得有序特征集合F；步骤5、基于所设定的子集搜索策略，使用分类器对有序特征集合F或者有序特征集合F中的部分特征所组成的子集Fsub进行子集搜索进而得到所需的特征子集D，且所述特征子集D初始为空集。2.根据权利要求1所述的方法，其特征在于：在步骤5中子集搜索策略为前...

【专利技术属性】
技术研发人员：王演，邱东杰，史晓非，于丽丽，巴海木，祖成玉，
申请(专利权)人：大连海事大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人