一种基于随机森林改进的特征选择方法技术

技术编号：37997901 阅读：38 留言：0更新日期：2023-06-30 10:11

本发明专利技术公开了一种基于随机森林改进的的特征选择方法，包括以下步骤：先对完整数据集进行缺失值处理、离散化处理；其次建立传统随机森林模型，并计算传统模型准确率，然后计算设定树木颗数时最佳树深度，以最佳深度重新生成随机森林，并且计算新生成森林中每棵树的准确率，选取准确率靠前的一定百分比的树，然后通过计算各个树的数据相似度，排除相似度超过设定值且准确率较小的树，最后计算最终准确率，从而得到改进后的随机森林。导致分类器性能下降的原因往往是因为这些高维度特征中含有无关特征和冗余特征，本发明专利技术基于随机森林的改进特征选择方法可以有效进行数据降维，可以实现较高的准确率来达到选择最优子集的目的。实现较高的准确率来达到选择最优子集的目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于随机森林改进的特征选择方法

：
[0001]本专利技术涉及数据分类的技术，尤其是涉及一种基于随机森林改进的特征选择方法，该方法在特征选择方面有着很好的应用。

技术介绍
：
[0002]特征选择(Feature Selection)也称特征子集选择，是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段，目前主要有过滤器、包装器和嵌入式方法三类。
[0003]过滤器方法(Filter Methods)是最常用的特征选择方法，通常是针对单变量的，它会假定每个特征都独立于其他特征，最著名的过滤器方法包括卡方检验、相关系数和信息增益指标，但是，这种滤波方法会导致相关特征的丢失。与过滤式特征选择不考虑后续学习器不同，包裹式特征选择(包裹法，Wrapper)直接把最终将要使用的学习器的性能作为特征子集的评价准则。换言之，包裹式特征选择的目的就是为了给定学习器选择最有利于其性能、“量身定做”的特征子集。因为包裹法是基于最终的学习器来进行特征选择的，所以一般而言，在最终学习器性能方面，包裹法要比过滤法特征选择更好；但另一方面，由于在特征选择过程中多次训练学习器，因此包裹式特征选择的计算开销通常比过滤式特征选择大得多。
[0004]在过滤式和包裹式特征选择方法中，特征选择过程与学习器训练过程有明显的分别；与此不同，嵌入式特征选择(嵌入法，Embedded)是将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，即在学习器训练过程中自动地进行了特征选择。常见的嵌入式特...

【技术保护点】

【技术特征摘要】
1.一种基于随机森林改进的特征选择方法，其特征在于，该方法包括以下步骤：步骤1：数据预处理模块，对完整数据集进行缺失值处理、离散化处理。步骤2：特征选择模块，采用基于随机森林改进的特征选择方法进行特征选择。2.根据权利要求1所述的一种基于随机森林改进的特征选择方法，其特征在于，所述步骤1中，数据预处理模块，对完整数据集进行缺失值处理、离散化处理，具体步骤为：步骤1
‑
1删除数据中含有缺失值的样本；步骤1
‑
2采用自上而下的、有监督的CAIM离散算法对无缺失值的数据的连续型特征进行离散化处理，处理公式为：其中，q
ir
(i＝1,2,...,S；r＝1,2,...,n)表示样本中属于i类且属于区间(d
r
‑1,d
r
]的个数，max
r
是所有q
ir
中的最大值，M
i+
是属于第i类的样本个数总和，M
+r
是属于区间(d
r
‑1,d
r
]的样本个数总和，n表示区间个数。3.根据权利要求1所述的一种基于随机森林改进的的特征选择方法，其特征在于，所述步骤2中，特征选择模块，采用基于随机森林改进的的特征选择方法进行特征选择，具体步骤为：步骤2
‑
1将缺失值处理、离散化处理后的数据集设为数据集D；步骤2
‑
2将数据集D划分为训练集T和测试集S；步骤2
‑
3使用训练集T建立随机森林模型，通过bagging方式随机并有放回的抽取原始样本种的N个样本构成新的训练样本，当N足够大时，其中约有1/3的样本不在训练样本中，这类数据被称为袋外(out of bag,OOB)数据。并根据Gini系数最小原则下通过随机选择N棵决策树内部分裂后的每个节点变量的子集来构建多个Cart决策树并组成随机森林；其中Gini系数定义如下：式中，T为给定数据集，C
i
为随机...

【专利技术属性】
技术研发人员：周文进，安云飞，苗世迪，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人