一种优化的随机森林处理不平衡数据集的方法技术

技术编号：28560376 阅读：58 留言：0更新日期：2021-05-25 17:55

本发明专利技术公开了一种优化的随机森林处理不平衡数据集的方法，所述方法包括数据预处理、随机森林模型的构建和分类预测，其中，所述数据预处理部分将找出少数类样本最近邻的k个多数类样本，组成难区分的区域，将这个区域的样本在原始数据集中进行重标签，且在难区分的区域进行少数类样本的生成，将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出；所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集，得到两个随机森林模型，所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证，最后获得样本的分类预测结果。本发明专利技术达到对少数类预测性能提升的同时，对多数类的预测正确率不会下降严重的目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种优化的随机森林处理不平衡数据集的方法
本专利技术属于数据分析、挖掘和机器学习

，特别涉及一种优化的随机森林处理不平衡数据集的方法。技术背景随着大数据时代的到来，数据挖掘成为越来越重要的技术，而分类是数据挖掘中最常见的任务，利用分类算法挖掘数据的潜在信息，有利于对问题提供有效的预测。在现实中的分类场景往往存在许多数据集分布不均衡的情况，而针对不同的问题，不同的分类有着不同的重视程度。一般的分类算法追求提升数据集整体的分类准确率，导致对少数类样本的预测分类准确率远低于对多数类样本的预测分类准确率，即将少数类样本错分为多数类从而偏向于多数类，而在一些领域，少数类样本的分类信息有着更重要的价值。随机森林算法是一种机器学习的集成算法，利用Bootstrap随机重采样技术和随机特征选择技术构建多棵决策树，通过投票得到分类结果。该算法解决了单棵决策树容易过拟合的缺点，并且随机森林有着良好的鲁棒性及泛化能力，是一种优秀的分类算法。但随机森林处理不均衡数据集也有着一样的缺陷，即更偏向于提高整体的准确率而导致少数类样本的分类性能下降。为了解决随机森林处理不均衡数据集时对少数类样本的性能较差的问题，如今有着许多的改进方法被提出和使用。一、在数据处理层面上有过采样和欠采样方法。过采样方法是利用如smote算法等数据合成算法对少数类样本进行合成，从而增加少数类样本的数量达到减少数据集不均衡的程度。欠采样方法是通过减少多数类样本从而减少数据集不均衡的程度。然后利用随机森林对处理后的数据进行训练和预测...

【技术保护点】
1.一种优化的随机森林处理不平衡数据集的方法，其特征在于，所述方法包括数据预处理、随机森林模型的构建和分类预测，其中，所述数据预处理将找出少数类样本最近邻的k个多数类样本，组成难区分的区域，将这个区域的样本在原始数据集中进行重标签，且在难区分的区域进行少数类样本的生成，将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出；所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集，得到两个随机森林模型；所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证，最后获得样本的分类预测结果。/n

【技术特征摘要】
1.一种优化的随机森林处理不平衡数据集的方法，其特征在于，所述方法包括数据预处理、随机森林模型的构建和分类预测，其中，所述数据预处理将找出少数类样本最近邻的k个多数类样本，组成难区分的区域，将这个区域的样本在原始数据集中进行重标签，且在难区分的区域进行少数类样本的生成，将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出；所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集，得到两个随机森林模型；所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证，最后获得样本的分类预测结果。

2.根据权利要求1所述的优化的随机森林处理不平衡数据集的方法，其特征在于，所述据预处理包括：
A：读取原始数据集S；
B：首先将原始数据集S区分为多数类样本集Smaj和少数类样本集Smin，应用k近邻算法找出少数类样本集中每个样本最近邻的k个多数类样本，这些多数类样本组成Sk-maj样本集，将Smin和Sk-maj样本集组成的区域成为难区分的区域；
C：在原始数据集中将难区分区域中的样本赋予新的类标unknown，但是在难区分区域中，这些样本仍保留其原有类标；
D：在少数类样本与其最近邻的多数类样本之间进行样本的生成，新生成的样本均标为少数类；
E：输出重标签后的原始数据集Snew以及插入新样本后的难区分区域的数据集Sarea。

【专利技术属性】
技术研发人员：卢宇彤，邓雷，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人