当前位置: 首页 > 专利查询>中山大学专利>正文

一种优化的随机森林处理不平衡数据集的方法技术

技术编号:28560376 阅读:58 留言:0更新日期:2021-05-25 17:55
本发明专利技术公开了一种优化的随机森林处理不平衡数据集的方法,所述方法包括数据预处理、随机森林模型的构建和分类预测,其中,所述数据预处理部分将找出少数类样本最近邻的k个多数类样本,组成难区分的区域,将这个区域的样本在原始数据集中进行重标签,且在难区分的区域进行少数类样本的生成,将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出;所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集,得到两个随机森林模型,所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证,最后获得样本的分类预测结果。本发明专利技术达到对少数类预测性能提升的同时,对多数类的预测正确率不会下降严重的目的。

【技术实现步骤摘要】
一种优化的随机森林处理不平衡数据集的方法
本专利技术属于数据分析、挖掘和机器学习

,特别涉及一种优化的随机森林处理不平衡数据集的方法。技术背景随着大数据时代的到来,数据挖掘成为越来越重要的技术,而分类是数据挖掘中最常见的任务,利用分类算法挖掘数据的潜在信息,有利于对问题提供有效的预测。在现实中的分类场景往往存在许多数据集分布不均衡的情况,而针对不同的问题,不同的分类有着不同的重视程度。一般的分类算法追求提升数据集整体的分类准确率,导致对少数类样本的预测分类准确率远低于对多数类样本的预测分类准确率,即将少数类样本错分为多数类从而偏向于多数类,而在一些领域,少数类样本的分类信息有着更重要的价值。随机森林算法是一种机器学习的集成算法,利用Bootstrap随机重采样技术和随机特征选择技术构建多棵决策树,通过投票得到分类结果。该算法解决了单棵决策树容易过拟合的缺点,并且随机森林有着良好的鲁棒性及泛化能力,是一种优秀的分类算法。但随机森林处理不均衡数据集也有着一样的缺陷,即更偏向于提高整体的准确率而导致少数类样本的分类性能下降。为了解决随机森林处理不均衡数据集时对少数类样本的性能较差的问题,如今有着许多的改进方法被提出和使用。一、在数据处理层面上有过采样和欠采样方法。过采样方法是利用如smote算法等数据合成算法对少数类样本进行合成,从而增加少数类样本的数量达到减少数据集不均衡的程度。欠采样方法是通过减少多数类样本从而减少数据集不均衡的程度。然后利用随机森林对处理后的数据进行训练和预测。二、ENN算法,通过找出一些多数类样本,假如这些多数类的样本的三个最近邻样本属于少数类,则将这部分多数类样本从原始数据集中移除,达到数据清洗以及数据平衡化的效果,从而利用随机森林对处理后的数据集进行训练和预测,提升对少数类样本的分类正确率。三、有偏向的随机森林算法。该算法同时在数据处理以及算法层面进行优化,首先将数据集分成多数类样本集和主要关注的少数类样本集,通过k近邻算法找出少数类样本集中每个样本的最近邻的k个多数类样本组成第二个数据集,分别在原始数据集以及新产生的第二个数据集上构建两批随机森林,由于第二个数据集是有少数类样本及其最近邻的多数类样本组成,数据集的不均衡程度较低,构建出来的树对少数类有更好的识别能力。这样一来通过控制在两个数据集上生成的树的数量可以分别识别多数类和少数类,很好的提升分类性能。上述现有技术仍然存在缺陷:数据处理层面的缺点有:过采样技术由于未对少数类样本进行分析,直接产生相似的少数类样本容易造成产生冗余样本从而导致模型过拟合。欠采样技术由于减少了多数类样本以达到降低数据集不均衡率的程度,造成多数类类的信息丢失,降低了多数类的分类正确率。ENN算法的缺点是,该算法即使移除了一些多数类样本,但是数据集的分布可能仍具有较大的不均衡率,并且由于删掉了部分多数类样本,会导致多数类的分类正确率下降。目前效果最好的有偏向的随机森林算法虽然通过找出易错分区域,通过两个数据集来分别训练随机森林从而达到提升分类性能的目的,但是其少数类信息扔较少,得到的第二个数据集仍可能不均衡分布程度较大,而且由于随机森林采用的是Bootstrap随机重采样技术,这会导致少数类样本被采样到的几率降低而影响少数类样本的分类正确率。
技术实现思路
鉴于现有技术的缺陷,本专利技术旨在于提供一种优化的随机森林处理不平衡数据集的方法,该方法先找出少数类样本的k个最近邻多数类样本,这些样本所处区域为较难区分的区域,在原始数据集中将这些区域的样本重新标类为unknown,并且在这些难区分的样本中,通过在少数类样本及其k个最近邻的多数类样本之间进行新样本的合成,生成的数量根据多数类与少数类的样本比例决定,将新生成的样本固定为少数类标签,这样做的目的是将多数类与少数类之间的分类超平面向更能识别少数类的方向扩张,从而达到在不减少多数类样本的情况下赋予少数类更高的权重的目的。最后将生成两片森林,利用样本重标签后的原始数据集训练多棵决策树组成第一片随机森林,利用难区分区域的样本以及新样本组成的第二个数据集训练多棵决策树组成第二片森林。当对数据进行分类时,如果第一片森林对数据分类投票为多数类,则该分类结果就是其最终的分类结果,当第一片森林对数据的分类结果为unknown时,则将这些数据继续放入到第二片森林进行判断其最终结果是属于多数类还是少数类。这样做的目的是在保证多数类分类正确率的情况下,能更好的提升对少数类的分类正确率。为了实现上述目的,本专利技术采用的技术方案如下:一种优化的随机森林处理不平衡数据集的方法,所述方法包括数据预处理、随机森林模型的构建和分类预测,其中,所述数据预处理将找出少数类样本最近邻的k个多数类样本,组成难区分的区域,将这个区域的样本在原始数据集中进行重标签,且在难区分的区域进行少数类样本的生成,将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出;所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集,得到两个随机森林模型;所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证,最后获得样本的分类预测结果。需要说明的是,所述据预处理包括:A:读取原始数据集S;B:首先将原始数据集S区分为多数类样本集Smaj和少数类样本集Smin,应用k近邻算法找出少数类样本集中每个样本最近邻的k个多数类样本,这些多数类样本组成Sk-maj样本集,将Smin和Sk-maj样本集组成的区域成为难区分的区域;C:在原始数据集中将难区分区域中的样本赋予新的类标unknown,但是在难区分区域中,这些样本仍保留其原有类标;D:在少数类样本与其最近邻的多数类样本之间进行样本的生成,新生成的样本均标为少数类;E:输出重标签后的原始数据集Snew以及插入新样本后的难区分区域的数据集Sarea。需要进一步说明的是,所述步骤D中还包括:D1:首先找出少数类样本,通过knn算法找出其最近邻的多数类样本,得到难区分的区域;D2:在少数类样本与其最近邻的多数类样本之间进行插值产生新的少数类样本的公式为:xnew=xmin+λ(xmaj-xmin);其中,新产生的样本数量根据该区域中多数类样本与少数类样本的比例决定。需要说明的是,所述随机森林模型的构建、所述分类预测包括:A:将数据预处理后的两个训练数据集:重标签后的原始数据集Snew和新加入样本后的难区分区域的数据集Sarea输入;B:训练步骤A中两个随机森林模型,分别利用的是Snew和Sarea当做训练数据集,利用Snew训练出来的模型称为RF1,利用Sarea训练出来的模型称为RF2;C:将验证数据集首先输入到RF1,得到RF1对每个样本的预测结果;D:判断RF1对验证数据集的预测结果是否为标签unknown,如果对样本的预测结果不是unknown,则预测的标签作为最后该样本的预测结果,如果对本文档来自技高网
...

【技术保护点】
1.一种优化的随机森林处理不平衡数据集的方法,其特征在于,所述方法包括数据预处理、随机森林模型的构建和分类预测,其中,所述数据预处理将找出少数类样本最近邻的k个多数类样本,组成难区分的区域,将这个区域的样本在原始数据集中进行重标签,且在难区分的区域进行少数类样本的生成,将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出;所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集,得到两个随机森林模型;所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证,最后获得样本的分类预测结果。/n

【技术特征摘要】
1.一种优化的随机森林处理不平衡数据集的方法,其特征在于,所述方法包括数据预处理、随机森林模型的构建和分类预测,其中,所述数据预处理将找出少数类样本最近邻的k个多数类样本,组成难区分的区域,将这个区域的样本在原始数据集中进行重标签,且在难区分的区域进行少数类样本的生成,将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出;所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集,得到两个随机森林模型;所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证,最后获得样本的分类预测结果。


2.根据权利要求1所述的优化的随机森林处理不平衡数据集的方法,其特征在于,所述据预处理包括:
A:读取原始数据集S;
B:首先将原始数据集S区分为多数类样本集Smaj和少数类样本集Smin,应用k近邻算法找出少数类样本集中每个样本最近邻的k个多数类样本,这些多数类样本组成Sk-maj样本集,将Smin和Sk-maj样本集组成的区域成为难区分的区域;
C:在原始数据集中将难区分区域中的样本赋予新的类标unknown,但是在难区分区域中,这些样本仍保留其原有类标;
D:在少数类样本与其最近邻的多数类样本之间进行样本的生成,新生成的样本均标为少数类;
E:输出重标签后的原始数据集Snew以及插入新样本后的难区分区域的数据集Sarea。

【专利技术属性】
技术研发人员:卢宇彤邓雷
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1