System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于间接概率密度的SMOTE采样方法技术_技高网

一种基于间接概率密度的SMOTE采样方法技术

技术编号:43168697 阅读:3 留言:0更新日期:2024-11-01 19:59
本发明专利技术涉及一种基于间接概率密度的SMOTE采样方法。使用基于SVM支持向量机的UnderBagging‑alike欠采样集成估计方法对原始数据集进行间接分布信息探索。并根据分布信息将识别错误概率超过0.5的样本视为噪声样本进行筛除处理,并将去噪后的少数类样本根据分布信息进行权重分配,进一步决定每个少数类样本所需生成新样本数量,并使用SMOTE算法进行样本平衡。

【技术实现步骤摘要】

:本专利技术涉及一种基于间接概率密度的smote采样方法,该方法在类别不平衡问题处理中有较好的效果。


技术介绍

0、
技术介绍

1、在类别不平衡学习方向上的技术早已不仅仅停留在理论上,在很多现实世界应用领域都已应用到此类技术,如网络入侵检测,信用卡欺诈检测,异常行为检测,垃圾邮件过滤,文本分类,医学诊断等受到类别不平衡问题困扰的领域,都已通过类别不平衡学习技术取得重要突破。

2、上个世纪九十年代至今,类别不平衡学习实现了从零到一再到多种技术趋于成熟并成功解决各类问题的突破。这些技术主要包括数据层面,算法层面和集成学习。

3、样本采样是一种数据层处理方法,通过少数类样本的增添或多数类样本的削减使得训练集达到基本的平衡,以解决类别不平衡问题。少数类样本的增添方法被称为过采样(oversampling),多数类样本的削减方法则被称为降采样或欠采样(undersampling)。样本采样技术中有两种最简单、最实用的样本采样技术,即随机过采样(ros,randomover-sampling)与随机降采样(rus,randomunder-sampling)。但随机过采样技术会导致分类器训练时的时间复杂度和空间复杂度开销增大,并且容易出现分类器过适应的问题,而随机降采样技术则会造成分类信息的严重缺失,致使分类性能有明显的下降。2002年,chawla等人为了克服随机过采样的缺点提出了一种新的过采样方法:smote(syntheticminorityoversamplingtechnique)。smote摒弃了传统过采样复制已有样本的方法,转而通过在两个邻近的少数类样本间生成新样本的方式,行而有效地解决了ros方法出现的过适应问题。数据级方法将样本集合修改为均衡分布和删除困难的样本。由于它们基于距离的设计(例如,nearmiss,tomeklink),它们可能不适用于具有分类特征或缺失值的数据集。此外,在大规模数据上应用时,计算成本较大(如:smote,adasyn)。

4、算法级方法直接修改现有的学习算法,以减轻对多数对象的偏向。但是,它们需要事先得到专业的帮助(例如,在成本敏感学习中设置成本矩阵)。当与批训练分类器(如神经网络)合作时也可能失败,因为它们不能平衡训练数据上的类分布。传统代价敏感学习算法十分依赖代价矩阵,这种方法往往忽视了特征空间的位置信息,所以仍有较大的性能提升空间。而解决这种问题有两种主要方法:(a)将样本的先验分布信息量化,生成新的模糊代价加权矩阵;(b)将分类器与boosting集成学习模型相结合,不断调整权重从而使分类器的泛化性能得到提高。

5、集成方法将前面的一种方法与集成学习算法相结合,形成集成分类器。其中一些在实际任务中训练成本高,适用性差(例如,smotebagging)。当数据集噪声很大时,可能导致欠拟合或过拟合(例如easyensemble,balancecascade)。2003年,chawla等人提出的将smote方法与boosting结合的smoteboost方法,在传统boosting算法样本加权前先用smote算法对原始训练集过采样。2010年,seiffert等人结合了boosting算法与随机降采样方法,提出了比smoteboost性能更优的rusboost方法。随机森林(randomforest)也在类别不平衡问题上有所发挥,既可以应用样本采样技术来构造平衡随机森林,又可以利用代价敏感学习技术来构造加权随机森林。


技术实现思路

0、
技术实现思路

1、类不平衡数据的分布通常是复杂多样的,因为有许多因素可能影响整体数据分布,包括类不平衡率、噪声比、类内子簇、密度变化、类重叠等,这些因素的融合会使直接探索真实的数据分布更加困难。

2、为了解决上述问题,本专利技术提出了一种新的间接分布信息探索策略,旨在对不平衡数据的分布信息进行更为准确的估计。本专利技术根据cil算法提出了underbagging。作为一种欠采样集成算法,欠采样首先随机抽取多数类构建多数类子集,然后将每个多数类子集与所有少数样本相结合,构建一个平衡训练集,最后在每个平衡训练集上训练学习模型,并通过多数投票法(majority voting)进行决策。underbagging可以看作是随机欠采样和bagging集成的结合,在这个算法当中,所有的样本都得以利用,避免了信息损失;并且在每个训练集上都生成近似无偏的分类边界。在underbagging中,噪声样本具有非常高的错误率,而安全样本通常具有相当低的错误率,而在边界线附近的样本错误率则趋于中等。这个特点有助于准确定位样本。

3、为了避免产生过适应现象,本专利技术对underbagging算法做出了调整,即同时对两个类进行欠采样。在改进的underbagging-alike算法中,随机抽取2/3的少数类样本和相同数量的多数类样本,构成每个训练子集。同时,选择使用svm作为基础分类器,考虑了以下两个原因:1)svm足够健壮,2)svm能够处理非线性分类问题。

4、混淆信息可以有效地反映每个样本在原始数据分布中的位置。通常,噪声对应于高混淆信息,安全样本对应低混淆信息,而位于边界线附近的样本通常对应中等混淆信息。

5、因此为了避免噪声传播,本专利技术根据设置混淆信息的拦截阈值λ的方式设计了噪声过滤机制。具体来说,阈值λ应设置在0和1之间,不应太大或太小。通过实验发现,如果本专利技术给λ一个过大的值,噪声将不能消除完全,如果本专利技术指定一个过小的λ,则会误删一些边界样本。因此,将λ设为0.5通常较为合理。

6、另一个重要的问题是如何确定每个少数样本的选择概率,进而更准确的生成样本。如前所述,边界线附近的样本通常比那些安全的样本更重要,因此在smote中,要尽可能的根据边界样本来生成新样本。因此,本专利技术计算每个少数样本的选择概率的公式如下:

7、

8、其中,pi表示第i个少数样本的选择概率,cii表示该样本的混淆信息,z是归一化因子,

9、

10、其中,n+′表示去除少数噪声后的少数样本数,因此n+′≤n+。归一化后,所有保留的少数样本的选择概率之和等于1。

11、使用第i个少数样本作为种子样本,为其分配所需生成新样本数量的公式如下:

12、ni=(n-′-n+′)*pi

13、其中,ni表示第i个少数类样本所需生成的新样本数量,n-′表示去除多数噪声后多数样本的数量,n+′表示去除少数类噪声后少数样本的数量。

14、生成新样本公式如下:

15、xnew=xi+rand(0,1)*(xi-x′i)

16、其中xi为所选取的种子样本,x′i为该种子样本的k个近邻之一。

17、有益效果:

18、1.本专利技术是一种基于间接概率密度的smote采样方法。使用underbagging-alike欠采样集成估计方法对原始数据集进行间接分布信息本文档来自技高网...

【技术保护点】

1.一种基于间接概率密度的SMOTE采样方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的基于间接概率密度的SMOTE采样方法,其特征在于,所述步骤1中,对原始数据集进行间接分布信息探索,具体步骤为:

3.根据权利要求1所述的基于间接概率密度的SMOTE采样方法,其特征在于,所述步骤2中,基于混淆信息对数据集进行噪声过滤,具体步骤为:

4.根据权利要求1所述的基于间接概率密度的SMOTE采样方法,其特征在于,所述步骤3中,为去噪后的少数类样本依次分配权重,具体步骤为:

5.根据权利要求1所述的基于间接概率密度的SMOTE采样方法,其特征在于,所述步骤4中,选取种子样本进行过采样,具体过程为:

【技术特征摘要】

1.一种基于间接概率密度的smote采样方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的基于间接概率密度的smote采样方法,其特征在于,所述步骤1中,对原始数据集进行间接分布信息探索,具体步骤为:

3.根据权利要求1所述的基于间接概率密度的smote采样方法,其特征在于,所述步骤2中,基...

【专利技术属性】
技术研发人员:郭富伟
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1