一种数据不平衡目标识别方法、系统、设备及存储介质技术方案

技术编号:33556030 阅读:22 留言:0更新日期:2022-05-26 22:52
一种数据不平衡目标识别方法、系统、设备及存储介质,方法包括:由训练集样本生成基分类器集合;将训练集样本生成的基分类器集合作用于验证集上,求取每个基分类器的混淆概率矩阵;动态为每个待预测样本优选一个基分类器集合;基于贝叶斯理论组合所优选基分类器集合的输出结果,得到待预测样本一个最终的预测类别。本发明专利技术在多分类器系统中添加了动态选择环节,能够为少数类样本寻找到更有利于其类别预测的分类器集合,提高少数类样本的预测可信度。在分类器组合过程中引入贝叶斯理论,结合基分类器之前的性能表现,给出每一个预测结果的置信度,最终得到的组合置信度向量更能反映样本所属类别的细节信息,同样提高了少数类样本的预测可信度。本的预测可信度。本的预测可信度。

【技术实现步骤摘要】
一种数据不平衡目标识别方法、系统、设备及存储介质


[0001]本专利技术属于机器学习
,具体涉及一种数据不平衡目标识别方法、系统、设备及存储介质。

技术介绍

[0002]近年来,机器学习和数据挖掘的研究越发火热,相关应用也正在为世界带来越来越多的实际价值。监督学习,作为机器学习中的几大主流问题之一,常常被用于目标的分类或者身份的识别。其作用原理是利用已知类别的数据样本训练机器学习的模型,再基于得到的模型来预测未知样本的类别,在分类问题中,这个训练好的模型被称为“分类器”。随着越来越多的模型和算法从学术界走向工业界,许多困难也渐渐凸显并影响着这些算法的落地。数据不平衡可以说是其中的一个非常显著的问题,数据不平衡问题又可以叫做“样本比例失衡”,是指数据分布不均匀,而这种不平衡不均匀的现象往往体现在两个方面:一方面表现在每类样本的数量不平衡,少数类和多数类的数量之比可达1:10甚至1:100及以上,极端情况或许能达到1:10000;另一方面表现在少数类样本的分布和多数类样本的分布间存在一些类间重叠、噪声以及不可分的部分。其中前者被一些学者称为“类间不平衡”,而后者被称为“类内不平衡”。在许多学术研究中往往存在一些“数据分布均匀”的前提假设,但当把算法应用于实际场景中,在多数情况下无法取得理想结果的原因很有可能就是忽略了对数据不平衡问题的处理。这样的忽略带来的后果是:多数类样本的预测准确率非常高,而少数类样本的预测准确率非常低,测试集样本的总体准确率“虚高”。在不平衡的数据集上得到这样一个虚高的预测准确率的意义不大,因为此时的模型只需要将任何未知类别的样本都预测成多数类样本就可以得到一个非常高的预测准确率。但在实际的问题中,往往更加关注少数类样本的识别准确率,其原因包括:(1)多数类样本在实际场景中出现次数很频繁,其特征明显,在应用分类模型之前或许就可以通过其他方式(如从业经验、样本的某一显著特征等)准确判断出多数类样本的身份。(2)少数类样本在实际场景中往往具备更高的价值(比如某一品质非常上佳的白酒、银行的潜在高额储蓄用户、具有研究价值的疑难杂症病例等),它们的出现代表着“物以稀为贵”。
[0003]目前解决数据不平衡问题的途径大致分为两类:(1)从数据的角度出发,对数据进行预处理,通过对多数类样本的欠采样或者少数类样本的过采样处理,使得各类样本之间的数量更加平衡
[1,2,3]。(2)从算法模型的角度出发,通过调节模型中和代价相关的参数,增大错分少数类样本的代价
[4],或者基于集成学习的思想集成多个单分类器的结果,用一个更高层次的模型去给出预测结果
[5,6]。在样本集的总体规模较小的情况下,通过过采样或者欠采样的方式对数据进行预处理的思路不一定能够取得较好的效果,因为预处理往往是通过插值的方式产生许多人造样本,在一个数据规模本就很小的问题上,无法保证人造样本和真实样本具有同等的真实性。
[0004][1]He H,Garcia E A.Learning from Imbalanced Data[J].IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263

1284.
[0005][2]Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:Synthetic Minority Over

sampling Technique[J].2011.
[0006][3]Liu X Y,Wu J,Zhou Z H.Exploratory Undersampling for Class

Imbalance Learning[J].IEEE Transactions on Systems Man&Cybernetics Part B,2009,39(2):539

550.
[0007][4]金鑫,李玉鑑.不平衡支持向量机的惩罚因子选择方法[J].计算机工程与应用,2011,47(33):5.
[0008][5]Sun Y,Kamel M S,Wong A,et al.Cost

sensitive boosting for classification of imbalanced data[J].Pattern Recognition,2007,40(12):3358

3378.
[0009][6]Sukhanov S,Merentitis A,Debes C,et al.Bootstrap

based SVM aggregation for class imbalance problems[C]//2015 23rd European Signal Processing Conference(EUSIPCO).IEEE,2015.

技术实现思路

[0010]本专利技术的目的在于针对上述现有技术中的问题,提供一种数据不平衡目标识别方法、系统、设备及存储介质,基于集成学习的思路来改进机器学习算法在小样本、数据不平衡问题上的性能表现,在多分类器系统中添加了为每个待预测样本选择合适的分类器集合的动态选择环节,并且基于贝叶斯理论组合各分类器的输出结果,实现在总体准确率不受影响的情况下,提高相对重视且数量珍惜的少数类样本的识别能力。
[0011]为了实现上述目的,本专利技术有如下的技术方案:
[0012]第一方面,提供了一种数据不平衡目标识别方法,包括:
[0013]由训练集样本生成基分类器集合;
[0014]将训练集样本生成的基分类器集合作用于验证集上,求取每个基分类器的混淆概率矩阵;
[0015]动态为每个待预测样本优选一个基分类器集合;
[0016]依据得到的每个基分类器的混淆概率矩阵,基于贝叶斯理论组合所优选基分类器集合的输出结果,得到待预测样本一个最终的预测类别。
[0017]作为本专利技术方法的一种优选方案,所述由训练集样本生成基分类器集合的步骤具体包括:
[0018]对于训练集中含有L类目标组成集合Ω={ω1,ω2,...,ω
L
},每类目标包含n
i
,i=1,2,...,L个样本,则训练集总共包含个样本;针对基分类器集合包含M个基分类器,设定随机抽样比例为randomFactor;
[0019]在每类目标中有放回地随机抽取n
i
×
randomFactor,i=1,2,...,L个样本,组成基分类器训练集,基于此训练集训练基分类器模型c
i
,i=1,2,...M,重复M次,得到基分类器集合C={c1,c2,...,c
M
}。
[0020]作为本专利技术方法的一种优选方案,所述将训练集样本生成的基分类器集合作用于验证集上,求取每个基分类器的混淆概本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据不平衡目标识别方法,其特征在于,包括:由训练集样本生成基分类器集合;将训练集样本生成的基分类器集合作用于验证集上,求取每个基分类器的混淆概率矩阵;动态为每个待预测样本优选一个基分类器集合;依据得到的每个基分类器的混淆概率矩阵,基于贝叶斯理论组合所优选基分类器集合的输出结果,得到待预测样本一个最终的预测类别。2.根据权利要求1所述的一种数据不平衡目标识别方法,其特征在于,所述由训练集样本生成基分类器集合的步骤具体包括:对于训练集中含有L类目标组成集合Ω={ω1,ω2,...,ω
L
},每类目标包含n
i
,i=1,2,...,L个样本,训练集总共包含个样本;针对基分类器集合包含M个基分类器,设定随机抽样比例为randomFactor;在每类目标中有放回地随机抽取n
i
×
randomFactor,i=1,2,...,L个样本,组成基分类器训练集,基于此训练集训练基分类器模型c
i
,i=1,2,...M,重复M次,得到基分类器集合C={c1,c2,...,c
M
}。3.根据权利要求1所述的一种数据不平衡目标识别方法,其特征在于,所述将训练集样本生成的基分类器集合作用于验证集上,求取每个基分类器的混淆概率矩阵的步骤包括:将某一基分类器c
i
,i=1,2,...M的混淆矩阵CM
i
定义如下:该矩阵中的表示验证样本集中真实类别为ω
l
,而被基分类器c
i
识别成ω
q
的样本数;根据混淆矩阵计算出一个L
×
L维矩阵LM
i
,该矩阵被称为混淆概率矩阵,其形式为:该矩阵中的表示验证样本集中属于模式类ω
l
,而被基分类器c
i
分类成ω
q
的概率的估计值,通过下式计算:式中,O
i
表示基分类器c
i
输出的类别,P(O
i
=ω
q

l
)表示当样本属于模式类ω
l
时O
i
=ω
q
的概率,这个概率值的意义相当于贝叶斯理论中的似然概率。4.根据权利要求1所述的一种数据不平衡目标识别方法,其特征在于,所述动态为每个待预测样本优选一个基分类器集合的步骤包括,对于一群待预测类别的样本组成的未知样
本集合X
test
={x
testi
|i=1,2,...,N
test
},在动态选择环节中,根据每个样本x
testi
的特点,找到该样本在验证集上的一个邻域Neighborhood
i
,然后在该邻域上评价各个基分类器的性能,选择排名靠前的基分类器构成一个优选的基分类器集合。5.根据权利要求4所述的一种数据不平衡目标识别方法,其特征在于,所述在动态选择环节中,根据每个样本x

【专利技术属性】
技术研发人员:宋楠朱洪艳
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1