基于贡献值等级的少数类样本自步合成算法制造技术

技术编号:36838882 阅读:46 留言:0更新日期:2023-03-15 15:15
本发明专利技术公开了一种基于贡献值等级的少数类样本自步合成算法,本发明专利技术提出贡献值的概念用于衡量少数类样本对分类模型准确性做出的贡献的大小,进一步识别噪声点。与现有的识别噪声点的技术相比,本次发明专利技术所提出的算法能够更加准确识别出噪声点并将其剔除;本发明专利技术提出了通过引入一个自步系数,在每一步迭代中,更新影响不同贡献程度的样本所生成的样本数量的权重系数,使合成样本的顺序从简单保守到复杂高效,有序的合成更多的具有重要分类信息的样本。。。

【技术实现步骤摘要】
基于贡献值等级的少数类样本自步合成算法


[0001]本专利技术涉及数据挖掘中数据分类领域,特别涉及一种基于贡献值等级的少数类样本自步合成算法。

技术介绍

[0002]随着互联网、云计算和物联网技术的推广和成熟,每天都会产生大量的数据,数据源更是复杂多样,如何高效地从这些繁杂的数据中提取出对个人或者企业有用的信息是目前数据挖掘领域面临的重要问题。而数据分类作为数据挖掘中的一个重要任务,可以为后续的分析提供坚实的基础,因此,对数据分类的研究具有重要的价值和意义。
[0003]目前现有的分类学习方法均基于一个基本的假设,即数据集中各个类别的样本数量基本一致。然而,实际生活中分类任务却存在很多类别不均衡的情况,例如疾病诊断、信用卡欺诈、异常检测等。若使用针对均衡数据样本的常用分类学习方法进行训练,则训练结果会偏向于多数类样本,从而导致分类算法区分不出少数类样本类别。实际上,当样本出现不均衡情况时,更加关注少数类样本能否被正确地检测出来。因为,少数类样本分布的特点对分类结果的影响更为显著。比如在银行卡交易异常检测中,与分类检测模型是否能将正常的多数类样本检测出来相比,更加重视模型能否正确地将少数类的异常样本检测出来。可以看出样本类别不平衡情况下,分类检测模型对少数类样本的分类准确性尤为重要。
[0004]为了解决分类问题中样本类别不均衡带来的分类模型检测结果偏向多数类的问题,目前已有大量的研究工作聚焦于通过合成多样的、高质量的少数类样本来平衡数据集,使得分类模型对少数类样本的鉴别更加准确。经典的对少数类样本进行合成的算法是SMOTE算法,但SMOTE算法存在以下问题:
[0005](1)未考虑少数类样本的真实分布,可能使合成的样本分布在多数类样本中,如图1、2所示。
[0006](2)从分类边界处取少数类样本作为根样本容易模糊分类边界,如图3 所示。
[0007](3)不能处理类内样本不均衡的情况,样本的稠密度在合成之后不改变,使得模型不易识别稀疏区的少数类样本,如图4所示。
[0008]针对SMOTE算法中上述问题,目前改进的方法主要有两种,第一类主要是基于KNN算法,以borderline SMOTE为例,其根据在欧式距离上与少数类样本最近的k个邻居的信息,选择用于合成少数类样本的根样本和辅助样本,然后在根样本和辅助样本之间随机插值生成新的少数类样本点。第二类是基于稠密度,以NI

MWMOTE为例,通过少数类样本周围少数类邻居的稠密度或者多数类邻居的稠密度来选择根样本和辅助样本。
[0009]注:根样本是被选择用于合成新样本的少数类样本,辅助样本是从根样本的k个邻居中被选择出用于辅助根样本合成新样本的少数类样本。
[0010]以上算法简单容易理解,但是随机性较大,并且由于都是基于欧式距离来选择根样本和辅助样本,通常难以准确的区分出边界点和噪声点。如图2所示,由于borderline SMOTE中关于噪声点的定义仅仅使用少数类样本点的 k个邻居的信息,因此其仅仅能区分
出第一类噪声点。在NI

MWMOTE中,当取 k=2个邻居信息时,NI

MWMOTE可以区分出第一类和第二类噪声点。对于第三类噪声点,以上基于欧式距离的噪声识别算法均很难识别,其识别的准确性与其参数设置紧密联系。

技术实现思路

[0011]本专利技术要解决的技术问题是克服现有技术的缺陷,提供基于贡献值等级的少数类样本自步合成算法。
[0012]为了解决上述技术问题,本专利技术提供了如下的技术方案:
[0013]本专利技术提供了一种基于贡献值等级的少数类样本自步合成算法,包括以下步骤:
[0014]S1、输入:训练样本集D,贡献值函数H,分类器f,等级数n,每次迭代生成样本数量m,跌代系数函数Q,邻居数量k;
[0015]S2、第一步,初始化:从样本集D中取出少数类样本集P,多数类样本集 N,|P|、|N|分别作为少数类、多数类样本数量,求出所需合成的样本数W= |N|

|P|,求出迭代次数初始化分类器f;
[0016]S3、执行以下循环取i从1到epoch:第二步,i=1时,使用训练集D在初始化后的分类器f上进行训练,i>1时,使用训练集D和合成样本在分类器 f上训练;
[0017]S4、第三步,用训练好的分类器f对P中少数类样本进行预测,预测值为y
pred
,用y
pred
和贡献值函数求出每个少数类样本对分类模型的贡献值;
[0018]S5、第四步,将贡献值按照其大小分为n等级,并求出每个等级的平均贡献值c
j
(j从1到n),并按照从小到大顺序排列;
[0019]S6、第五步,用迭代系数函数Q更新系数值q
i

[0020]S7、第六步,根据平均贡献值c
j
和系数值q
i
求出第j个等级应该生成的样本数量权重
[0021]S8、第七步,将剩下n

1个等级求出一个求出每等级需要合成的样本数量
[0022]S9、第八步,取j从1到n执行以下循环:
[0023](1)如果j=1,从该贡献值等级里的样本随机挑选一个样本作为根样本,再从其k个邻居里随机挑选一个样本作为辅助样本,然后在根样本和辅助样本之间随机插值;
[0024](2)如果j>1且j≠n,从该等级中随机挑选一个样本作为根样本,从上一个等级(j

1)中挑选离样本最近的样本作为辅助样本,然后在根样本和辅助样本之间随机插值,注:这里可以取贡献值函数迭代系数函数分类器f可以取任何一个受样本不均衡影响较大的分类模型,比如多层神经网络MLP,支持向量机SVM等。
[0025]与现有技术相比,本专利技术的有益效果如下:
[0026]本专利技术针对分类问题中样本类别数量极端不平衡的情况,利用了对少数类样本的分类误差,提出了一种基于贡献值等级的少数类样本自步合成算法;该方法可以准确的识别出所有噪声点(第一、二、三类噪声点),具有简单容易理解、可扩展性强、合成样本质量高的特点。
附图说明
[0027]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0028]图1是经典的对少数类样本进行合成的SMOTE算法示意图之一。
[0029]图2是经典的对少数类样本进行合成的SMOTE算法示意图之二;
[0030]图3是经典的对少数类样本进行合成的SMOTE算法示意图之三;
[0031]图4是经典的对少数类样本进行合成的SMOTE算法示意图之四;
[0032]图5是borderline SMOTE中关于噪声点的定义仅仅使用少数类样本点的 k个邻居的信息区分出第一类噪声点示意图;
[0033]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于贡献值等级的少数类样本自步合成算法,其特征在于,包括以下步骤:S1、输入:训练样本集D,贡献值函数H,分类器f,等级数n,每次迭代生成样本数量m,跌代系数函数Q,邻居数量k;S2、第一步,初始化:从样本集D中取出少数类样本集P,多数类样本集N,|P|、|N|分别作为少数类、多数类样本数量,求出所需合成的样本数W=|N|

|P|,求出迭代次数初始化分类器f;S3、执行以下循环取i从1到epoch:第二步,i=1时,使用训练集D在初始化后的分类器f上进行训练,i>1时,使用训练集D和合成样本在分类器f上训练;S4、第三步,用训练好的分类器f对P中少数类样本进行预测,预测值为y
pred
,用y
pred
和贡献值函数求出每个少数类样本对分类模型的贡献值;S5、第四步,将贡献值按照其大小分为n等级,并求出每个等级的平均贡献值c
j
(j从1到n),并按照从小到大顺序排列;S6、第五步,用迭代系数...

【专利技术属性】
技术研发人员:何莎徐小龙邬晶李少远徐世界
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1