基于贡献值等级的少数类样本自步合成算法制造技术

技术编号：36838882 阅读：46 留言：0更新日期：2023-03-15 15:15

本发明专利技术公开了一种基于贡献值等级的少数类样本自步合成算法，本发明专利技术提出贡献值的概念用于衡量少数类样本对分类模型准确性做出的贡献的大小，进一步识别噪声点。与现有的识别噪声点的技术相比，本次发明专利技术所提出的算法能够更加准确识别出噪声点并将其剔除；本发明专利技术提出了通过引入一个自步系数，在每一步迭代中，更新影响不同贡献程度的样本所生成的样本数量的权重系数，使合成样本的顺序从简单保守到复杂高效，有序的合成更多的具有重要分类信息的样本。。。

全部详细技术资料下载

【技术实现步骤摘要】
基于贡献值等级的少数类样本自步合成算法

[0001]本专利技术涉及数据挖掘中数据分类领域，特别涉及一种基于贡献值等级的少数类样本自步合成算法。

技术介绍

[0002]随着互联网、云计算和物联网技术的推广和成熟，每天都会产生大量的数据，数据源更是复杂多样，如何高效地从这些繁杂的数据中提取出对个人或者企业有用的信息是目前数据挖掘领域面临的重要问题。而数据分类作为数据挖掘中的一个重要任务，可以为后续的分析提供坚实的基础，因此，对数据分类的研究具有重要的价值和意义。
[0003]目前现有的分类学习方法均基于一个基本的假设，即数据集中各个类别的样本数量基本一致。然而，实际生活中分类任务却存在很多类别不均衡的情况，例如疾病诊断、信用卡欺诈、异常检测等。若使用针对均衡数据样本的常用分类学习方法进行训练，则训练结果会偏向于多数类样本，从而导致分类算法区分不出少数类样本类别。实际上，当样本出现不均衡情况时，更加关注少数类样本能否被正确地检测出来。因为，少数类样本分布的特点对分类结果的影响更为显著。比如在银行卡交易异常检测中，与分类检测模型是否能将正常的多数类样本检测出来相比，更加重视模型能否正确地将少数类的异常样本检测出来。可以看出样本类别不平衡情况下，分类检测模型对少数类样本的分类准确性尤为重要。
[0004]为了解决分类问题中样本类别不均衡带来的分类模型检测结果偏向多数类的问题，目前已有大量的研究工作聚焦于通过合成多样的、高质量的少数类样本来平衡数据集，使得分类模型对少数类样本的鉴别更加准确。经典的对少数类样本进行...

【技术保护点】

【技术特征摘要】
1.基于贡献值等级的少数类样本自步合成算法，其特征在于，包括以下步骤：S1、输入：训练样本集D，贡献值函数H,分类器f，等级数n，每次迭代生成样本数量m，跌代系数函数Q，邻居数量k；S2、第一步，初始化：从样本集D中取出少数类样本集P，多数类样本集N，|P|、|N|分别作为少数类、多数类样本数量，求出所需合成的样本数W＝|N|
‑
|P|，求出迭代次数初始化分类器f；S3、执行以下循环取i从1到epoch：第二步，i＝1时，使用训练集D在初始化后的分类器f上进行训练，i>1时，使用训练集D和合成样本在分类器f上训练；S4、第三步，用训练好的分类器f对P中少数类样本进行预测，预测值为y
pred
，用y
pred
和贡献值函数求出每个少数类样本对分类模型的贡献值；S5、第四步，将贡献值按照其大小分为n等级，并求出每个等级的平均贡献值c
j
(j从1到n)，并按照从小到大顺序排列；S6、第五步，用迭代系数...

【专利技术属性】
技术研发人员：何莎，徐小龙，邬晶，李少远，徐世界，
申请(专利权)人：天翼电子商务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人