一种多标签不平衡数据分类的机器学习方法及系统技术方案

技术编号:33790760 阅读:96 留言:0更新日期:2022-06-12 14:47
本发明专利技术提供一种多标签不平衡数据分类的机器学习方法及系统,所述基于二重高阶策略及进化计算采样方法的多标签不平衡数据分类的机器学习的构建方法及系统混合使用特征型、标签型高阶策略扩展多标签不平衡数据;融合进化计算方法,给出了多标签数据集的种群均衡适应度的计算方法,并据此在高维复叠空间中依据标签平均不平衡率IRLbl(P)的变化情况实现动态降采样操作;将多标签问题转化为传统分类问题,使传统的分类器以二重高阶策略的方式直接参与到多标签分类中来。本发明专利技术可使传统的多类分类器以考虑标签关系的方式直接参与到多标签不平衡分类中来,并有效提升算法的多标签评估指标F

【技术实现步骤摘要】
一种多标签不平衡数据分类的机器学习方法及系统


[0001]本专利技术涉及人工智能

机器学习算法设计
,具体涉及一种多标签不平衡数据分类的机器学习方法及系统。

技术介绍

[0002]随着人工智能技术的发展,机器学习算法的设计也逐步向实用化、集成化、精细化方向发展,作为一种机器学习算法,多标签分类算法的应用也越来越广泛,然而,传统的多标签分类算法普遍采用低阶策略,完全不考虑各标签之间的关系,忽略关键学习信息,并且对标签的不平衡分布,导致多标签算法预测精度不高、鲁棒性差,为了提升算法整体的预测精度和鲁棒性,需要让多标签分类算法采用考虑标签间关系的高阶策略,以及具备处理不平衡数据的能力等设计都在系统的统一调配下紧密配合、共同协作。
[0003]综上所述,现代机器学习多标签分类算法的设计对于标签间关系的考虑、高阶策略的选取、精度和鲁棒性的提升尚缺乏有效的解决办法。
[0004]因此,有必要提供一种多标签不平衡数据分类的机器学习方法及系统的构建方法及系统以解决上述技术问题。

技术实现思路

[0005]本专利技术的目的在于一种多标签不平衡数据分类的机器学习方法及系统,以解决现有技术中导致缺陷。
[0006]为达到上述目的,本专利技术是采用下述技术方案实现的:一种多标签不平衡数据分类的机器学习方法,包括以下步骤,
[0007]S1:根据多标签数据集的特点进行多次迭代,最终扩散至标签数据集的特征中;
[0008]S2:根据多标签数据集的种群均衡适应度进行动态降采样操作;
[0009]S3:根据多标签数据集的标签分布情况按特征聚类并形成标签类簇,同时在聚类之前记录标签序号;
[0010]S4:控制各标签类簇的最大规模,所有类簇都满足不超过3个标签的条件;
[0011]S5:将所有类簇中的多标签分布转化为多类别分布并转化为多个多分类数据集;
[0012]S6:调用传统的多类不平衡分类器,对转化得来的多类数据集进行分别学习和预测,得到预测的多类分类结果;
[0013]S7:将预测的多类分类结果重新转换为多标签分布结果,经转换还原原标签集顺序;
[0014]S8:利用Macro

F1和Micro

F1指标评价预测结果。在计算Macro

F和Micro

F值之前,按照如下公式计算准确率Precision和召回率Recall:
[0015][0016]其中,TP、True Positive真阳性:预测为正,实际也为正FP、False Positive假阳性:预测为正,实际为负FN、False Negative假阴性:预测与负、实际为正TN、True Negative真阴性:预测为负、实际也为负。
[0017]所述S4为:当标签的类簇超过3个,对类簇进行多次聚类,重新拆分为多个类簇,直至所得的全部类簇规模都不超过3个标签。
[0018]所述S6中传统的多类分类器应满足要求为:所选择的多类分类器在处理有不平衡问题时,能有效地对至少5类分类问题进行有效区分;所选择的多类分类器,处理上述任务时,所需时间尽量少,算法时间复杂度低于O(n3)。
[0019]所述S1包括以下步骤:
[0020]S1

1:利用LDA主题模型扩展多标签数据的特征集为目标,预先设置迭代次数i,设置主题个数K=2,设置主题个数为2的原因是保证得出的主题分布为二进制分布;
[0021]S1

2:对于多标签数据集,将每个实例视为一个文档,将每个标签视为文档中的一个单词,确定狄利克雷分布参数,然后将其引入LDA主题模型中;
[0022]S1

3:依据LDA主题模型计算法则,计算出实例

主题概率分布矩阵,该矩阵表示每个实例属于每个主题的概率值,依据概率值生成二进制离散矩阵,以确定每个实例的主题所属;
[0023]S1

4:训练数据集与测试数据集有相同的主题概率分布,因此首先提取训练集特征,以S1

3中的离散矩阵为结果,合并成为一个新的多标签数据集,然后利用传统的多类分类器学习并预测对应测试集的离散矩阵;
[0024]S1

5:用步骤S1

3中的离散化矩阵扩充原始的训练集特征空间,用S1

4中传统的多类分类器学习并预测对应测试集的离散矩阵扩充测试集特征空间,检查是否完成迭代,若未完成,则转S1

4,否则结束。
[0025]所述S2中动态降采样操作具体包括以下步骤:
[0026]S2

1:计算多标签数据集的种群均衡适应度的值。此时,按进化计算领域的标准处理方法,将数据集中每个样本作为一个个体处理,并将这些个体共同构成一个种群;
[0027]S2

2:将每个个体同时映射到高维标签空间及高维特征标签空间中,将种群中所包含的共的N
P
个个体同时置入连通网N中,此时形成一个有N
P
个顶点的连通网N={V,E};此时,该连通网形成了仅有N
P
个顶点、且边集此时为空集的非连通图T={V,E},其中V表示点集,E表示边集;
[0028]S2

3:根据克鲁斯卡尔原则,每次选取一个未被记入连通禁忌表的、复叠空间距离最近的两个个体,此时,若将这两个个体连通,系统的连通分量不减少的,则撤销这次操作,并将该操作记入连通禁忌表,不再允许这两个个体被连接。若将这两个个体连通,系统的连通分量减少的,转S2

4;若已经不存在可以执行本操作的符合要求的个体时,转步骤S2

5;其中,复叠空间距离按下式计算:
[0029][0030]其中,D
C
为复叠空间距离,D
L
(p,q)、D
F
(p,q)分别为种群中第p和第q个个体映射到高维标签空间及高维特征标签空间中后的欧氏距离;
[0031]S2

4:将S2

3中所传入的两个个体标记为连通;此时,该非连通图T={V,E}同步更新,系统的连通分量也随该操作减少;若执行连通操作的两个个体中存在因本操作使得其连接的顶点数超过1的个体,将该个体记入连通禁忌表中,不再允许改个体与任意其他个体连接;完成后,转步骤S2

3;
[0032]S2

5:计算此时的连通分量。将每个相互连通的个体作为一个个体组合处理,选取一个包含个体数量最多的个体组合,再从该个体组合中选取一条长度最短的边,对于该边的两个顶点上的个体,将其与本个体组合中其他所有个体依次相连并计算所产生的新边的总长度;对于总长度较小的个体,将其从种群中删除,以实现单次降采样操作;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多标签不平衡数据分类的机器学习方法,其特征是,包括以下步骤,S1:根据多标签数据集的特点进行多次迭代,最终扩散至标签数据集的特征中;S2:根据多标签数据集的种群均衡适应度进行动态降采样操作;S3:根据多标签数据集的标签分布情况按特征聚类并形成标签类簇,同时在聚类之前记录标签序号;S4:控制各标签类簇的最大规模,所有类簇都满足不超过3个标签的条件;S5:将所有类簇中的多标签分布转化为多类别分布并转化为多个多分类数据集;S6:调用传统的多类不平衡分类器,对转化得来的多类数据集进行分别学习和预测,得到预测的多类分类结果;S7:将预测的多类分类结果重新转换为多标签分布结果,经转换还原原标签集顺序;S8:利用Macro

F1和Micro

F1指标评价预测结果,在计算Macro

F和Micro

F值之前,按照如下公式计算准确率Precision和召回率Recall:其中,TP、True Positive真阳性:预测为正,实际也为正FP、False Positive假阳性:预测为正,实际为负FN、False Negative假阴性:预测与负、实际为正TN、True Negative真阴性:预测为负、实际也为负。2.根据权利要求1所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S4为:当标签的类簇超过3个,对类簇进行多次聚类,重新拆分为多个类簇,直至所得的全部类簇规模都不超过3个标签。3.根据权利要求1或2所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S6中传统的多类分类器应满足要求为:所选择的多类分类器在处理有不平衡问题时,能有效地对至少5类分类问题进行有效区分;所选择的多类分类器,处理上述任务时,所需时间尽量少,算法时间复杂度低于O(n3)。4.根据权利要求3所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S1包括以下步骤:S1

1:利用LDA主题模型扩展多标签数据的特征集为目标,预先设置迭代次数i,设置主题个数K=2,设置主题个数为2的原因是保证得出的主题分布为二进制分布;S1

2:对于多标签数据集,将每个实例视为一个文档,将每个标签视为文档中的一个单词,确定狄利克雷分布参数,然后将其引入LDA主题模型中;S1

3:依据LDA主题模型计算法则,计算出实例

主题概率分布矩阵,该矩阵表示每个实例属于每个主题的概率值,依据概率值生成二进制离散矩阵,以确定每个实例的主题所属;S1

4:训练数据集与测试数据集有相同的主题概率分布,因此首先提取训练集特征,以S1

3中的离散矩阵为结果,合并成为一个新的多标签数据集,然后利用传统的多类分类器学习并预测对应测试集的离散矩阵;S1

5:用S1

3中的离散化矩阵扩充原始的训练集特征空间,用S1

4中传统的多类分类
器学习并预测对应测试集的离散矩阵扩充测试集特征空间,检查是否完成迭代,若未完成,则转S1

4,否则结束。5.根据权利要求1所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S2中动态降采样操作具体包括以下步骤:S2

1:计算多标签数据集的种群均衡适应度的值。此时,按进化计算领域的标准处理方法,将数据集中每个样本作为一个个体处理,并将这些个体共同构成一个种群;S2

2:将每个个体同时映射到高维标签空间及高维特征标签空间中,将种群中所包含的共的N
P
个个体同时置入连通网N中,此时形成一个有N
P
个顶点的连通网N={V,E},此时,该连通网形成了仅有N
P
个顶点、且边集此时为空集的非连通图T={V,E},其中V表示点集,E表示边集;S2

3:根据克鲁斯卡尔原则,每次选取一个未被记入连通禁忌表的、复叠空间距离最近的两个个体。此时,若将这两个个体连通,系统的连通分量不减少的,则撤销这次操作,并将该操作记入连通禁忌表,不再允许这两个个体被连接。若将这两个个体连通,系统的连通分量减少的,转S2

4;若已经不存在可以执行本操作的符合...

【专利技术属性】
技术研发人员:段继聪于化龙段宝敏姜元昊
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1