一种面向类别不平衡数据集的序数回归问题解决方法技术

技术编号：32219186 阅读：22 留言：0更新日期：2022-02-09 17:24

本发明专利技术涉及一种面向类别不平衡数据集的序数回归问题解决方法，包括：获取数据集，构建神经网络，数据集包括多个样本，每个样本带有标签，标签用于表示样本所属的类别，神经网络的损失函数为weight kappa loss损失函数；自数据集中选择一个batch，将该batch的所有样本送入神经网络，神经网络的输出为各个样本属于各个类别的预测概率；基于神经网络的输出统计概率混淆矩阵，并计算概率混淆矩阵的两个边缘分布的距离；基于两个边缘分布的距离更新损失函数；计算网络误差，反向传播更新神经网络参数。与现有技术相比，本发明专利技术通过对边缘分布进行惩罚，解决了混淆矩阵的全零列问题，消除了某种类别无法被检出的严重后果，提升了神经网络模型的性能。络模型的性能。络模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向类别不平衡数据集的序数回归问题解决方法

[0001]本专利技术涉及类别不平衡的序数回归问题领域，尤其是涉及一种面向类别不平衡数据集的序数回归问题解决方法。

技术介绍

[0002]近年来机器学习技术蓬勃发展的趋势尤为显著，在机器学习领域，分类 (classification)问题是最基础且最重要的研究方向，很多AI应用都可以从分类问题演变而来，同时许多问题也可以转化成分类问题，例如计算机视觉中自然场景的图像分割可以转化为对每个像素点进行分类后赋予相应的标签。
[0003]序数回归问题，又称序数分类问题，是一种典型的机器学习任务。序数回归问题的类别之间存在固有的顺序，比如每个类别的含义按照时间、空间、程度等递增。序数回归问题介于分类问题和回归问题之间。与分类问题相比，序数回归问题的类别之间并不是独立的，而是有一定的顺序关系。与回归问题相比，序数回归问题的每一类之间是离散的而非连续的。很多的实际问题都可以归纳为序数回归问题，包括年龄估计、糖尿病性视网膜病变分级、图像年代估计、面部表情强度估计、单目深度估计等。
[0004]类别不平衡是指分类问题中不同类别的样本数量差别很大。常见的分类问题的解决方法往往假设各个类别的样本数量相当。如果不同类别的样本数量稍有差别，通常对算法性能的影响不大可以忽略。但若不同类别的样本数量差距很大，则训练过程容易陷入局部最优解，比如模型将所有样本预测为数量较多的类等。
[0005]weighted kappa loss是一种序数回归问题常用的...

【技术保护点】

【技术特征摘要】
1.一种面向类别不平衡数据集的序数回归问题解决方法，其特征在于，包括以下步骤：S1、获取数据集，构建神经网络，所述数据集包括多个样本，共分为K个类别，K＞1，每个样本带有标签，所述标签用于表示样本所属的类别，所述神经网络的损失函数为weight kappa loss损失函数；如果数据集不是类别不平衡数据集，则正常进行神经网络训练，否则，执行步骤S2；S2、自数据集中选择一个batch，一个batch中包含M个样本，M＞0，将该batch的所有样本送入神经网络，神经网络的输出为各个样本属于各个类别的预测概率；S3、基于神经网络的输出统计概率混淆矩阵，并计算概率混淆矩阵的两个边缘分布的距离；S4、基于两个边缘分布的距离更新损失函数；S5、基于当前batch中各个样本所属的类别、神经网络的输出和损失函数计算网络误差，反向传播更新神经网络参数，重复步骤S2，直至神经网络训练完成。2.根据权利要求1所述的一种面向类别不平衡数据集的序数回归问题解决方法，其特征在于，步骤S1中，如果数据集的不平衡比大于预设置的平衡阈值，则数据集为类别不平衡数据集，所述不平衡比ρ的计算公式为：其中，A表示数据集中样本数量最多的类别，B表示数据集中样本数量最少的类别，C
i
表示数据集中属于类别i的样本的数量。3.根据权利要求2所述的一种面向类别不平衡数据集的序数回归问题解决方法，其特征在于，预设置的平衡阈值为1.5。4.根据权利要求1所述的一种面向类别不平衡数据集的序数回归问题解决方法，其特征在于，步骤S3中统计概率混淆矩阵具体为：建立概率混淆矩阵W，W∈R
K
×
K
，将概率混淆矩阵W初始化为全零矩阵；将神经网络的输出表示为输出矩阵O，O∈R
M
×
K
，输出矩阵O第p行第q列的元素O
p，q
的值为第p个样本属于类别q的预测概率，1≤p≤M，1≤q≤K；基于输出矩阵O更新概率混淆矩阵W的各个元素，1≤i≤...

【专利技术属性】
技术研发人员：赵生捷，杨冰洁，张荣庆，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人