一种带噪声标签的长尾分布图像分类方法技术

技术编号：30412893 阅读：18 留言：0更新日期：2021-10-20 11:49

本发明专利技术公开了一种带噪声标签的长尾分布图像分类方法，通过样本依赖的松弛间隔损失进行学习，并辅以抗噪声的数据增强策略，用于解决同时具有长尾特征与噪声标签的图像分类问题。根据数据噪声特征，在计算样本函数间隔时引入样本依赖的松弛变量以放宽间隔约束，再根据样本间隔分类计算样本依赖的光滑松弛损失；根据数据长尾特征，实施分阶段调整的数据增强策略，对样本分别进行强增强和弱增强，并在正式训练阶段提供基于松弛损失的样本筛选机制用于筛除噪声数据。本发明专利技术实现方法简便，手段灵活，在长尾数据、噪声数据以及同时具有二者特征的训练数据上都取得显著的分类效果的提升。升。升。

全部详细技术资料下载

【技术实现步骤摘要】
一种带噪声标签的长尾分布图像分类方法

[0001]本专利技术涉及图像分类领域，尤其是涉及噪声标签与长尾分布数据下图像分类的方法。

技术介绍

[0002]近年来，卷积神经网络（CNN）被广泛应用于计算机视觉领域。在训练数据数量固定的情况下，参数数量的增加导致过拟合现象日益凸显，为了提高总体性能，对精确标注数据的需求也日益增长。然而，获得大量准确标注的样本通常十分昂贵。针对这一点，非专家众包或系统性标签是一种实际解决的方案，然而这容易导致标签的错误标注。许多基准数据集，如ImageNet、CIFAR
‑
10/
‑
100，MNIST，QuickDraw等，都包含3%~10%的噪声标签样本。关于带噪声标签的现有研究，通常侧重于拆分正确标注与错误标注的样本，但是忽略了数据的分布。真实世界中，数据往往呈现长尾分布的特征，数据集中的几个主要类别占据主导地位，而其他类别的数据则数量不足。因此，在当前基于深度神经网络的图像分类任务中，如何对同时具有长尾特征与噪声标签的数据进行分类，以减小在长尾分布下噪声标签的影响，在实际应用中至关重要。

技术实现思路

[0003]为解决现有技术的不足，实现减小长尾分布下噪声标签影响的目的，本专利技术采用如下的技术方案：一种带噪声标签的长尾分布图像分类方法，包括如下步骤：S1，根据数据噪声特征，对每个样本图像及其噪声标签，在样本间隔的基础上，引入松弛变量，形成噪声样本的样本松弛间隔；所述样本间隔为，类别间隔为，其中表示第个样本的标签为类别，即样本属于类...

【技术保护点】

【技术特征摘要】
1.一种带噪声标签的长尾分布图像分类方法，其特征在于包括如下步骤：S1，根据数据噪声特征，对样本图像及其噪声标签，在样本间隔的基础上，引入松弛变量，形成噪声样本的样本松弛间隔；所述样本间隔为，类别间隔为，其中表示第个样本的标签为类别，表示所有属于类别的样本的序号的集合；所述样本松弛间隔为：其中，表示样本图像及其正确的标签，表示预测函数，用于预测样本图像属于哪一类别，为样本空间，N为样本总数，为个类别的标签集合，表示实数域，表示与不同的噪声标签，及其对应的x，通过预测函数得到的值中，最大的值，，表示最优间隔；根据样本间隔，分段计算样本依赖的松弛损失；S2，根据数据长尾特征，分阶段调整的数据增强策略，对样本图像分别做弱数据增强和强数据增强，得到相应的弱增强数据和强增强数据，将训练分为预热阶段与正式阶段，在预热阶段，直接计算弱增强数据和强增强数据的松弛损失；在正式训练阶段，根据预热阶段的松弛损失大小，筛选松弛出一组样本图像作为纯净数据，筛除剩余噪声数据，并计算松弛损失。2.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法，其特征在于所述S1中的松弛损失为：。3.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法，其特征在于所述S2中的预热阶段，直接使用弱增强数据和强增强数据计算松弛损失，以噪声率和作为权重，计算整体损失：
其中，。4.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法，其特征在于所述S2中的正式训练阶段，包括如下步骤：S21，根据预热阶段的松弛损失大小，筛选出、作为弱增强数据和强增强数据中松弛损失最小的前部分样本图像；S22，根据筛选后的弱增强数据的标签，从强增强数据中采样得到，根据筛...

【专利技术属性】
技术研发人员：程乐超，茅一宁，冯尊磊，宋明黎，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人