当前位置: 首页 > 专利查询>之江实验室专利>正文

一种带噪声标签的长尾分布图像分类方法技术

技术编号:30412893 阅读:18 留言:0更新日期:2021-10-20 11:49
本发明专利技术公开了一种带噪声标签的长尾分布图像分类方法,通过样本依赖的松弛间隔损失进行学习,并辅以抗噪声的数据增强策略,用于解决同时具有长尾特征与噪声标签的图像分类问题。根据数据噪声特征,在计算样本函数间隔时引入样本依赖的松弛变量以放宽间隔约束,再根据样本间隔分类计算样本依赖的光滑松弛损失;根据数据长尾特征,实施分阶段调整的数据增强策略,对样本分别进行强增强和弱增强,并在正式训练阶段提供基于松弛损失的样本筛选机制用于筛除噪声数据。本发明专利技术实现方法简便,手段灵活,在长尾数据、噪声数据以及同时具有二者特征的训练数据上都取得显著的分类效果的提升。升。升。

【技术实现步骤摘要】
一种带噪声标签的长尾分布图像分类方法


[0001]本专利技术涉及图像分类领域,尤其是涉及噪声标签与长尾分布数据下图像分类的方法。

技术介绍

[0002]近年来,卷积神经网络(CNN)被广泛应用于计算机视觉领域。在训练数据数量固定的情况下,参数数量的增加导致过拟合现象日益凸显,为了提高总体性能,对精确标注数据的需求也日益增长。然而,获得大量准确标注的样本通常十分昂贵。针对这一点,非专家众包或系统性标签是一种实际解决的方案,然而这容易导致标签的错误标注。许多基准数据集,如ImageNet、CIFAR

10/

100,MNIST,QuickDraw等,都包含3%~10%的噪声标签样本。关于带噪声标签的现有研究,通常侧重于拆分正确标注与错误标注的样本,但是忽略了数据的分布。真实世界中,数据往往呈现长尾分布的特征,数据集中的几个主要类别占据主导地位,而其他类别的数据则数量不足。因此,在当前基于深度神经网络的图像分类任务中,如何对同时具有长尾特征与噪声标签的数据进行分类,以减小在长尾分布下噪声标签的影响,在实际应用中至关重要。

技术实现思路

[0003]为解决现有技术的不足,实现减小长尾分布下噪声标签影响的目的,本专利技术采用如下的技术方案:一种带噪声标签的长尾分布图像分类方法,包括如下步骤:S1,根据数据噪声特征,对每个样本图像及其噪声标签,在样本间隔的基础上,引入松弛变量,形成噪声样本的样本松弛间隔;所述样本间隔为,类别间隔为,其中表示第个样本的标签为类别,即样本属于类别,相应地,表示所有属于类别的样本的序号的集合;所述样本松弛间隔为:其中,表示样本图像及其正确的标签,表示预测函数,用于预测样本图像属于哪一类别,为样本空间,N为样本总数,为个类别的标签集合,表示实数域,表示与不同的噪声标签,及其对应的x,通过预测函数得到的值中,最大的值,,表示最优间隔;传统的DNN分
类网络,通常在特征提取器后接一个线性转换层,然而这种策略在拟合对于带噪声的数据时,容易产生分类器陷入线性不可分的情况,因此,本专利技术提出松弛变量以放宽间隔约束,而引入松弛变量的样本松弛间隔增加了分类预测结果的容忍度;根据样本间隔,分段计算样本依赖的光滑松弛损失(Slack Loss);S2,根据数据长尾特征,实施分阶段调整的数据增强策略(Data Augmentation),对噪声数据集合中的每组采样,对样本图像分别做弱数据增强和强数据增强,得到相应的弱增强数据和强增强数据,将训练分为预热阶段与正式阶段,考虑强数据增强方法对高噪声率数据集的负面影响,本专利技术将训练阶段的松弛损失分别使用弱增强数据和强增强数据进行计算并相加,以噪声率和作为权重,在预热阶段,直接计算弱增强数据和强增强数据的松弛损失;在正式训练阶段,根据预热阶段的松弛损失大小,筛选松弛出一组样本图像作为纯净数据,筛除剩余噪声数据,并计算松弛损失。在训练的预热阶段注入强数据增强的方法对于低噪声数据集的训练可以提升性能,但当数据集的噪声增加时则会起反作用。相反,预热阶段的弱数据增强可以大幅提升高噪声数据训练的性能。基于这个总结,本专利技术将模型训练分为两个阶段,在不同阶段调整增强策略。
[0004]进一步地,所述S1中的松弛损失为:进一步地,所述S2中的预热阶段,直接使用弱增强数据和强增强数据计算松弛损失,以噪声率和作为权重,计算整体损失:其中,。
[0005]进一步地,所述S2中的正式训练阶段,包括如下步骤:S21,根据预热阶段的松弛损失大小,筛选出、作为弱增强数据和强增强数据中松弛损失最小的前部分样本图像;S22,根据筛选后的弱增强数据的标签,从强增强数据中采样得到,根据筛选后的强增强数据的标签,从弱增强数据中采样得到,将剩下的噪声数据筛除;S23,将得到的、作为正确样本图像,以噪声率和作为权重,计算整体
损失,将损失回传,更新网络参数:其中,。
[0006]进一步地,所述S21中,所述、的筛选如下:的筛选如下:。
[0007]进一步地,所述S1中,设定最优间隔、,对于训练数据点,样本间隔大于最优间隔,因此需要将它推向类别边界,使数据边界更加平缓;对于样本间隔在区间内的数据点,的方向相反,使得该数据点有一定概率翻入类别边界的另一侧;、表示对于类别和的最优间隔,考虑到这两个类别之间的关系,并不是一个精确的公式,而是规定它们反比于类别对应的样本数量和的次方。从而对样本依赖容忍度范围进行设定。
[0008]进一步地,所述S1中的松弛变量,将均匀分布乘以,从中抽取松弛变量,即,表示噪声率,即样本标签错误的概率。
[0009]进一步地,对于长尾分布数据的设定,总样本数为的训练数据中,每个类别的训练样本数量为,满足,将样本数最多类别与样本数最少类别之间的比例,作为不平衡因子(imbalance factor),即。
[0010]进一步地,所述S1中的样本图像及其噪声标签,通过转移矩阵(transition matrix)表示表示噪声标签:其中,表示样本图像对应的类别,表示第n个样本图像,表示类别被分类为类别j的概率,。对于噪声数据的设定,分为2种情况,即类别无关噪声(class

independent noise)与类别相关噪声(class

dependent noise)。类别无关噪声假设错误标注样本随机均匀分布,而类别相关噪声则关注视觉相似性造成的人为标注错误现象。这两种噪声分布类型都可以使用转移矩阵表示。
[0011]进一步地,所述S1中的样本图像及其噪声标签,采样于噪声数据集合,对应样本图像及其正确的标签,采样于纯净数据集合,其中表示第n个样本图像,表示样本图像对应的类别,为样本数量,均采样自数据潜在分布。
[0012]本专利技术的优势和有益效果在于:本专利技术从类别相关间隔入手,引入样本依赖的松弛变量,放宽间隔约束,增加了分类预测结果的容忍度,从而承担由于噪声或不平衡分布导致的错误分类风险;考虑强数据增强方法对高噪声率数据集的负面影响,本专利技术将训练阶段的松弛损失分别使用弱增强数据和强增强数据进行计算;在训练的预热阶段注入强数据增强的方法对于低噪声数据集的训练可以提升性能,但当数据集的噪声增加时则会起反作用,相反,预热阶段的弱数据增强可以大幅提升高噪声数据训练的性能,基于此,本专利技术将模型训练分为两个阶段,在不同阶段调整增强策略。最终,减小在长尾分布下噪声标签的影响。
附图说明
[0013]图1a是在CIFAR

10数据集上进行噪声样本学习的准确率与损失变化图。
[0014]图1b是在CIFAR

10数据集上进行长尾分布学习的准确率与损失变化图。
[0015]图2a是类别无关噪声的分布(不对称噪声率)。
[0016]图2b是类别相关噪声的分布(不对称噪声率)。
[0017]图2c是长尾分布下的类别无关噪声的分布图。
[0018]图2d是长尾分布下的类别相关噪声的分布图。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种带噪声标签的长尾分布图像分类方法,其特征在于包括如下步骤:S1,根据数据噪声特征,对样本图像及其噪声标签,在样本间隔的基础上,引入松弛变量,形成噪声样本的样本松弛间隔;所述样本间隔为,类别间隔为,其中表示第个样本的标签为类别,表示所有属于类别的样本的序号的集合;所述样本松弛间隔为:其中,表示样本图像及其正确的标签,表示预测函数,用于预测样本图像属于哪一类别,为样本空间,N为样本总数,为个类别的标签集合,表示实数域,表示与不同的噪声标签,及其对应的x,通过预测函数得到的值中,最大的值,,表示最优间隔;根据样本间隔,分段计算样本依赖的松弛损失;S2,根据数据长尾特征,分阶段调整的数据增强策略,对样本图像分别做弱数据增强和强数据增强,得到相应的弱增强数据和强增强数据,将训练分为预热阶段与正式阶段,在预热阶段,直接计算弱增强数据和强增强数据的松弛损失;在正式训练阶段,根据预热阶段的松弛损失大小,筛选松弛出一组样本图像作为纯净数据,筛除剩余噪声数据,并计算松弛损失。2.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法,其特征在于所述S1中的松弛损失为:。3.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法,其特征在于所述S2中的预热阶段,直接使用弱增强数据和强增强数据计算松弛损失,以噪声率和作为权重,计算整体损失:
其中,。4.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法,其特征在于所述S2中的正式训练阶段,包括如下步骤:S21,根据预热阶段的松弛损失大小,筛选出、作为弱增强数据和强增强数据中松弛损失最小的前部分样本图像;S22,根据筛选后的弱增强数据的标签,从强增强数据中采样得到,根据筛...

【专利技术属性】
技术研发人员:程乐超茅一宁冯尊磊宋明黎
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1