一种图像数据的噪声识别方法技术

技术编号:33621002 阅读:51 留言:0更新日期:2022-06-02 00:44
一种图像数据的噪声识别方法,包括如下步骤:S1、在基于神经网络的噪声学习中,使用高斯混合分布模型,将待检测样本的损失值与最大非目标概率作为训练动态来联合建模;其中,所述最大非目标概率是指,样本经过神经网络后输出的各分类鉴别概率中,除目标类概率以外最大的概率;S2、使用训练好的神经网络模型计算待检测样本的损失值与最大非目标概率,用计算出的损失值和最大非目标概率拟合高斯混合分布模型,并输出待检测样本属于干净样本和噪声样本的概率;根据概率将待检测样本划分为干净样本或噪声样本。本发明专利技术同时考虑了样本与本类中心的距离信息以及与其他类中心的混淆信息,有效分离了困难样本与噪声样本,提高了噪声检测的准确率。准确率。准确率。

【技术实现步骤摘要】
一种图像数据的噪声识别方法


[0001]本专利技术涉及图像识别,特别是涉及图像分类任务中的噪声识别方法。

技术介绍

[0002]缩略语和术语:
[0003]带噪学习:这个任务是指在包含噪声标记的数据集上,如何学得一个高性能的模型。深度神经网络的训练通常需要大量的干净样本,但在实际应用场景下,获取大规模、高质量的干净标签面临着标记成本高、时间开销大、标注质量低等问题。例如,在众包场景下,公司通常会请数名标注者对海量的未标记样本进行标注,但由于不同标注者的标注能力参差不齐以及错误标注等,导致在大量的标注花费、时间开销下得到一个带噪声标记的数据集。此外,通过在互联网上进行关键词搜索获取样本是一个低成本的方式,但得到的数据集同样包含着大量的噪声样本。因此,带噪学习成为实际应用场景下越来越重要的值得研究的课题。
[0004]噪声识别方法:噪声识别方法是指使用一些指标或通过模型、样本本身的信息来对有噪声样本的数据集进行筛选,将潜在噪声样本从训练集移除得到相对干净的数据集,随后使用该数据集训练模型。
[0005]解决在有噪声数据中学习挑战的方法可大致分为两类。一类是在噪声标签存在的情况下直接训练鲁棒模型,这类方法通常通过设计对标签噪声鲁棒的网络结构或引入对噪声鲁棒的损失函数来减少对噪声样本过拟合所带来的负面影响;另一类方法是去检测数据集中的潜在噪声样本,它首先会检测出训练集中的潜在噪声样本并将其从训练集移除,随后使用筛选后的训练集进行模型训练。在实际应用情况下,后者在工业界更有实际意义,因为它不仅学得了一个鲁棒的深度学习模型,更提供了一个相对干净的数据集。在噪声标签检测方向上,有一类方法是基于这个原理:在训练过程中干净与噪声样本具有的相异的训练动态。根据训练过程中不同样本的训练动态的不同,可以区分筛选噪声样本。
[0006]基于损失值来识别噪声的方法有[1][2][3]。[1]用一维高斯混合分布模型来建模损失值的分布并检测噪声样本。[2]用一维贝塔(β)混合模型来建模损失值的分布并检测噪声样本。[3]为损失值设定一个动态的阈值,来分离干净与噪声样本。
[0007][1]Li,J.;Socher,R.;and Hoi,S.C.2019.DivideMix:Learning with Noisy Labels as Semi

supervised Learning.In ICLR.
[0008][2]Arazo,E.;Ortego,D.;Albert,P.;O

Connor,N.;and Mcguinness,K.2019.Unsupervised Label Noise Modeling and Loss Correction.In ICML.
[0009][3]Han,B.;Yao,Q.;Yu,X.;Niu,G.;Xu,M.;Hu,W.;Tsang,I.;and Sugiyama,M.2018.Co

teaching:Robust training of deep neural networks with extremely noisy labels.In NeurIPS.
[0010]在图像场景下,在基于损失的训练动态检测噪声样本时,由于样本损失分布存在重叠,干净样本中存在困难样本,导致检测准确率下降。
[0011]对于带噪学习任务,之前的方法识别噪声样本的核心思想是将训练过程中具有较大损失值的样本视为噪声样本。然而,由于干净样本中困难样本的存在,部分干净样本也会具有较大的损失值从而被判断为噪声样本,用简单的损失值阈值的方法来检测噪声样本准确率较低。换句话来说,部分干净样本与类别中心差异过大,导致被误认为成噪声样本。
[0012]需要说明的是,在上述
技术介绍
部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0013]本专利技术的主要目的在于克服上述
技术介绍
的缺陷,提供一种图像分类任务中基于最大非目标概率的噪声识别方法,提高噪声检测的准确率。
[0014]为实现上述目的,本专利技术采用以下技术方案:
[0015]一种图像数据的噪声识别方法,包括如下步骤:
[0016]S1、在基于神经网络的噪声学习中,使用高斯混合分布模型,将待检测样本的损失值与最大非目标概率作为训练动态来联合建模;其中,所述最大非目标概率是指,样本经过所述神经网络后输出的各分类鉴别概率中,除目标类概率以外最大的概率;
[0017]S2、使用训练好的神经网络模型计算待检测样本的损失值与最大非目标概率,用计算出的损失值和最大非目标概率拟合高斯混合分布模型,并输出待检测样本属于干净样本和噪声样本的概率;根据所述概率将待检测样本划分为干净样本或噪声样本。
[0018]进一步地:
[0019]对于C分类任务中的模型f
θ
,其中θ是模型f
θ
的参数,由此模型对样本x生成的softmax概率分布p(x)=softmax(f
θ
(x)),用p
target
(x)来表示属于标签类别的softmax概率,并用p
k
(x)来表示p(x)中除了p
target
(x)以外第k大的项,其中k≥1,最大非目标概率为p1(x)。
[0020]对样本x计算交叉熵损失l
ce

[0021]l
ce


log P
target

[0022]最大非目标概率与损失值的结合包括:为数据集中每一个样本赋予一个估计的概率对(p
target
(x),p1(x)),将问题转化为2D特征平面上的一个无监督聚类问题。
[0023]使用自适应的非线性的鉴别方式来分离干净与噪声样本。
[0024]将待检测样本的损失值与最大非目标概率用二维球型高斯混合分布模型统一建模。
[0025]使用一个二成分的球型的二维高斯混合分布模型来建模概率;其中,在所述高斯混合分布模型中,样本x属于由K个成分组成的混合模型中成分c的后验概率为:
[0026][0027]其中,λ
k
是每一个独立概率密度函数p(x|k)的凸组合混合系数,
[0028]其中,对二维高斯混合分布模型的参数做适当的约束以令其每一个的成分的在所有的维度上都有统一的协方差;
[0029]样本来源于干净聚类的概率为干净概率w
clean
,干净概率w
clean
指示样本x是干净样
本的置信程度;根据干净概率w
clean
判断样本是干净的还是噪声。
[0030]w
clean
>0.5的样本认为是干净的,否则认为是噪声。
[0031]在结束噪声检测后,保留干净样本的标签,去除本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像数据的噪声识别方法,其特征在于,包括如下步骤:S1、在基于神经网络的噪声学习中,使用高斯混合分布模型,将待检测样本的损失值与最大非目标概率作为训练动态来联合建模;其中,所述最大非目标概率是指,样本经过所述神经网络后输出的各分类鉴别概率中,除目标类概率以外最大的概率;S2、使用训练好的神经网络模型计算待检测样本的损失值与最大非目标概率,用计算出的损失值和最大非目标概率拟合所述高斯混合分布模型,并输出待检测样本属于干净样本和噪声样本的概率;根据所述概率将待检测样本划分为干净样本或噪声样本。2.如权利要求1所述的噪声识别方法,其特征在于,对于C分类任务中的模型f
θ
,其中θ是模型f
θ
的参数,由此模型对样本x生成的softmax概率分布p(x)=softmax(f
θ
(x)),用p
target
(x)来表示属于标签类别的softmax概率,并用p
k
(x)来表示p(x)中除了p
target
(x)以外第k大的项,其中k≥1,最大非目标概率为p1(x)。3.如权利要求2所述的噪声识别方法,其特征在于,对样本x计算交叉熵损失l
ce
:l
ce


logp
target
。4.如权利要求1至3任一项所述的噪声识别方法,其特征在于,最大非目标概率与损失值的结合包括:为数据集中每一个样本赋予一个估计的概率对(p

【专利技术属性】
技术研发人员:袁春王子啸
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1