一种图像数据的噪声识别方法技术

技术编号：33621002 阅读：51 留言：0更新日期：2022-06-02 00:44

一种图像数据的噪声识别方法，包括如下步骤：S1、在基于神经网络的噪声学习中，使用高斯混合分布模型，将待检测样本的损失值与最大非目标概率作为训练动态来联合建模；其中，所述最大非目标概率是指，样本经过神经网络后输出的各分类鉴别概率中，除目标类概率以外最大的概率；S2、使用训练好的神经网络模型计算待检测样本的损失值与最大非目标概率，用计算出的损失值和最大非目标概率拟合高斯混合分布模型，并输出待检测样本属于干净样本和噪声样本的概率；根据概率将待检测样本划分为干净样本或噪声样本。本发明专利技术同时考虑了样本与本类中心的距离信息以及与其他类中心的混淆信息，有效分离了困难样本与噪声样本，提高了噪声检测的准确率。准确率。准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像数据的噪声识别方法

[0001]本专利技术涉及图像识别，特别是涉及图像分类任务中的噪声识别方法。

技术介绍

[0002]缩略语和术语：
[0003]带噪学习：这个任务是指在包含噪声标记的数据集上，如何学得一个高性能的模型。深度神经网络的训练通常需要大量的干净样本，但在实际应用场景下，获取大规模、高质量的干净标签面临着标记成本高、时间开销大、标注质量低等问题。例如，在众包场景下，公司通常会请数名标注者对海量的未标记样本进行标注，但由于不同标注者的标注能力参差不齐以及错误标注等，导致在大量的标注花费、时间开销下得到一个带噪声标记的数据集。此外，通过在互联网上进行关键词搜索获取样本是一个低成本的方式，但得到的数据集同样包含着大量的噪声样本。因此，带噪学习成为实际应用场景下越来越重要的值得研究的课题。
[0004]噪声识别方法：噪声识别方法是指使用一些指标或通过模型、样本本身的信息来对有噪声样本的数据集进行筛选，将潜在噪声样本从训练集移除得到相对干净的数据集，随后使用该数据集训练模型。
[0005]解决在有噪声数据中学习挑战的方法可大致分为两类。一类是在噪声标签存在的情况下直接训练鲁棒模型，这类方法通常通过设计对标签噪声鲁棒的网络结构或引入对噪声鲁棒的损失函数来减少对噪声样本过拟合所带来的负面影响；另一类方法是去检测数据集中的潜在噪声样本，它首先会检测出训练集中的潜在噪声样本并将其从训练集移除，随后使用筛选后的训练集进行模型训练。在实际应用情况下，后者在工业界更有实际意义，因为它不仅学得了一个...

【技术保护点】

【技术特征摘要】
1.一种图像数据的噪声识别方法，其特征在于，包括如下步骤：S1、在基于神经网络的噪声学习中，使用高斯混合分布模型，将待检测样本的损失值与最大非目标概率作为训练动态来联合建模；其中，所述最大非目标概率是指，样本经过所述神经网络后输出的各分类鉴别概率中，除目标类概率以外最大的概率；S2、使用训练好的神经网络模型计算待检测样本的损失值与最大非目标概率，用计算出的损失值和最大非目标概率拟合所述高斯混合分布模型，并输出待检测样本属于干净样本和噪声样本的概率；根据所述概率将待检测样本划分为干净样本或噪声样本。2.如权利要求1所述的噪声识别方法，其特征在于，对于C分类任务中的模型f
θ
，其中θ是模型f
θ
的参数，由此模型对样本x生成的softmax概率分布p(x)＝softmax(f
θ
(x))，用p
target
(x)来表示属于标签类别的softmax概率，并用p
k
(x)来表示p(x)中除了p
target
(x)以外第k大的项，其中k≥1，最大非目标概率为p1(x)。3.如权利要求2所述的噪声识别方法，其特征在于，对样本x计算交叉熵损失l
ce
：l
ce
＝
‑
logp
target
。4.如权利要求1至3任一项所述的噪声识别方法，其特征在于，最大非目标概率与损失值的结合包括：为数据集中每一个样本赋予一个估计的概率对(p

【专利技术属性】
技术研发人员：袁春，王子啸，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人