一种噪声样本的识别方法及装置制造方法及图纸

技术编号：37819182 阅读：16 留言：0更新日期：2023-06-09 09:51

本申请实施例提供了一种噪声样本的识别方法及装置，涉及人工智能技术领域，可以用于提升分类器对噪声样本识别的准确度。该方法具体为：首先获取用于训练得到第一任务模型的第一样本集；第一样本集包括多个样本，且第一样本集中的样本具有标签；根据目标噪声分类器识别第一样本集中的噪声样本，噪声样本为具有错误标签的样本；其中，目标噪声分类器是基于在源域训练得到的初始噪声分类器得到的，初始噪声分类器是基于源域数据训练得到，源域数据包括基于第二样本集训练得到第二任务模型的训练过程数据，第二样本集包括至少一个噪声样本以及至少一个用于标注所述噪声样本的噪声标签。签。签。

全部详细技术资料下载

【技术实现步骤摘要】
一种噪声样本的识别方法及装置

[0001]本申请涉及人工智能
，尤其涉及一种噪声样本的识别方法及装置。

技术介绍

[0002]图像识别是人工智能领域的一项基础而重要的任务，其应用跨越了自然科学，医药学，工业等多个领域。随着深度学习的迅猛发展，利用卷积神经网络训练得到的图像分类器获得了空前成功。然而深度学习框架下的图像分类学习依赖于大规模高品质的训练数据，包括清晰的图像和精确的标签。这样的训练数据往往来自于人工收集和标注，这将消耗大量的人力物力，使得处理新领域的图像识别问题变得相对昂贵和低效。目前，如果数据的标签中存在一些噪声，即错误的标签，则会对网络的训练造成极大的负面影响，进而导致神经网络模型的表现变差，即模型在标签被噪声污染时易受干扰。
[0003]现有技术中，处理噪声标签的一般做法就是不断地对数据集进行检查，找出标签错误的样本，并修正其标签。但这种方案往往需要大量的人力来修正标签，需要的成本代价比较高。

技术实现思路

[0004]本申请提供一种噪声样本的识别方法及装置，可以用于提升分类器对噪声样本识别的准确度。
[0005]第一方面，本申请实施例提供了一种噪声样本的识别方法，该方法具体包括：首先获取用于训练得到第一任务模型的第一样本集；第一样本集包括多个样本，且第一样本集中的样本具有标签；根据目标噪声分类器识别第一样本集中的噪声样本，噪声样本为具有错误标签的样本；其中，目标噪声分类器是基于初始噪声分类器得到的，初始噪声分类器是基于源域数据训练得到，源域数据包括基于第二样本集...

【技术保护点】

【技术特征摘要】
1.一种噪声样本的识别方法，其特征在于，所述方法包括：获取用于训练得到第一任务模型的第一样本集；第一样本集包括多个样本，样本具有标签；根据目标噪声分类器识别所述第一样本集中的噪声样本，所述噪声样本为具有错误标签的样本；其中，所述目标噪声分类器是基于初始噪声分类器得到的，所述初始噪声分类器是基于源域数据训练得到，所述源域数据包括基于第二样本集训练得到第二任务模型的训练过程数据，所述第二样本集包括至少一个所述噪声样本以及至少一个用于标注所述噪声样本的噪声标签。2.根据权利要求1所述的方法，其特征在于，对于所述第二任务模型，所述训练过程数据包括基于所述第二样本集对所述第二任务模型进行训练时的中间参数与组合参数；其中，所述中间参数包括基于所述第二样本集中一个样本训练时得到的所述第二任务模型的网络层的输入特征、输出特征、模型参数、反传梯度、预测值或者损失值，以及所述第二样本集的准确率与第二样本集的拟合率中的一种或多种；所述组合参数包括对所述第二样本集中一个样本训练时得到的种类相同的多个中间参数进行数据处理得到的参数，和/或，对所述第二样本集中一个样本训练时得到的对种类不同的多个中间参数进行数据处理得到的参数，和/或，分别对所述第二样本集中多个样本训练时得到多个中间参数进行数据处理得到的参数，和/或，对所述第二任务模型进行一次训练过程的多个中间参数进行数据处理得到的参数，和/或，对所述第二任务模型的多次训练过程得到的多个中间参数进行数据处理得到的参数。3.根据权利要求1或2所述的方法，其特征在于，所述目标噪声分类器是将所述源域的初始分类模型经过迁移学习方法处理得到的。4.根据权利要求3所述的方法，其特征在于，所述将根据所述源域的初始分类模型，基于迁移学习得到所述目标噪声分类器，包括：根据所述源域的初始分类模型和迁移学习方法，得到目标域的第一分类器；根据目标域数据和所述源域数据，对所述第一分类器进行训练，得到训练完成的所述目标噪声分类器，所述目标域数据包括基于第一样本集训练得到第一任务模型的训练过程数据。5.根据权利要求4所述的方法，其特征在于，对于所述第一任务模型，所述训练过程数据包括基于所述第一样本集对所述第一任务模型进行训练时的中间参数与组合参数；其中，所述中间参数包括基于所述第一样本集中一个样本训练时得到的所述第一任务模型的网络层的输入特征、输出特征、模型参数、反传梯度、预测值或者损失值，以及所述第一样本集的准确率与第一样本集的拟合率中的一种或多种；所述组合参数包括对所述第一样本集中一个样本训练时得到的种类相同的多个中间参数进行数据处理得到的参数，和/或，对所述第一样本集中一个样本训练时得到的对种类不同的多个中间参数进行数据处理得到的参数，和/或，分别对所述第一样本集中多个样本训练时得到多个中间参数进行数据处理得到的参数，和/或，对所述第一任务模型进行一次训练过程的多个中间参数进行数据处理得到的参数，和/或，对所述第一任务模型的多次训练过程得到的多个中间参数进行数据处理得到的参数。6.根据权利要求4或5所述的方法，其特征在于，在所述根据所述源域的初始分类模型，
基于迁移学习得到所述目标噪声分类器之前，所述方法还包括：将所述源域数据中的一个或多个数据输入源域待训练的第二分类器中，得到所述第二样本集中、与所述源域数据中的一个或多个数据对应的一个或多个样本的分类信息，其中，所述分类信息包括所述一个或多个样本为噪声样本或者非噪声样本；对比所述源域待训练的第二分类器输出的所述样本的分类信息与所述第二样本集中的噪声样本，确定所述源域数据中各个数据的损失值；根据所述源域数据中各个数据的损失值调整所述第二分类器，以得到所述初始噪声分类器。7.一种噪声样本的识别装置，其特征在于，所述装置包括：获取模块，用于获取用于训练得到第一任务模型的第一样本集；第一样...

【专利技术属性】
技术研发人员：郑钢，
申请(专利权)人：上海高德威智能交通系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人