一种噪声样本的识别方法及装置制造方法及图纸

技术编号:37819182 阅读:16 留言:0更新日期:2023-06-09 09:51
本申请实施例提供了一种噪声样本的识别方法及装置,涉及人工智能技术领域,可以用于提升分类器对噪声样本识别的准确度。该方法具体为:首先获取用于训练得到第一任务模型的第一样本集;第一样本集包括多个样本,且第一样本集中的样本具有标签;根据目标噪声分类器识别第一样本集中的噪声样本,噪声样本为具有错误标签的样本;其中,目标噪声分类器是基于在源域训练得到的初始噪声分类器得到的,初始噪声分类器是基于源域数据训练得到,源域数据包括基于第二样本集训练得到第二任务模型的训练过程数据,第二样本集包括至少一个噪声样本以及至少一个用于标注所述噪声样本的噪声标签。签。签。

【技术实现步骤摘要】
一种噪声样本的识别方法及装置


[0001]本申请涉及人工智能
,尤其涉及一种噪声样本的识别方法及装置。

技术介绍

[0002]图像识别是人工智能领域的一项基础而重要的任务,其应用跨越了自然科学,医药学,工业等多个领域。随着深度学习的迅猛发展,利用卷积神经网络训练得到的图像分类器获得了空前成功。然而深度学习框架下的图像分类学习依赖于大规模高品质的训练数据,包括清晰的图像和精确的标签。这样的训练数据往往来自于人工收集和标注,这将消耗大量的人力物力,使得处理新领域的图像识别问题变得相对昂贵和低效。目前,如果数据的标签中存在一些噪声,即错误的标签,则会对网络的训练造成极大的负面影响,进而导致神经网络模型的表现变差,即模型在标签被噪声污染时易受干扰。
[0003]现有技术中,处理噪声标签的一般做法就是不断地对数据集进行检查,找出标签错误的样本,并修正其标签。但这种方案往往需要大量的人力来修正标签,需要的成本代价比较高。

技术实现思路

[0004]本申请提供一种噪声样本的识别方法及装置,可以用于提升分类器对噪声样本识别的准确度。
[0005]第一方面,本申请实施例提供了一种噪声样本的识别方法,该方法具体包括:首先获取用于训练得到第一任务模型的第一样本集;第一样本集包括多个样本,且第一样本集中的样本具有标签;根据目标噪声分类器识别第一样本集中的噪声样本,噪声样本为具有错误标签的样本;其中,目标噪声分类器是基于初始噪声分类器得到的,初始噪声分类器是基于源域数据训练得到,源域数据包括基于第二样本集训练得到第二任务模型的训练过程数据,第二样本集包括至少一个噪声样本以及至少一个用于标注所述噪声样本的噪声标签。
[0006]基于本申请提供的技术方案,至少可以产生以下有益效果:该方法可以基于迁移学习算法,根据源域的初始噪声分类器,得到目标域的目标噪声分类器。其中,无需人工对目标域场景的待识别样本进行噪声标定,可以减少人力使用。并且,相较于基于少量人工标定数据确定的准确率较低的分类器而言,本申请的目标噪声分类器准确率更高。此外,基于源域的初始噪声分类器,可以得到目标域的目标噪声分类器,该过程更具泛化性,实用性比较高。
[0007]在一种可能的实现方式中,对于所述第二任务模型,训练过程数据包括基于第二样本集对第二任务模型进行训练时的中间参数与组合参数;其中,中间参数包括基于第二样本集中一个样本训练时得到的第二任务模型的网络层的输入特征、输出特征、模型参数、反传梯度、预测值或者损失值,以及第二样本集的准确率与第二样本集的拟合率中的一种或多种;组合参数包括对第二样本集中一个样本训练时得到的种类相同的多个中间参数进
行数据处理得到的参数,和/或,对第二样本集中一个样本训练时得到的对种类不同的多个中间参数进行数据处理得到的参数,和/或,分别对第二样本集中多个样本训练时得到多个中间参数进行数据处理得到的参数,和/或,对第二任务模型进行一次训练过程的多个中间参数进行数据处理得到的参数,和/或,对第二任务模型的多次训练过程得到的多个中间参数进行数据处理得到的参数。
[0008]在另一种可能的实现方式中,目标噪声分类器是将源域的初始分类模型经过迁移学习方法处理得到的。
[0009]在又一种可能的实现方式中,将根据源域的初始分类模型,基于迁移学习得到目标噪声分类器,包括:根据源域的初始分类模型和迁移学习方法,得到目标域的第一分类器;根据目标域数据和源域数据,对第一分类器进行训练,以得到训练完成的目标噪声分类器,目标域数据包括基于第一样本集训练得到第一任务模型的训练过程数据。
[0010]在又一种可能的实现方式中,对于第一任务模型,训练过程数据包括基于第一样本集对第一任务模型进行训练时的中间参数与组合参数;其中,中间参数包括基于第一样本集中一个样本训练时得到的第一任务模型的网络层的输入特征、输出特征、模型参数、反传梯度、预测值或者损失值,以及第一样本集的准确率与第一样本集的拟合率中的一种或多种;组合参数包括对第一样本集中一个样本训练时得到的种类相同的多个中间参数进行数据处理得到的参数,和/或,对第一样本集中一个样本训练时得到的对种类不同的多个中间参数进行数据处理得到的参数,和/或,分别对第一样本集中多个样本训练时得到多个中间参数进行数据处理得到的参数,和/或,对第一任务模型进行一次训练过程的多个中间参数进行数据处理得到的参数,和/或,对第一任务模型的多次训练过程得到的多个中间参数进行数据处理得到的参数。
[0011]在又一种可能的实现方式中,在上述根据源域的初始分类模型,基于迁移学习得到目标噪声分类器之前,方法还包括:将源域数据中的一个或多个数据输入源域待训练的第二分类器中,得到第二样本集中、与源域数据中的一个或多个数据对应的一个或多个样本的分类信息,其中,分类信息包括一个或多个样本为噪声样本或者非噪声样本;对比源域待训练的第二分类器输出的样本的分类信息与第二样本集中的噪声样本,确定源域数据中各个数据的损失值;根据源域数据中各个数据的损失值调整第二分类器,以得到初始噪声分类器。
[0012]第二方面,本申请提供一种噪声样本的识别装置,该装置包括:获取模块,用于获取用于训练得到第一任务模型的第一样本集;第一样本集包括多个样本,样本具有标签。处理模块,用于根据目标噪声分类器识别第一样本集中的噪声样本,噪声样本为具有错误标签的样本;其中,目标噪声分类器是基于初始噪声分类器得到的,初始噪声分类器是基于源域数据训练得到,源域数据包括基于第二样本集训练得到第二任务模型的训练过程数据,第二样本集包括至少一个噪声样本以及至少一个用于标注所述噪声样本的噪声标签。
[0013]在一种可能的实现方式中,对于第二任务模型,训练过程数据包括基于第二样本集对第二任务模型进行训练时的中间参数与组合参数;其中,中间参数包括基于第二样本集中一个样本训练时得到的第二任务模型的网络层的输入特征、输出特征、模型参数、反传梯度、预测值或者损失值,以及第二样本集的准确率与第二样本集的拟合率中的一种或多种;组合参数包括对第二样本集中一个样本训练时得到的种类相同的多个中间参数进行数
据处理得到的参数,和/或,对第二样本集中一个样本训练时得到的对种类不同的多个中间参数进行数据处理得到的参数,和/或,分别对第二样本集中多个样本训练时得到多个中间参数进行数据处理得到的参数,和/或,对第二任务模型进行一次训练过程的多个中间参数进行数据处理得到的参数,和/或,对第二任务模型的多次训练过程得到的多个中间参数进行数据处理得到的参数。
[0014]在另一种可能的实现方式中,目标噪声分类器是将源域的初始分类模型经过迁移学习方法处理得到的。
[0015]在又一种可能的实现方式中,上述处理模块,具体用于:根据源域的初始分类模型和迁移学习方法,得到目标域的第一分类器;根据目标域数据和源域数据,对第一分类器进行训练,以得到训练完成的目标噪声分类器,目标域数据包括基于第一样本集训练得到第一任务模型的训练过程数据。
[0016]在又一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种噪声样本的识别方法,其特征在于,所述方法包括:获取用于训练得到第一任务模型的第一样本集;第一样本集包括多个样本,样本具有标签;根据目标噪声分类器识别所述第一样本集中的噪声样本,所述噪声样本为具有错误标签的样本;其中,所述目标噪声分类器是基于初始噪声分类器得到的,所述初始噪声分类器是基于源域数据训练得到,所述源域数据包括基于第二样本集训练得到第二任务模型的训练过程数据,所述第二样本集包括至少一个所述噪声样本以及至少一个用于标注所述噪声样本的噪声标签。2.根据权利要求1所述的方法,其特征在于,对于所述第二任务模型,所述训练过程数据包括基于所述第二样本集对所述第二任务模型进行训练时的中间参数与组合参数;其中,所述中间参数包括基于所述第二样本集中一个样本训练时得到的所述第二任务模型的网络层的输入特征、输出特征、模型参数、反传梯度、预测值或者损失值,以及所述第二样本集的准确率与第二样本集的拟合率中的一种或多种;所述组合参数包括对所述第二样本集中一个样本训练时得到的种类相同的多个中间参数进行数据处理得到的参数,和/或,对所述第二样本集中一个样本训练时得到的对种类不同的多个中间参数进行数据处理得到的参数,和/或,分别对所述第二样本集中多个样本训练时得到多个中间参数进行数据处理得到的参数,和/或,对所述第二任务模型进行一次训练过程的多个中间参数进行数据处理得到的参数,和/或,对所述第二任务模型的多次训练过程得到的多个中间参数进行数据处理得到的参数。3.根据权利要求1或2所述的方法,其特征在于,所述目标噪声分类器是将所述源域的初始分类模型经过迁移学习方法处理得到的。4.根据权利要求3所述的方法,其特征在于,所述将根据所述源域的初始分类模型,基于迁移学习得到所述目标噪声分类器,包括:根据所述源域的初始分类模型和迁移学习方法,得到目标域的第一分类器;根据目标域数据和所述源域数据,对所述第一分类器进行训练,得到训练完成的所述目标噪声分类器,所述目标域数据包括基于第一样本集训练得到第一任务模型的训练过程数据。5.根据权利要求4所述的方法,其特征在于,对于所述第一任务模型,所述训练过程数据包括基于所述第一样本集对所述第一任务模型进行训练时的中间参数与组合参数;其中,所述中间参数包括基于所述第一样本集中一个样本训练时得到的所述第一任务模型的网络层的输入特征、输出特征、模型参数、反传梯度、预测值或者损失值,以及所述第一样本集的准确率与第一样本集的拟合率中的一种或多种;所述组合参数包括对所述第一样本集中一个样本训练时得到的种类相同的多个中间参数进行数据处理得到的参数,和/或,对所述第一样本集中一个样本训练时得到的对种类不同的多个中间参数进行数据处理得到的参数,和/或,分别对所述第一样本集中多个样本训练时得到多个中间参数进行数据处理得到的参数,和/或,对所述第一任务模型进行一次训练过程的多个中间参数进行数据处理得到的参数,和/或,对所述第一任务模型的多次训练过程得到的多个中间参数进行数据处理得到的参数。6.根据权利要求4或5所述的方法,其特征在于,在所述根据所述源域的初始分类模型,
基于迁移学习得到所述目标噪声分类器之前,所述方法还包括:将所述源域数据中的一个或多个数据输入源域待训练的第二分类器中,得到所述第二样本集中、与所述源域数据中的一个或多个数据对应的一个或多个样本的分类信息,其中,所述分类信息包括所述一个或多个样本为噪声样本或者非噪声样本;对比所述源域待训练的第二分类器输出的所述样本的分类信息与所述第二样本集中的噪声样本,确定所述源域数据中各个数据的损失值;根据所述源域数据中各个数据的损失值调整所述第二分类器,以得到所述初始噪声分类器。7.一种噪声样本的识别装置,其特征在于,所述装置包括:获取模块,用于获取用于训练得到第一任务模型的第一样本集;第一样...

【专利技术属性】
技术研发人员:郑钢
申请(专利权)人:上海高德威智能交通系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1