数据标注方法和装置和精细粒度识别方法和装置制造方法及图纸

技术编号:30943717 阅读:16 留言:0更新日期:2021-11-25 19:53
本申请提供了一种数据标注方法,采用至少两个结构不同的分类模型,预训练其中之一作为初始分类模型,且将待标注的源数据集的数据通过该预训练的分类模型标注标签作为初始数据;控制各所述分类模型执行一定次数的交替训练与数据标注,当前训练与当前数据标注的步骤包括:获取前一训练的分类模型所重新标注标签的数据,并从中选择一部分数据训练当前分类模型,通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。还相应提供了数据标注装置、精细粒度识别模型训练方法和装置、精细粒度识别方法和装置,计算设备及介质,实现通过人工智能的方式自动标注数据,减少因数据标注困难、标注样本少带来的分类模型训练时的过拟合问题。的过拟合问题。的过拟合问题。

【技术实现步骤摘要】
数据标注方法和装置和精细粒度识别方法和装置


[0001]本申请涉及模式识别与图像处理
,特别是指数据标注方法和装置、精细粒度识别模型的训练方法和装置、精细粒度识别方法和装置,计算设备及介质。

技术介绍

[0002]细粒度图像识别任务广泛的存在于工业及日常生活中,例如自动驾驶的车辆识别,通过摄像头拍摄的图像识别出车辆的制造商、款式及生产年代等信息,以此辅助自动驾驶的决策;交通标志通常是有简单的线条来表示信息,同样也是一个细粒度分类任务,为自动驾驶汽车的行为提供准则;另外,在手机应用中也是非常广泛,比如花、鸟、狗、食物等万物识别。因此,解决细粒度图像识别是非常有必要的,无论对工业或生活中都具有重要意义。
[0003]精细粒度图像识别是对同一基础类别下的不同子类进行划分,比如车的款式、鸟的种类、狗的品种等,相对于通用图像任务的区别在于其图像所属类别更为精细,目前在工业界以及生活中有广泛应用场景。
[0004]目前,学术上对于细粒度分类任务识别的技术多种多样,包括基于细粒度特征学习的方法、基于视觉注意力机制的方法以及基于目标快检测的方法。以上方法促进了细粒度分类任务的发展,但是仍存在一些问题,例如存在数据标注困难、从而使得标注样本少带来的细粒度图像识别模型训练时过拟合而使得获得的模型识别的准确率欠佳的问题。
[0005]因此,在此背景下,如何能解决数据标注的问题,增加标注样本,以减少细粒度图像识别模型训练时过拟合的问题,提高识别准确率是有待解决的技术问题。

技术实现思路

[0006]有鉴于此,本申请的主要目的在于提供一种数据标注方法和装置、精细粒度识别模型的训练方法和装置、精细粒度识别方法和装置,计算设备及介质,以实现自动标注数据,并可以进一步将过程中的标注好的数据去训练相应的分类模型,有效地减小识别过程中的由于样本数据少导致的过拟合的产生,据此解决了因数据标注困难、标注样本少带来的分类模型训练时过拟合而使得获得的模型识别的准确率欠佳的问题,提高了识别准确率。
[0007]本申请提供的一种数据标注方法,包括:
[0008]采用至少两个结构不同的分类模型,以及
[0009]使用具有目标标注类型标签的目标数据集预训练其中之一分类模型,且将待标注的源数据集中的数据通过该预训练后的分类模型标注标签;
[0010]控制各所述分类模型执行一定次数的交替训练与数据标注,其中,所述预训练后的分类模型和通过该预训练后的分类模型标注标签的数据作为进行所述交替训练与数据标注中的初始分类模型和标注标签的初始数据;
[0011]所述交替训练与数据标注过程中,当前所训练的分类模型所进行的当前训练与当
前数据标注的步骤包括:获取前一训练的分类模型所重新标注标签的数据,并从中选择一部分数据训练当前分类模型,通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。
[0012]由上,本申请采用各个分类模型交替训练和交替标注,实现渐进式的标签的自动标注,以及同时对分类模型的交替训练。通过该渐进式的迭代协同训练机制,可以通过在迭代过程中将自动标注后的大量标注数据引入分类模型训练过程,有效减小训练过程中的由于样本数据少导致的过拟合的产生,提升了识别性能。并且,在迭代协同训练过程中各个分类模型所输入的训练数据是不同的,因此也有效的避免了各个分类模型被训练的“近似”,从而有效避免了标注数据标签的同质化。且本申请通过使用具有目标标注类型标签的目标数据集预训练分类模型,可以使得该预训练后模型性能更高,且在后续迭代训练时速度更快地为源数据标注目标类型标签。
[0013]可选的,所述选择是根据各数据的标注的稳定度进行所述选择。
[0014]由上,可以保留数据标注的稳定度高的标签对应的数据作为训练集,去训练分类模型,使得训练效果较佳。
[0015]可选的,所述稳定度以信息熵进行衡量时,所述选择一部分数据包括:
[0016]根据每个数据上标注的各个标签计算每个数据的数据标注的信息熵,并根据该信息熵值的排序进行选择;其中,所述信息熵值的大小与数据标注的稳定度的高低成类反比关系。
[0017]由上,计算数据标注的稳定度的方式并不唯一,可以根据需要选择信息熵的方式来衡量该数据标注的稳定度。也可以是将数据进行聚类,将能表达数据所在类族的标签重要性的标签使其数据标注的稳定度相对较高
[0018]可选的,所述源数据和目标数据具有同一基础分类的标签;所述目标标注类型标签是在基础分类下的进一步精细粒度分类的标签。
[0019]由上,当预训练采用具有精细粒度分类标签标注数据作为训练集时,本申请可用于将大量的一般类别标签数据集生成精细粒度标签,并且结合上面的技术方案,即使具有精细粒度分类标签标注数据作为训练集不多,也能有效减少精细粒度识别的过拟合问题。
[0020]本申请还提供一种数据标注方法,包括:
[0021]采用至少两个结构不同的分类模型,以及
[0022]控制各所述分类模型执行一定次数的交替训练与数据标注,其中,进行所述交替训练与数据标注中,训练初始分类模型使用的数据中,部分数据具有目标标注类型标签;
[0023]其中,所述交替训练与数据标注过程中,当前所训练的分类模型所进行的当前训练与当前数据标注的步骤包括:获取前一训练的分类模型所重新标注标签的数据,并从中选择一部分数据训练当前分类模型,通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。
[0024]由上,本申请采用各个分类模型交替训练和交替标注,实现渐进式的标签的自动标注,以及同时对分类模型的交替训练。通过该渐进式的迭代协同训练机制,可以通过在迭代过程中将自动标注后的大量标注数据引入分类模型训练过程,有效减小训练过程中的由于样本数据少导致的过拟合的产生,提升了识别性能。并且,在迭代协同训练过程中各个分类模型所输入的训练数据是不同的,因此也有效的避免了各个分类模型被训练的“近似”,
从而有效避免了标注数据标签的同质化。
[0025]可选的,进行所述交替训练与数据标注之前,还包括:通过具有目标标注类型标签标注数据的目标数据集预训练所述初始分类模型。
[0026]由上,通过对该分类模型的预训练,使其具有一定特性,通过使用具有目标标注类型标签的目标数据集预训练分类模型,可以使得该预训练后模型性能更高,且在后续迭代训练时速度更快地为源数据标注目标类型标签。
[0027]可选的,所述选择是根据各数据的标注的稳定度进行所述选择。
[0028]由上,可以保留数据标注的稳定度高的标签对应的数据作为训练集,去训练分类模型,使得训练效果较佳。
[0029]可选的,所述稳定度以信息熵进行衡量时,所述选择一部分数据包括:根据每个数据上标注的各个标签计算每个数据的数据标注的信息熵,并根据该信息熵值的排序进行选择;其中,所述信息熵值的大小与数据标注的稳定度的高低成类反比关系。
[0030]由上,计算数据标注的稳定度的方式并不唯本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:采用至少两个结构不同的分类模型,以及使用具有目标标注类型标签的目标数据集预训练其中之一分类模型,且将待标注的源数据集中的数据通过该预训练后的分类模型标注标签;控制各所述分类模型执行一定次数的交替训练与数据标注,其中,所述预训练后的分类模型和通过该预训练后的分类模型标注标签的数据作为进行所述交替训练与数据标注中的初始分类模型和标注标签的初始数据;所述交替训练与数据标注过程中,当前所训练的分类模型所进行的当前训练与当前数据标注的步骤包括:获取前一训练的分类模型所重新标注标签的数据,并从中选择一部分数据训练当前分类模型,通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。2.根据权利要求1所述的方法,其特征在于,所述选择是根据各数据的标注的稳定度进行所述选择。3.根据权利要求2所述的方法,其特征在于,所述稳定度以信息熵进行衡量时,所述选择一部分数据包括:根据每个数据上标注的各个标签计算每个数据的数据标注的信息熵,并根据该信息熵值的排序进行数据的选择;其中,所述信息熵值的大小与数据标注的稳定度的高低成类反比关系。4.根据权利要求1所述的方法,其特征在于,所述源数据和目标数据具有同一基础分类的标签;所述目标标注类型标签是在基础分类下的进一步精细粒度分类的标签。5.一种数据标注方法,其特征在于,包括:采用至少两个结构不同的分类模型,以及控制各所述分类模型执行一定次数的交替训练与数据标注,其中,进行所述交替训练与数据标注中,训练初始分类模型使用的数据中,部分数据具有目标标注类型标签;其中,所述交替训练与数据标注过程中,当前所训练的分类模型所进行的当前训练与当前数据标注的步骤包括:获取前一训练的分类模型所重新标注标签的数据,并从中选择一部分数据训练当前分类模型,通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。6.根据权利要求5所述的方法,其特征在于,进行所述交替训练与数据标注之前,还包括:通过具有目标标注类型标签标注数据的目标数据集预训练所述初始分类模型。7.根据权利要求5所述的方法,其特征在于,所述选择是根据各数据的标注的稳定度进行所述选择。8.根据权利要求7所述的方法,其特征在于,所述稳定度以信息熵进行衡量时,所述选择一部分数据包括:根据每个数据上标注的各个标签计算每个数据的数据标注的信息熵,并根据该信息熵值的排序进行选择;其中,所述信息熵值的大小与数据标注的稳定度的高低成类反比关系。9.根据权利要求5所述的方法,其特征在于,所述训练初始分类模型使用的数据具有同一基础分类的标签;
所述目标标注类型标签是在基础分类下的进一步精细粒度分类的标签。10.一种数据标注装置,其特征在于,包括:调用模块,用于调用至少两个结构不同的分类模型;第一预训练模块,用于使用具有目标标注类型标签的目标数据集预训练其中之一分类模型;首次标注模块,用于将待标注的源数据集中的数据通过该预训练后的分类模型标注标签;控制模块,用于控制各所述分类模型执行一定次数的交替训练与数据标注,其中,所述预训练后的分类模型和通过该预训练后的分类模型标注标签的数据作为进行所述交替训练与数据标注中的初始分类模型和标注标签的初始数据;其中,所述交替训练与数据标注过程中,当前所训练的分类模型所进行的当前训练与当前数据标注的步骤包括:获取前一训练的分类模型所重新标注标签的数据,并从中选择一部分数据训练当前分类模型,通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。11.根据权利要求10所述的装置,其特征在于,所述选择是根据各数据的标注的稳定度进行所述选择。12.根据权利要求11所述的装置,其特征在于,所述稳定度以信息熵进行衡量时,所述选择一部分数据包括:根据每个数据上标注的各个标签计算每个数据的数...

【专利技术属性】
技术研发人员:王子辰张晓鹏田奇
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1