数据标注方法和装置和精细粒度识别方法和装置制造方法及图纸

技术编号：30943717 阅读：29 留言：0更新日期：2021-11-25 19:53

本申请提供了一种数据标注方法，采用至少两个结构不同的分类模型，预训练其中之一作为初始分类模型，且将待标注的源数据集的数据通过该预训练的分类模型标注标签作为初始数据；控制各所述分类模型执行一定次数的交替训练与数据标注，当前训练与当前数据标注的步骤包括：获取前一训练的分类模型所重新标注标签的数据，并从中选择一部分数据训练当前分类模型，通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。还相应提供了数据标注装置、精细粒度识别模型训练方法和装置、精细粒度识别方法和装置，计算设备及介质，实现通过人工智能的方式自动标注数据，减少因数据标注困难、标注样本少带来的分类模型训练时的过拟合问题。的过拟合问题。的过拟合问题。

全部详细技术资料下载

【技术实现步骤摘要】
数据标注方法和装置和精细粒度识别方法和装置

[0001]本申请涉及模式识别与图像处理
，特别是指数据标注方法和装置、精细粒度识别模型的训练方法和装置、精细粒度识别方法和装置，计算设备及介质。

技术介绍

[0002]细粒度图像识别任务广泛的存在于工业及日常生活中，例如自动驾驶的车辆识别，通过摄像头拍摄的图像识别出车辆的制造商、款式及生产年代等信息，以此辅助自动驾驶的决策；交通标志通常是有简单的线条来表示信息，同样也是一个细粒度分类任务，为自动驾驶汽车的行为提供准则；另外，在手机应用中也是非常广泛，比如花、鸟、狗、食物等万物识别。因此，解决细粒度图像识别是非常有必要的，无论对工业或生活中都具有重要意义。
[0003]精细粒度图像识别是对同一基础类别下的不同子类进行划分，比如车的款式、鸟的种类、狗的品种等，相对于通用图像任务的区别在于其图像所属类别更为精细，目前在工业界以及生活中有广泛应用场景。
[0004]目前，学术上对于细粒度分类任务识别的技术多种多样，包括基于细粒度特征学习的方法、基于视觉注意力机制的方法以及基于目标快检测的方法。以上方法促进了细粒度分类任务的发展，但是仍存在一些问题，例如存在数据标注困难、从而使得标注样本少带来的细粒度图像识别模型训练时过拟合而使得获得的模型识别的准确率欠佳的问题。
[0005]因此，在此背景下，如何能解决数据标注的问题，增加标注样本，以减少细粒度图像识别模型训练时过拟合的问题，提高识别准确率是有待解决的技术问题。

技术实现思路

[000...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法，其特征在于，包括：采用至少两个结构不同的分类模型，以及使用具有目标标注类型标签的目标数据集预训练其中之一分类模型，且将待标注的源数据集中的数据通过该预训练后的分类模型标注标签；控制各所述分类模型执行一定次数的交替训练与数据标注，其中，所述预训练后的分类模型和通过该预训练后的分类模型标注标签的数据作为进行所述交替训练与数据标注中的初始分类模型和标注标签的初始数据；所述交替训练与数据标注过程中，当前所训练的分类模型所进行的当前训练与当前数据标注的步骤包括：获取前一训练的分类模型所重新标注标签的数据，并从中选择一部分数据训练当前分类模型，通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。2.根据权利要求1所述的方法，其特征在于，所述选择是根据各数据的标注的稳定度进行所述选择。3.根据权利要求2所述的方法，其特征在于，所述稳定度以信息熵进行衡量时，所述选择一部分数据包括：根据每个数据上标注的各个标签计算每个数据的数据标注的信息熵，并根据该信息熵值的排序进行数据的选择；其中，所述信息熵值的大小与数据标注的稳定度的高低成类反比关系。4.根据权利要求1所述的方法，其特征在于，所述源数据和目标数据具有同一基础分类的标签；所述目标标注类型标签是在基础分类下的进一步精细粒度分类的标签。5.一种数据标注方法，其特征在于，包括：采用至少两个结构不同的分类模型，以及控制各所述分类模型执行一定次数的交替训练与数据标注，其中，进行所述交替训练与数据标注中，训练初始分类模型使用的数据中，部分数据具有目标标注类型标签；其中，所述交替训练与数据标注过程中，当前所训练的分类模型所进行的当前训练与当前数据标注的步骤包括：获取前一训练的分类模型所重新标注标签的数据，并从中选择一部分数据训练当前分类模型，通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。6.根据权利要求5所述的方法，其特征在于，进行所述交替训练与数据标注之前，还包括：通过具有目标标注类型标签标注数据的目标数据集预训练所述初始分类模型。7.根据权利要求5所述的方法，其特征在于，所述选择是根据各数据的标注的稳定度进行所述选择。8.根据权利要求7所述的方法，其特征在于，所述稳定度以信息熵进行衡量时，所述选择一部分数据包括：根据每个数据上标注的各个标签计算每个数据的数据标注的信息熵，并根据该信息熵值的排序进行选择；其中，所述信息熵值的大小与数据标注的稳定度的高低成类反比关系。9.根据权利要求5所述的方法，其特征在于，所述训练初始分类模型使用的数据具有同一基础分类的标签；
所述目标标注类型标签是在基础分类下的进一步精细粒度分类的标签。10.一种数据标注装置，其特征在于，包括：调用模块，用于调用至少两个结构不同的分类模型；第一预训练模块，用于使用具有目标标注类型标签的目标数据集预训练其中之一分类模型；首次标注模块，用于将待标注的源数据集中的数据通过该预训练后的分类模型标注标签；控制模块，用于控制各所述分类模型执行一定次数的交替训练与数据标注，其中，所述预训练后的分类模型和通过该预训练后的分类模型标注标签的数据作为进行所述交替训练与数据标注中的初始分类模型和标注标签的初始数据；其中，所述交替训练与数据标注过程中，当前所训练的分类模型所进行的当前训练与当前数据标注的步骤包括：获取前一训练的分类模型所重新标注标签的数据，并从中选择一部分数据训练当前分类模型，通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。11.根据权利要求10所述的装置，其特征在于，所述选择是根据各数据的标注的稳定度进行所述选择。12.根据权利要求11所述的装置，其特征在于，所述稳定度以信息熵进行衡量时，所述选择一部分数据包括：根据每个数据上标注的各个标签计算每个数据的数...

【专利技术属性】
技术研发人员：王子辰，张晓鹏，田奇，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人