一种基于缺陷信息查询的训练与标注并行协同方法、装置制造方法及图纸

技术编号：38947370 阅读：29 留言：0更新日期：2023-09-25 09:43

本发明专利技术公开了一种训练与标注的并行协同方法、装置及设备，其包括：获取少量的已标注数据集以及大量的未标注数据集；将所述已标注数据集作为模型初始化的训练数据集，训练得到检测模型以及查询网络；通过批查询模块对未标注数据集进行样本粗筛，得到多批次数据样本；将多批次数据样本中的第一批次样本输入检测模型进行特征信息的提取后输入至查询网络进行样本细筛，得到K个样本；对所述K个样本进行标注后输入所述训练数据集中进行所述检测模型的更新；继续筛选所述多批次数据样本中的第二批次样本进行下一次迭代，直至达到所述检测模型的检测性能或标注成本上限。实现快速筛选有价值的数据，并且能高效完成模型的构建并达到业务的需求性能。业务的需求性能。业务的需求性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于缺陷信息查询的训练与标注并行协同方法、装置

[0001]本专利技术涉及深度学习
，尤其涉及一种基于缺陷信息查询的训练与标注并行协同方法、装置。

技术介绍

[0002]在工业界的图像标注领域，虽然有学术界和工业界都在使用的一些大型已标注的图像数据库，但是在很多特殊的业务场景上，从业人员依旧需要想尽办法去获取业务标注数据来构建模型。当前深度学习方法(Deep learning,DL)在工业图像检测领域大放光彩，但以数据为驱动的方式，追求大量的专家经验标注，极大限制了业务的开展，因此通过一些机器学习算法来降低对人工标注的依赖是理想的方案，已有主流方向包括了半监督、弱监督、无监督以及主动学习等方向，对缓解DL的数据贪婪都有一定效果。
[0003]针对实际业务的开发特性，希望能从大量的业务数据中挑选有价值的数据进行标注，又不需要全部标注。大多数的业务数据在实际的获取过程中，并不能如标注数据集一样具备较好的平衡性与多样性，由于生产过程中并不能保证类别的均衡，甚至无法提供足够的检测类样本，将所有数据进行标注并进行建模是费时费力，并且还带来了失衡的数据分布，这对采用深度学习的工业检测方案带来了极大的困难。目前采用有效的AL可以实现标注工作效率方面的指数级加速，但由于深度模型与浅层模型之间学习范式的差异导致了传统的AL查询策略无法直接应用于DL模型，当前缺乏通用的嵌合方法。

技术实现思路

[0004]有鉴于此，本专利技术的目的在于提出一种基于缺陷信息查询的训练与标注并行协同方法、装置以及设备，旨在

【技术保护点】

【技术特征摘要】
1.一种基于缺陷信息查询的训练与标注并行协同方法，其特征在于，所述方法包括：获取具有图像缺陷信息的少量的已标注数据集以及大量的未标注数据集；将所述已标注数据集作为模型初始化的训练数据集，训练得到检测模型以及查询网络；通过批查询模块对所述未标注数据集进行样本粗筛，得到多批次数据样本；将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛，得到K个样本；对所述K个样本进行标注后输入所述训练数据集中进行所述检测模型的更新；继续筛选所述多批次数据样本中的第二批次样本进行下一次迭代，直至达到所述检测模型的检测性能或标注成本上限。2.根据权利要求1所述的一种基于缺陷信息查询的训练与标注并行协同方法，其特征在于，所述通过批查询模块对所述未标注数据集进行样本粗筛，得到多批次数据样本，包括：通过批查询模块对所述未标注数据集进行查询批数据分布差异以及批内的信息量，得到多批次数据样本。3.根据权利要求1所述的一种基于缺陷信息查询的训练与标注并行协同方法，其特征在于，所述检测模型包括骨干网络以及功能网络；所述将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛，得到K个样本，包括：通过所述骨干网络对所述第一批次样本进行样本特征的提取；将所述样本特征以及通过所述功能网络提取的投影特征进行拼接后输入至所述查询网络；将所述查询网络输出的综合不确定性度量分数以及所述检测模型的预测结果进行加权输出，得到所述K个样本。4.根据权利要求3所述的一种基于缺陷信息查询的训练与标注并行协同方法，其特征在于，基于所述训练数据集建立目标域核心集；在所述通过所述骨干网络对所述第一批次样本进行样本特征的提取之后，包括：根据所述目标域核心集对所述样本特征进行计算相似性分数。5.根据权利要求4所述的一种基于缺陷信息查询的训练与标注并行协同方法，其特征在于，所述根据所述目标域核心集对所述样本特征进行计算相似性分数，包括：根据所述目标域核心集的...

【专利技术属性】
技术研发人员：陈宇，叶德俊，
申请(专利权)人：厦门微图软件科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人