一种基于缺陷信息查询的训练与标注并行协同方法、装置制造方法及图纸

技术编号:38947370 阅读:21 留言:0更新日期:2023-09-25 09:43
本发明专利技术公开了一种训练与标注的并行协同方法、装置及设备,其包括:获取少量的已标注数据集以及大量的未标注数据集;将所述已标注数据集作为模型初始化的训练数据集,训练得到检测模型以及查询网络;通过批查询模块对未标注数据集进行样本粗筛,得到多批次数据样本;将多批次数据样本中的第一批次样本输入检测模型进行特征信息的提取后输入至查询网络进行样本细筛,得到K个样本;对所述K个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;继续筛选所述多批次数据样本中的第二批次样本进行下一次迭代,直至达到所述检测模型的检测性能或标注成本上限。实现快速筛选有价值的数据,并且能高效完成模型的构建并达到业务的需求性能。业务的需求性能。业务的需求性能。

【技术实现步骤摘要】
一种基于缺陷信息查询的训练与标注并行协同方法、装置


[0001]本专利技术涉及深度学习
,尤其涉及一种基于缺陷信息查询的训练与标注并行协同方法、装置。

技术介绍

[0002]在工业界的图像标注领域,虽然有学术界和工业界都在使用的一些大型已标注的图像数据库,但是在很多特殊的业务场景上,从业人员依旧需要想尽办法去获取业务标注数据来构建模型。当前深度学习方法(Deep learning,DL)在工业图像检测领域大放光彩,但以数据为驱动的方式,追求大量的专家经验标注,极大限制了业务的开展,因此通过一些机器学习算法来降低对人工标注的依赖是理想的方案,已有主流方向包括了半监督、弱监督、无监督以及主动学习等方向,对缓解DL的数据贪婪都有一定效果。
[0003]针对实际业务的开发特性,希望能从大量的业务数据中挑选有价值的数据进行标注,又不需要全部标注。大多数的业务数据在实际的获取过程中,并不能如标注数据集一样具备较好的平衡性与多样性,由于生产过程中并不能保证类别的均衡,甚至无法提供足够的检测类样本,将所有数据进行标注并进行建模是费时费力,并且还带来了失衡的数据分布,这对采用深度学习的工业检测方案带来了极大的困难。目前采用有效的AL可以实现标注工作效率方面的指数级加速,但由于深度模型与浅层模型之间学习范式的差异导致了传统的AL查询策略无法直接应用于DL模型,当前缺乏通用的嵌合方法。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提出一种基于缺陷信息查询的训练与标注并行协同方法、装置以及设备,旨在解决上述问题。
[0005]为实现上述目的,本专利技术提供一种基于缺陷信息查询的训练与标注并行协同方法,所述方法包括:获取具有图像缺陷信息的少量的已标注数据集以及大量的未标注数据集;将所述已标注数据集作为模型初始化的训练数据集,训练得到检测模型以及查询网络;通过批查询模块对所述未标注数据集进行样本粗筛,得到多批次数据样本;将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到K个样本;对所述K个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;继续筛选所述多批次数据样本中的第二批次样本进行下一次迭代,直至达到所述检测模型的检测性能或标注成本上限。
[0006]优选的,所述通过批查询模块对所述未标注数据集进行样本粗筛,得到多批次数据样本,包括:通过批查询模块对所述未标注数据集进行查询批数据分布差异以及批内的信息
量,得到多批次数据样本。
[0007]优选的,所述检测模型包括骨干网络以及功能网络;所述将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到K个样本,包括:通过所述骨干网络对所述第一批次样本进行样本特征的提取;将所述样本特征以及通过所述功能网络提取的投影特征进行拼接后输入至所述查询网络;将所述查询网络输出的综合不确定性度量分数以及所述检测模型的预测结果进行加权输出,得到所述K个样本。
[0008]优选的,基于所述训练数据集建立目标域核心集;在所述通过所述骨干网络对所述第一批次样本进行样本特征的提取之后,包括:根据所述目标域核心集对所述样本特征进行计算相似性分数。
[0009]优选的,所述根据所述目标域核心集对所述样本特征进行计算相似性分数,包括:根据所述目标域核心集的核心集特征与每一所述样本特征进行余弦相似性距离的计算,得到相似性分数。
[0010]优选的,所述对所述K个样本进行标注后输入所述训练数据集中进行所述检测模型的更新,包括:判断所述K个样本的度量分数是否达到预设分数阈值,若是则将所述K个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;否则将所述K个样本返回至未标注数据集。
[0011]优选的,所述查询网络基于CNN网络进行构建;所述查询网络的网络结构包括卷积、CSP模块、通道注意力机制以及非对称金字塔非局部块体。
[0012]为实现上述目的,本专利技术还提供一种基于缺陷信息查询的训练与标注并行协同装置,所述装置包括:获取单元,用于获取具有图像缺陷信息的少量的已标注数据集以及大量的未标注数据集;初始化单元,用于将所述已标注数据集作为模型初始化的训练数据集,训练得到检测模型以及查询网络;粗筛单元,用于通过批查询模块对所述未标注数据集进行样本粗筛,得到多批次数据样本;细筛单元,用于将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到K个样本;更新单元,用于对所述K个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;迭代单元,用于继续筛选所述多批次数据样本中的第二批次样本进行下一次迭代,直至达到所述检测模型的检测性能或标注成本上限。
[0013]为了实现上述目的,本专利技术还提出一种基于缺陷信息查询的训练与标注并行协同设备,包括处理器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序被所述处理器执行以实现如上述实施例所述的一种基于缺陷信息查询的训练与标注并行协同方
法的步骤。
[0014]为了实现上述目的,本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如上述实施例所述的一种基于缺陷信息查询的训练与标注并行协同方法的步骤。
[0015]有益效果:以上方案,在深度学习的检测模型的基础上结合主动学习的查询网络进行选择性标注,通过采用粗筛与细筛的混合查询策略,能从业务数据中快速筛选有价值的数据,降低数据标注成本和时间成本,并行训练与标注过程能高效完成深度模型的构建,从而保证深度检测模型达到业务的需求性能。
[0016]以上方案,通过对样本信息量的度量以选择信息量对当前模型增益最大的样本进行标注并进入新的一轮深度检测模型训练中,能有效降低标注量的同时加速模型对目标域的拟合,排除冗余样本的干扰,维持模型的泛化能力,避免过拟合。
[0017]以上方案,使用粗筛与精筛的混合查询策略方式是基于密度分布的查询策略与基于不确定性的查询策略,该方式兼顾了样本的差异性度量与不确定性度量,能够提高样本信息的查全率。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本专利技术一实施例提供的一种基于缺陷信息查询的训练与标注并行协同方法的流程示意图。
[0020]图2为本专利技术一实施例提供的整体查询策略流程示意图。
[0021]图3为本专利技术一实施例提供的整体深度主动学习流程示意图。
[0022]图4为本专利技术一实施例提供的混合查询信息分布示意图。
[0023]图5为本专利技术一实施例提供的查询网络的结构示意图。...

【技术保护点】

【技术特征摘要】
1.一种基于缺陷信息查询的训练与标注并行协同方法,其特征在于,所述方法包括:获取具有图像缺陷信息的少量的已标注数据集以及大量的未标注数据集;将所述已标注数据集作为模型初始化的训练数据集,训练得到检测模型以及查询网络;通过批查询模块对所述未标注数据集进行样本粗筛,得到多批次数据样本;将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到K个样本;对所述K个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;继续筛选所述多批次数据样本中的第二批次样本进行下一次迭代,直至达到所述检测模型的检测性能或标注成本上限。2.根据权利要求1所述的一种基于缺陷信息查询的训练与标注并行协同方法,其特征在于,所述通过批查询模块对所述未标注数据集进行样本粗筛,得到多批次数据样本,包括:通过批查询模块对所述未标注数据集进行查询批数据分布差异以及批内的信息量,得到多批次数据样本。3.根据权利要求1所述的一种基于缺陷信息查询的训练与标注并行协同方法,其特征在于,所述检测模型包括骨干网络以及功能网络;所述将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到K个样本,包括:通过所述骨干网络对所述第一批次样本进行样本特征的提取;将所述样本特征以及通过所述功能网络提取的投影特征进行拼接后输入至所述查询网络;将所述查询网络输出的综合不确定性度量分数以及所述检测模型的预测结果进行加权输出,得到所述K个样本。4.根据权利要求3所述的一种基于缺陷信息查询的训练与标注并行协同方法,其特征在于,基于所述训练数据集建立目标域核心集;在所述通过所述骨干网络对所述第一批次样本进行样本特征的提取之后,包括:根据所述目标域核心集对所述样本特征进行计算相似性分数。5.根据权利要求4所述的一种基于缺陷信息查询的训练与标注并行协同方法,其特征在于,所述根据所述目标域核心集对所述样本特征进行计算相似性分数,包括:根据所述目标域核心集的...

【专利技术属性】
技术研发人员:陈宇叶德俊
申请(专利权)人:厦门微图软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1