模型训练方法及装置、检测方法及装置、设备及存储介质制造方法及图纸

技术编号:36264775 阅读:13 留言:0更新日期:2023-01-07 10:04
本公开涉及一种模型训练方法及装置、检测方法及装置、设备及存储介质,其中,模型训练方法包括:获取样本图像中物体的真实物体信息;利用目标检测模型中的解码器,根据样本图像对应的初始参考位置坐标以及自然语言描述,确定样本图像的对应的预测目标查询向量,其中,预测目标查询向量用于确定样本图像中物体的预测物体信息;基于真实物体信息和预测物体信息的差异调整目标检测模型的参数,直至差异小于预设阈值。本公开能够加快目标检测模型收敛,从而实现提高模型训练效率、降低模型训练成本的效果。的效果。的效果。

【技术实现步骤摘要】
模型训练方法及装置、检测方法及装置、设备及存储介质


[0001]本公开涉及计算机视觉
,尤其涉及一种模型训练方法及装置、检测方法及装置、设备及存储介质。

技术介绍

[0002]目标检测是计算机视觉中最基本的任务之一,随着深度学习的发展,通过目标检测模型进行目标检测已成为热门研究方向,其中,DETR(DEtection TRansformer)由于将Transformer引入到了目标检测任务中,因此,可以去除锚点生成组件、非极大值抑制组件等,使得目标检测模型更简洁。
[0003]但是,现有的DETR的训练方法,收敛速度极慢,需要很多次迭代才能收敛得到一个较好的结果,该收敛缓慢的问题极大增加了训练成本。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种模型训练方法及装置、检测方法及装置、设备及存储介质。
[0005]根据本公开的一方面,提供了一种模型训练方法,包括:
[0006]获取样本图像中物体的真实物体信息;
[0007]利用目标检测模型中的解码器,根据样本图像对应的初始参考位置坐标以及自然语言描述,确定样本图像的对应的预测目标查询向量,其中,预测目标查询向量用于确定样本图像中物体的预测物体信息;
[0008]基于真实物体信息和预测物体信息的差异调整目标检测模型的参数,直至差异小于预设阈值。
[0009]根据本公开的另一方面,提供了一种检测方法,包括:
[0010]获取待检测图像、以及待检测图像对应的自然语言描述;
[0011]将待检测图像、以及待检测图像对应的自然语言描述输入训练好的目标检测模型,得到待检测图像中物体的预测物体信息,其中,目标检测模型通过上述模型训练方法训练得到。
[0012]根据本公开的另一方面,提供了一种模型训练装置,包括:
[0013]第一获取模块,用于获取样本图像中物体的真实物体信息;
[0014]第一确定模块,用于利用目标检测模型中的解码器,根据样本图像对应的初始参考位置坐标以及自然语言描述,确定样本图像的对应的预测目标查询向量,其中,预测目标查询向量用于确定样本图像中物体的预测物体信息;
[0015]调整模块,用于基于真实物体信息和预测物体信息的差异调整目标检测模型的参数,直至差异小于预设阈值。
[0016]根据本公开的另一方面,提供了一种检测装置,包括:
[0017]第二获取模块,用于获取待检测图像;
[0018]第二确定模块,用于将待检测图像、以及待检测图像对应的自然语言描述输入训练好的目标检测模型,得到待检测图像中物体的预测物体信息,其中,目标检测模型通过上述的模型训练方法训练得到。
[0019]根据本公开的另一方面,提供了一种电子设备,所述电子设备包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据上述模型训练方法,或者执行根据上述检测方法。
[0020]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行根据上述模型训练方法,或者执行根据上述检测方法。
[0021]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述模型训练方法,或者上述检测方法。
[0022]本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0023]本申请实施例中提供的一个或多个技术方案,可以加快目标检测模型收敛,从而实现提高模型训练效率、降低模型训练成本的效果。
附图说明
[0024]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0025]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0026]图1是本公开实施例提供的一种模型训练方法的流程图;
[0027]图2是相关技术提供的一种编码层的结构示意图;
[0028]图3是本公开实施例提供的一种编码层的结构示意图;
[0029]图4是本公开实施例提供的一种语义模块的结构示意图;
[0030]图5是本公开实施例提供的一种检测方法的流程图;
[0031]图6是本公开实施例提供的一种模型训练装置的结构示意图;
[0032]图7是本公开实施例提供的一种检测装置的结构示意图;
[0033]图8是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0034]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0035]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0036]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0037]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0038]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0039]图1是本公开实施例提供的一种模型训练方法的流程图,该方法可以由一种电子设备来执行。该电子设备可以示例性的理解为诸如手机、平板电脑、笔记本电脑、台式机、智能电视等设备。如图1所示,本实施例提供的方法包括如下步骤:
[0040]S110、获取样本图像中物体的真实物体信息。
[0041]具体地,真实物体信息包括物体在样本图像中的真实的位置信息和真实的分类信息。
[0042]具体地,可以采用任意可能的方式获取样本图像中物体的真实物体信息,此处不作限定。
[0043]S120、利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取样本图像中物体的真实物体信息;利用目标检测模型中的解码器,根据所述样本图像对应的初始参考位置坐标以及自然语言描述,确定所述样本图像的对应的预测目标查询向量,其中,所述预测目标查询向量用于确定所述样本图像中物体的预测物体信息;基于所述真实物体信息和所述预测物体信息的差异调整所述目标检测模型的参数,直至所述差异小于预设阈值。2.根据权利要求1所述的方法,其特征在于,所述利用目标检测模型中的解码器,根据所述样本图像对应的初始参考位置坐标以及自然语言描述,确定所述样本图像的对应的预测目标查询向量,包括:根据所述初始参考位置坐标对所述样本图像对应的初始目标查询向量进行预处理,得到第一归一化目标查询向量;根据所述初始参考位置坐标和所述自然语言描述对所述样本图像中物体的位置的指导,将所述第一归一化目标查询向量在语义上与所述样本图像对应的编码图像特征对齐,得到新的目标查询向量和新的参考位置坐标;根据所述样本图像对应的图像特征位置编码、所述新的目标查询向量、以及所述新的参考位置坐标,得到所述解码器的第一层解码层输出的目标查询向量,其中,所述第一层解码层输出的目标查询向量用于确定所述预测目标查询向量。3.根据权利要求2所述的方法,其特征在于,根据所述初始参考位置坐标对所述样本图像对应的初始目标查询向量进行预处理,得到第一归一化目标查询向量,包括:对所述初始参考位置坐标进行位置编码,得到初始参考位置坐标编码向量;根据所述初始目标查询向量和所述初始参考位置坐标编码向量,利用所述第一层解码层的多头自注意力模块,确定优化的目标查询向量;对所述优化的目标查询向量和所述初始目标查询向量进行残差和归一化处理,得到所述第一归一化目标查询向量。4.根据权利要求2所述的方法,其特征在于,所述根据所述初始参考位置坐标和所述自然语言描述对所述样本图像中物体的位置的指导,将所述第一归一化目标查询向量在语义上与所述样本图像对应的编码图像特征对齐,得到新的目标查询向量和新的参考位置坐标,包括:从所述自然语言描述对应的自然语言特征中提取与所述样本图像中物体的位置关联的自然语言位置信息,其中,所述自然语言特征包括所述自然语言描述中每个单词的编码向量;根据所述初始参考位置坐标和所述自然语言位置信息,从所述编码图像特征中提取出对应的二维特征,得到自适应图像特征;将所述自然语言特征和所述自适应图像特征进行融合,得到多模态特征;对所述多模态特征进行卷积和多层感知机操作,得到显著点坐标;根据所述显著点坐标、所述自适应图像特征、以及所述第一归一化目...

【专利技术属性】
技术研发人员:胡志伟陈博冀志龙
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1