目标检测模型的训练方法技术

技术编号:39588640 阅读:9 留言:0更新日期:2023-12-03 19:40
本公开实施例涉及一种目标检测模型的训练方法

【技术实现步骤摘要】
目标检测模型的训练方法、装置、设备和存储介质


[0001]本公开涉及计算机
,尤其涉及一种目标检测模型的训练方法

装置

设备和存储介质


技术介绍

[0002]随着人工智能技术的发展,出现了对图像进行开放词汇目标检测
(Open

vocabulary Object Detection)
的需求

开放词汇目标检测可以理解为让模型能够从图像中检测出训练集中不存在的新类别的对象

[0003]相关技术中,需要使用大量的高质量训练数据对预设模型进行端到端的训练,使得该预设模型能够适用于开放词汇的应用场景

但是,该种训练方式的训练效率较低,针对未知类别的对象的检测效果也较差


技术实现思路

[0004]为了解决上述技术问题,本公开实施例提供了一种目标检测模型的训练方法

装置

设备和存储介质

[0005]第一方面,本公开实施例提供了一种目标检测模型的训练方法,该方法包括:
[0006]获取用于目标检测的

成对的图像样本和文本样本;其中,所述文本样本包括描述所述图像样本的描述性文本和指定所述图像样本中的待检测对象的指令性文本;
[0007]将所述图像样本和所述文本样本输入冻结的多模态子模型,生成初始图像特征和初始文本特征;
[0008]基于所述初始图像特征和所述初始文本特征,通过目标检测子模型的检测头,生成所述待检测对象对应的目标对象检测框和所述目标对象检测框的目标分类结果;
[0009]基于所述目标对象检测框

所述目标分类结果和所述图像样本对应的目标检测真值进行模型迭代训练,直至达到模型收敛条件

[0010]第二方面,本公开实施例还提供了一种目标检测模型的训练装置,该装置包括:
[0011]样本获取模块,用于获取用于目标检测的

成对的图像样本和文本样本;其中,所述文本样本包括描述所述图像样本的描述性文本和指定所述图像样本中的待检测对象的指令性文本;
[0012]特征生成模块,用于将所述图像样本和所述文本样本输入冻结的多模态子模型,生成初始图像特征和初始文本特征;
[0013]结果生成模块,用于基于所述初始图像特征和所述初始文本特征,通过目标检测子模型的检测头,生成所述待检测对象对应的目标对象检测框和所述目标对象检测框的目标分类结果;
[0014]模型训练模块,用于基于所述目标对象检测框

所述目标分类结果和所述图像样本对应的目标检测真值进行模型迭代训练,直至达到模型收敛条件

[0015]第三方面,本公开实施例还提供了一种电子设备,该电子设备包括:
[0016]处理器;
[0017]存储器,用于存储可执行指令;
[0018]其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现本公开任意实施例所说明的目标检测模型的训练方法

[0019]第四方面,本公开实施例还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现本公开任意实施例所说明的目标检测模型的训练方法

[0020]第五方面,本公开实施例还提供了一种计算机程序产品,所述计算机程序产品用于执行本公开任意实施例所说明的目标检测模型的训练方法

[0021]本公开实施例的目标检测模型的训练方法

装置

设备和存储介质,以冻结的多模态子模型作为开放词汇目标检测的骨干网络

以目标检测子模型的检测头作为开放词汇目标检测的检测头,构成开放词汇目标检测模型,这样,在模型迭代训练的过程中会保持多模态子模型的模型参数不变,而仅训练检测头的模型参数;如此,一方面,可保留预训练的多模态子模型已学到的知识,避免破坏预训练模型中的已学知识,使得开放词汇目标检测模型具有对未知类别的对象的检测能力;另一方面,可通过训练检测头来约束模型输出结果,使得上述构建的开放词汇目标检测模型可检测并输出未知类别的对象的预测结果,避免全部模型参数的重新训练和模型过拟合,提高开放词汇目标检测模型的模型训练效率

附图说明
[0022]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征

优点及方面将变得更加明显

贯穿附图中,相同或相似的附图标记表示相同或相似的元素

应当理解附图是示意性的,原件和元素不一定按照比例绘制

[0023]图1为本公开实施例提供的一种目标检测模型的训练方法的流程示意图;
[0024]图2为本公开实施例提供的另一种目标检测模型的训练方法的流程示意图;
[0025]图3为本公开实施例提供的一种生成增强分类结果的流程示意图;
[0026]图4为本公开实施例提供的一种确定区域增强图像特征的模型结构示意图;
[0027]图5为本公开实施例提供的一种交叉注意力机制子模型的模型结构示意图;
[0028]图6为本公开实施例提供的一种目标检测模型的模型结构示意图;
[0029]图7为本公开实施例提供的一种目标检测模型的训练装置的结构示意图;
[0030]图8为本公开实施例提供的一种电子设备的结构示意图

具体实施方式
[0031]下面将参照附图更详细地描述本公开的实施例

虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开

应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围

[0032]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和
/
或并行执行

此外,方法实施方式可以包括附加的步骤和
/
或省略执行示出的步骤

本公开的范围在此方面不受限制

[0033]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。
术语“基于”是“至少部分地基于”。
术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。
其他术语的相关定义将在下文描述中给出

[0034]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置

模块或单元进行区分,并非用于限定这些装置

模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种目标检测模型的训练方法,其特征在于,包括:获取用于目标检测的

成对的图像样本和文本样本;其中,所述文本样本包括描述所述图像样本的描述性文本和指定所述图像样本中的待检测对象的指令性文本;将所述图像样本和所述文本样本输入冻结的多模态子模型,生成初始图像特征和初始文本特征;基于所述初始图像特征和所述初始文本特征,通过目标检测子模型的检测头,生成所述待检测对象对应的目标对象检测框和所述目标对象检测框的目标分类结果;基于所述目标对象检测框

所述目标分类结果和所述图像样本对应的目标检测真值进行模型迭代训练,直至达到模型收敛条件
。2.
根据权利要求1所述的方法,其特征在于,所述基于所述初始图像特征和所述初始文本特征,通过目标检测子模型的检测头,生成所述待检测对象对应的目标对象检测框和所述目标对象检测框的目标分类结果,包括:将所述初始图像特征输入所述检测头,生成至少一个初始对象检测框和所述初始对象检测框的初始分类结果;基于所述初始图像特征和所述初始文本特征,通过所述检测头,生成所述目标对象检测框和所述目标对象检测框的增强分类结果;基于所述增强分类结果

与所述目标对象检测框匹配的所述初始对象检测框的所述初始分类结果,生成所述目标分类结果
。3.
根据权利要求2所述的方法,其特征在于,所述初始文本特征中包含所述描述性文本对应的第一文本特征和所述指令性文本对应的第二文本特征;所述基于所述初始图像特征和所述初始文本特征,通过所述检测头,生成所述目标对象检测框和所述目标对象检测框的增强分类结果,包括:融合所述初始图像特征和所述第一文本特征,生成叠加感兴趣区域的区域增强图像特征;将所述区域增强图像特征和所述第二文本特征输入所述检测头,生成所述目标对象检测框和所述目标对象检测框的增强分类结果
。4.
根据权利要求3所述的方法,其特征在于,所述融合所述初始图像特征和所述第一文本特征,生成叠加感兴趣区域的区域增强图像特征,包括:基于所述初始图像特征生成感兴趣区域的区域图像特征;将所述区域图像特征和所述第一文本特征输入交叉注意力机制子模型,生成加权图文特征;基于所述区域图像特征和所述加权图文特征,生成所述区域增强图像特征
。5...

【专利技术属性】
技术研发人员:杨志雄杨延展
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1