【技术实现步骤摘要】
目标检测模型的训练方法、装置、设备和存储介质
[0001]本公开涉及计算机
,尤其涉及一种目标检测模型的训练方法
、
装置
、
设备和存储介质
。
技术介绍
[0002]随着人工智能技术的发展,出现了对图像进行开放词汇目标检测
(Open
‑
vocabulary Object Detection)
的需求
。
开放词汇目标检测可以理解为让模型能够从图像中检测出训练集中不存在的新类别的对象
。
[0003]相关技术中,需要使用大量的高质量训练数据对预设模型进行端到端的训练,使得该预设模型能够适用于开放词汇的应用场景
。
但是,该种训练方式的训练效率较低,针对未知类别的对象的检测效果也较差
。
技术实现思路
[0004]为了解决上述技术问题,本公开实施例提供了一种目标检测模型的训练方法
、
装置
、
设备和存储介质
。
[0005]第一方面,本公开实施例提供了一种目标检测模型的训练方法,该方法包括:
[0006]获取用于目标检测的
、
成对的图像样本和文本样本;其中,所述文本样本包括描述所述图像样本的描述性文本和指定所述图像样本中的待检测对象的指令性文本;
[0007]将所述图像样本和所述文本样本输入冻结的多模态子模型,生成初始图像特征和初始文本特征;
[0008]基于所述初始图像特征 ...
【技术保护点】
【技术特征摘要】
1.
一种目标检测模型的训练方法,其特征在于,包括:获取用于目标检测的
、
成对的图像样本和文本样本;其中,所述文本样本包括描述所述图像样本的描述性文本和指定所述图像样本中的待检测对象的指令性文本;将所述图像样本和所述文本样本输入冻结的多模态子模型,生成初始图像特征和初始文本特征;基于所述初始图像特征和所述初始文本特征,通过目标检测子模型的检测头,生成所述待检测对象对应的目标对象检测框和所述目标对象检测框的目标分类结果;基于所述目标对象检测框
、
所述目标分类结果和所述图像样本对应的目标检测真值进行模型迭代训练,直至达到模型收敛条件
。2.
根据权利要求1所述的方法,其特征在于,所述基于所述初始图像特征和所述初始文本特征,通过目标检测子模型的检测头,生成所述待检测对象对应的目标对象检测框和所述目标对象检测框的目标分类结果,包括:将所述初始图像特征输入所述检测头,生成至少一个初始对象检测框和所述初始对象检测框的初始分类结果;基于所述初始图像特征和所述初始文本特征,通过所述检测头,生成所述目标对象检测框和所述目标对象检测框的增强分类结果;基于所述增强分类结果
、
与所述目标对象检测框匹配的所述初始对象检测框的所述初始分类结果,生成所述目标分类结果
。3.
根据权利要求2所述的方法,其特征在于,所述初始文本特征中包含所述描述性文本对应的第一文本特征和所述指令性文本对应的第二文本特征;所述基于所述初始图像特征和所述初始文本特征,通过所述检测头,生成所述目标对象检测框和所述目标对象检测框的增强分类结果,包括:融合所述初始图像特征和所述第一文本特征,生成叠加感兴趣区域的区域增强图像特征;将所述区域增强图像特征和所述第二文本特征输入所述检测头,生成所述目标对象检测框和所述目标对象检测框的增强分类结果
。4.
根据权利要求3所述的方法,其特征在于,所述融合所述初始图像特征和所述第一文本特征,生成叠加感兴趣区域的区域增强图像特征,包括:基于所述初始图像特征生成感兴趣区域的区域图像特征;将所述区域图像特征和所述第一文本特征输入交叉注意力机制子模型,生成加权图文特征;基于所述区域图像特征和所述加权图文特征,生成所述区域增强图像特征
。5...
【专利技术属性】
技术研发人员:杨志雄,杨延展,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。