System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及目标检测,特别涉及一种多尺度多阶段的开放语义目标检测方法、装置及电子设备。
技术介绍
1、在计算机视觉领域,对象检测是一个关键的技术问题,它涉及到从图像中准确地定位和分类目标。ovd(open-vocabulary object detection,开放词汇目标检测)受到了广泛关注,它能够在无需对新类别进行额外标注的情况下识别图像中的对象。clip(contrastive language-image pre-training大型视觉-语言预训练模型),它旨在学习图像和文本之间的关联。clip通过大规模的图像-文本对数据集进行训练,能够将视觉信息与自然语言描述有效地联系起来,为解决ovd提供了新的思路。
2、然而,clip在预训练阶段主要是基于图片描述任务进行特征对齐,该过程主要关注全局特征的理解,如小物体可能被忽略,大物体的细节可能无法精确捕捉,而目标检测则更依赖于局部特征的理解;其次,待检测图片中的图像中的物体的大小不同,而clip在图像-文本对上训练时仅考虑图像尺度的图像理解,模型本身缺少对多尺度特征的理解能力;最后,现有的利用clip进行开放语义目标检测的方法的检测精度较低,未能充分发挥出预训练模型的优势。
技术实现思路
1、本申请提供一种多尺度多阶段的开放语义目标检测方法、装置及电子设备,以解决如何更好地实现对局部特征的理解以及提高物体检测精度的问题。
2、本申请第一方面实施例提供一种多尺度多阶段的开放语义目标检测方法,包括以下步骤:获取
3、可选地,对训练图像数据集进行多尺度特征对齐得到视觉与语言的对齐结果,包括:在残差网络的目标层上对训练图像数据集进行多尺度特征对齐得到目标层对应的输出结果;对目标层对应的输出结果做兴趣区域对齐和池化处理得到多组包围盒级别的多尺度特征;根据多组包围盒级别的多尺度特征生成视觉与语言的对齐结果。
4、可选地,目标层包括:第二层、第三层和第四层,对目标层对应的输出结果做兴趣区域对齐和池化处理得到多组包围盒级别的多尺度特征,包括:
5、对第二层的输出结果做兴趣区域对齐和池化处理后,经过第三层和第四层生成第一组包围盒级特征;对第三层的输出结果做兴趣区域对齐和池化处理后,经过第四层生成第二组包围盒级特征;对第四层的输出结果做兴趣区域对齐和池化处理生成第三组包围盒级特征;根据第一组包围盒级特征、第二组包围盒级特征和三组包围盒级特征生成多组包围盒级别的多尺度特征。
6、可选地,根据视觉与语言的对齐结果生成新类的伪标签,包括:对训练图像数据集中的目标区域定位生成定位分数,基于目标分类器对训练图像数据集中的目标区域分类生成分类分数;根据分类分数、定位分数和预设条件确定分类结果,将分类结果为新类的区域作为新类的伪标签,其中,新类为训练图像数据集中未出现的类别。
7、可选地,根据新类的伪标签和类的真实标注训练视觉与语言预训练模型,包括:根据新类的伪标签与类的真实标注对视觉与语言预训练模型进行迭代优化训练,在训练过程中利用感兴趣区域的输出的置信度分数迭代更新新类的伪标签;若迭代优化训练的迭代次数达到目标次数或者视觉与语言预训练模型的检测精度达到目标精度,停止迭代优化训练,其中,感兴趣区域的输出的置信度分数大于预设阈值。
8、可选地,在基于目标分类器对训练图像数据集中的目标区域分类生成分类分数之前,还包括:在视觉语言预训练模型的注意力分类层创建多个位置嵌入分支;在固定视觉语言预训练模型主体架构的基础上,调整多个位置嵌入分支的位置编码,得到目标分类器。
9、本申请第二方面实施例提供一种多尺度多阶段的开放语义目标检测装置,包括:获取模块,用于获取训练图像数据集;对齐模块,用于对训练图像数据集进行多尺度特征对齐得到视觉与语言的对齐结果;训练模块,用于根据视觉与语言的对齐结果生成新类的伪标签,根据新类的伪标签和类的真实标注训练视觉与语言预训练模型,其中,视觉与语言预训练模型在训练过程中对伪标签进行多阶段的迭代优化;检测模块,用于基于训练完成的视觉与语言预训练模型对目标图像进行开放语义目标检测。
10、可选地,对齐模块进一步用于在残差网络的目标层上对训练图像数据集进行多尺度特征对齐得到目标层对应的输出结果;对目标层对应的输出结果做兴趣区域对齐和池化处理得到多组包围盒级别的多尺度特征;根据多组包围盒级别的多尺度特征生成视觉与语言的对齐结果。
11、可选地,目标层包括:第二层、第三层和第四层,对齐模块进一步用于对第二层的输出结果做兴趣区域对齐和池化处理后,经过第三层和第四层生成第一组包围盒级特征;对第三层的输出结果做兴趣区域对齐和池化处理后,经过第四层生成第二组包围盒级特征;对第四层的输出结果做兴趣区域对齐和池化处理生成第三组包围盒级特征;根据第一组包围盒级特征、第二组包围盒级特征和三组包围盒级特征生成多组包围盒级别的多尺度特征。
12、可选地,训练模块进一步用于对训练图像数据集中的目标区域定位生成定位分数,基于目标分类器对训练图像数据集中的目标区域分类生成分类分数;根据分类分数、定位分数和预设条件确定分类结果,将分类结果为新类的区域作为新类的伪标签,其中,新类为训练图像数据集中未出现的类别。
13、可选地,训练模块进一步用于根据新类的伪标签与类的真实标注对视觉与语言预训练模型进行迭代优化训练,在训练过程中利用感兴趣区域的输出的置信度分数迭代更新新类的伪标签;若迭代优化训练的迭代次数达到目标次数或者视觉与语言预训练模型的检测精度达到目标精度,停止迭代优化训练,其中,感兴趣区域的输出的置信度分数大于预设阈值。
14、可选地,多尺度多阶段的开放语义目标检测装置还包括:调整模块,用于在基于目标分类器对训练图像数据集中的目标区域分类生成分类分数之前,在视觉语言预训练模型的注意力分类层创建多个位置嵌入分支;在固定视觉语言预训练模型主体架构的基础上,调整多个位置嵌入分支的位置编码,得到目标分类器。
15、本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序,以实现如上述实施例的多尺度多阶段的开放语义目标检测方法。
16、本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序或指令,计算机程序或指令被执行时,以用于实现如上述实施例的多尺度多阶段的开放语义目标检测方法。
17、本申请第五方面实施例提供一种计算机程序产品,包括:计算机程序或指令,所述计算机程序或指令被执行时,以实现如上述实施例所述的多尺度多阶段的开放语义目标检测方本文档来自技高网...
【技术保护点】
1.一种多尺度多阶段的开放语义目标检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多尺度多阶段的开放语义目标检测方法,其特征在于,所述对所述训练图像数据集进行多尺度特征对齐得到视觉与语言的对齐结果,包括:
3.根据权利要求2所述的多尺度多阶段的开放语义目标检测方法,其特征在于,所述目标层包括:第二层、第三层和第四层,所述对所述目标层对应的输出结果做兴趣区域对齐和池化处理得到所述多组包围盒级别的多尺度特征,包括:
4.根据权利要求1所述的多尺度多阶段的开放语义目标检测方法,其特征在于,所述根据所述视觉与语言的对齐结果生成新类的伪标签,包括:
5.根据权利要求4所述的尺度多阶段的开放语义目标检测方法,其特征在于,所述根据所述新类的伪标签和类的真实标注训练视觉与语言预训练模型,包括:
6.根据权利要求4所述的多尺度多阶段的开放语义目标检测方法,其特征在于,在基于目标分类器对所述训练图像数据集中的目标区域分类生成分类分数之前,还包括:
7.一种多尺度多阶段的开放语义目标检测装置,其特征在于,包括:
>8.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-6任一项所述的多尺度多阶段的开放语义目标检测方法。
9.一种计算机可读存储介质,其上存储有计算机程序或指令,其特征在于,所述计算机程序或指令被执行时,以实现权利要求1-6任一项所述的多尺度多阶段的开放语义目标检测方法。
10.一种计算机程序产品,包括:计算机程序或指令,其特征在于,所述计算机程序或指令被执行时,以实现权利要求1-6任一项所述的多尺度多阶段的开放语义目标检测方法。
...【技术特征摘要】
1.一种多尺度多阶段的开放语义目标检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多尺度多阶段的开放语义目标检测方法,其特征在于,所述对所述训练图像数据集进行多尺度特征对齐得到视觉与语言的对齐结果,包括:
3.根据权利要求2所述的多尺度多阶段的开放语义目标检测方法,其特征在于,所述目标层包括:第二层、第三层和第四层,所述对所述目标层对应的输出结果做兴趣区域对齐和池化处理得到所述多组包围盒级别的多尺度特征,包括:
4.根据权利要求1所述的多尺度多阶段的开放语义目标检测方法,其特征在于,所述根据所述视觉与语言的对齐结果生成新类的伪标签,包括:
5.根据权利要求4所述的尺度多阶段的开放语义目标检测方法,其特征在于,所述根据所述新类的伪标签和类的真实标注训练视觉与语言预训练模型,包括:
6.根据权利要求...
【专利技术属性】
技术研发人员:丁贵广,徐鑫浩,杨宇泓,吕梦遥,江成,黄逸杰,罗亮,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。