目标检测模型的训练方法及装置、设备和介质制造方法及图纸

技术编号:35633421 阅读:19 留言:0更新日期:2022-11-19 16:21
本公开提供了一种目标检测模型的训练方法及装置、设备和介质,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于人脸识别等场景。方案为:获取第一样本图像及其中目标对象的真实类别;获取目标检测模型基于第一样本图像所输出的目标对象的第一特征向量表示以及其中与多个初始预测类别各自相应的对象的第二特征向量表示;基于第一特征向量表示和真实类别的文本特征向量表示计算第一损失值;基于第二特征向量表示和相应初始预测类别的文本特征向量表示确定其置信度;基于多个初始预测类别各自相应的置信度确定真实预测类别;基于真实预测类别的置信度,计算第二损失值;以及至少基于第一损失值和第二损失值对模型调参。和第二损失值对模型调参。和第二损失值对模型调参。

【技术实现步骤摘要】
目标检测模型的训练方法及装置、设备和介质


[0001]本公开涉及人工智能
,尤其涉及深度学习、图像处理、计算机视觉
,可应用于人脸识别等场景,具体涉及一种目标检测模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]目标检测是计算机视觉
的核心任务之一。当前的目标检测方法通常是利用海量的标注数据对模型进行有监督训练,所得到的目标检测模型针对标注类别可以达到较好的检测效果。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种目标检测模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种目标检测模型的训练方法,包括:获取第一样本图像,并标注所述第一样本图像所包括的目标对象的真实类别;将所述第一样本图像输入目标检测模型,以获取所述目标检测模型所输出的所述目标对象的第一特征向量表示,以及所述第一样本图像中与多个初始预测类别各自相应的对象的第二特征向量表示;基于所述目标对象的第一特征向量表示和所述真实类别的文本特征向量表示,计算第一损失值;基于每个初始预测类别相应的第二特征向量表示和该初始预测类别的文本特征向量表示,确定所述第一样本图像中包括每个初始预测类别的对象的置信度;基于所述多个初始预测类别各自相应的置信度,从所述多个初始预测类别中确定真实预测类别,并标注所述第一样本图像包括所述真实预测类别的对象;基于所述真实预测类别相应的置信度,计算第二损失值;以及至少基于所述第一损失值和第二损失值,对所述目标检测模型进行调参。
[0007]根据本公开的另一方面,提供了一种目标检测方法,包括:将待检测图像输入目标检测模型,以获取所述目标检测模型所输出的目标对象的类别,所述目标检测模型是利用上述目标检测模型的训练方法训练得到的,其中,所述获取所述目标检测模型所输出的目标对象的类别包括:基于所述目标检测模型基于所述待检测图像所输出的目标对象的特征向量表示,确定所述目标对象的类别。
[0008]根据本公开的另一方面,提供了一种目标检测模型的训练装置,包括:第一获取单元,被配置用于获取第一样本图像,并标注所述第一样本图像所包括的目标对象的真实类别;第二获取单元,被配置用于将所述第一样本图像输入目标检测模型,以获取所述目标检测模型所输出的所述目标对象的第一特征向量表示,以及所述第一样本图像中与多个初始预测类别各自相应的对象的第二特征向量表示;第一计算单元,被配置用于基于所述目标对象的第一特征向量表示和所述真实类别的文本特征向量表示,计算第一损失值;第一确定单元,被配置用于基于每个初始预测类别相应的第二特征向量表示和该初始预测类别的文本特征向量表示,确定所述第一样本图像中包括每个初始预测类别的对象的置信度;第二确定单元,被配置用于基于所述多个初始预测类别各自相应的置信度,从所述多个初始预测类别中确定真实预测类别,并标注所述第一样本图像包括所述真实预测类别的对象;第二计算单元,被配置用于基于所述真实预测类别相应的置信度,计算第二损失值;以及调参单元,被配置用于至少基于所述第一损失值和第二损失值,对所述目标检测模型进行调参。
[0009]根据本公开的另一方面,提供了一种目标检测装置,包括:利用上述目标检测模型的训练方法训练得到的目标检测模型;以及获取单元,被配置用于将待检测图像输入所述目标检测模型,以获取所述目标检测模型所输出的目标对象的类别,所述获取单元还被配置用于基于所述目标检测模型基于所述待检测图像所输出的目标对象的特征向量表示,确定所述目标对象的类别。
[0010]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述目标检测模型的训练方法或目标检测方法。
[0011]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述目标检测模型的训练方法或目标检测方法。
[0012]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时能够实现上述目标检测模型的训练方法或目标检测方法。
[0013]根据本公开的一个或多个实施例,可以充分利用样本图像所包括的全部对象信息,利用置信度针对未标注的类别进行训练,从而能够提升模型针对未标注的类别的识别能力,提升目标检测模型训练的效率。
[0014]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0015]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0016]图1示出了根据本公开示例性实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0017]图2示出了根据本公开示例性实施例的目标检测模型的训练方法的流程图;
[0018]图3示出了根据本公开示例性实施例的目标检测模型的结构示意图;
[0019]图4示出了根据本公开示例性实施例的目标检测模型的训练过程的示意图;
[0020]图5示出了根据本公开示例性实施例的目标检测模型的训练方法的流程图;
[0021]图6示出了根据本公开示例性实施例的目标检测方法的流程图;
[0022]图7示出了根据本公开示例性实施例的目标检测模型的训练装置的结构框图;
[0023]图8示出了根据本公开示例性实施例的目标检测装置的结构框图;
[0024]图9示出了能够用于实现本公开实施例的示例性电子设备的结构框图。
具体实施方式
[0025]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标检测模型的训练方法,包括:获取第一样本图像,并标注所述第一样本图像所包括的目标对象的真实类别;将所述第一样本图像输入目标检测模型,以获取所述目标检测模型所输出的所述目标对象的第一特征向量表示,以及所述第一样本图像中与多个初始预测类别各自相应的对象的第二特征向量表示;基于所述目标对象的第一特征向量表示和所述真实类别的文本特征向量表示,计算第一损失值;基于每个初始预测类别相应的第二特征向量表示和该初始预测类别的文本特征向量表示,确定所述第一样本图像中包括每个初始预测类别的对象的置信度;基于所述多个初始预测类别各自相应的置信度,从所述多个初始预测类别中确定真实预测类别,并标注所述第一样本图像包括所述真实预测类别的对象;基于所述真实预测类别相应的置信度,计算第二损失值;以及至少基于所述第一损失值和第二损失值,对所述目标检测模型进行调参。2.根据权利要求1所述的方法,还包括:标注所述第一样本图像所包括的目标对象的真实位置信息;获取所述目标检测模型基于第一样本图像所输出的所述目标对象的预测位置信息;基于所述目标对象的真实位置信息和预测位置信息,计算第三损失值,并且其中,基于所述第一损失值、第二损失值和第三损失值,对所述目标检测模型进行调参。3.根据权利要求2所述的方法,所述目标检测模型包括视觉语言模型和位置回归器,所述视觉语言模型包括图像特征提取子模型和转换矩阵,所述转换矩阵被配置为将图像特征向量投射至文本空间,以得到图像特征向量相应的文本特征向量,其中,将所述第一样本图像输入目标检测模型,以获取所述目标检测模型所输出的所述目标对象的第一特征向量表示和预测位置信息,以及所述第一样本图像中与多个初始预测类别各自相应的对象的第二特征向量表示包括:将所述第一样本图像输入图像特征提取子模型,以获取所述图像特征提取子模型所输出的所述目标对象的图像特征向量表示,以及所述第一样本图像中与多个初始预测类别各自相应的对象的图像特征向量表示;将所述目标对象的图像特征向量表示输入所述位置回归器,以获取所述位置回归器所输出的预测位置信息;将所述目标对象的图像特征向量表示和所述与多个初始预测类别相应的对象的图像特征向量表示输入转换矩阵,以获取所述转换矩阵所输出的所述目标对象的第一特征向量表示和每个初始预测类别相应的对象的第二特征向量表示。4.根据权利要求1

3中任一项所述的方法,其中,从类别库中获取每个初始预测类别的文本特征向量表示,所述类别库中包括多个类别和多个文本特征向量之间的映射关系。5.根据权利要求1

4中任一项所述的方法,其中,所述基于所述多个初始预测类别各自相应的置信度,从所述多个初始预测类别中确定真实预测类别包括:响应于某一个初始预测类别相应的置信度大于第二预设阈值,确定该初始预测类别为真实预测类别。
6.根据权利要求1

5中任一项所述的方法,其中,所述基于所述目标对象的第一特征向量表示和所述真实类别的文本特征向量表示,计算第一损失值包括:计算所述第一特征向量表示和所述真实类别的文本特征向量表示的相似度;以及基于所述第一特征向量表示和所述真实类别的文本特征向量表示的相似度,计算所述第一损失值。7.根据权利要求1

6中任一项所述的方法,其中,所述基于每个初始预测类别相应的第二特征向量表示和该初始预测类别的文本特征向量表示,确定所述第一样本图像中包括每个初始预测类别的对象的置信度包括:计算所述第二特征向量表示和所述初始预测类别的文本特征向量表示的相似度;以及基于所述第二特征向量表示和所述初始预测类别的文本特征向量表示的相似度,确定所述第一样本图像中包括每个初始预测类别的对象的置信度。8.一种目标检测方法,包括:将待检测图像输入目标检测模型,以获取所述目标检测模型所输出的目标对象的类别,所述目标检测模型是利用权利要求1

7中任一项所述的方法训练得到的,其中,所述获取所述目标检测模型所输出的目标对象的类别包括:基于所述目标检测模型基于所述待检测图像所输出的目标对象的特征向量表示,确定所述目标对象的类别。9.根据权利要求8所述的方法,其中,所述目标检测模型的输出还包括所述目标对象的位置信息。10.一种目标检测模型的训练装置,包括:第一获取单元,被配置用于获取第一样本图像,并标注所述第一样本图像所包括的目标对象的真实类别;第二获取单元,被配置用于将所述第一样本图像输入目标检测模型,以获取所述目标检测模型所输出的所述目标对象的第一特征向量表示,以及所述第一样本图像中与多个初始预测类别各自相应的对象的第二特征向量表示...

【专利技术属性】
技术研发人员:陈子亮
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1