【技术实现步骤摘要】
目标检测模型的训练方法及装置、设备和介质
[0001]本公开涉及人工智能
,尤其涉及深度学习、图像处理、计算机视觉
,可应用于人脸识别等场景,具体涉及一种目标检测模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]目标检测是计算机视觉
的核心任务之一。当前的目标检测方法通常是利用海量的标注数据对模型进行有监督训练,所得到的目标检测模型针对标注类别可以达到较好的检测效果。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
[0005]本公开提供了一种目标检测模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种目标检测模型的训练方法,包括:获取第一样本图像,并标注所述第一样本图像所包括的目标对象的真实类别;将 ...
【技术保护点】
【技术特征摘要】
1.一种目标检测模型的训练方法,包括:获取第一样本图像,并标注所述第一样本图像所包括的目标对象的真实类别;将所述第一样本图像输入目标检测模型,以获取所述目标检测模型所输出的所述目标对象的第一特征向量表示,以及所述第一样本图像中与多个初始预测类别各自相应的对象的第二特征向量表示;基于所述目标对象的第一特征向量表示和所述真实类别的文本特征向量表示,计算第一损失值;基于每个初始预测类别相应的第二特征向量表示和该初始预测类别的文本特征向量表示,确定所述第一样本图像中包括每个初始预测类别的对象的置信度;基于所述多个初始预测类别各自相应的置信度,从所述多个初始预测类别中确定真实预测类别,并标注所述第一样本图像包括所述真实预测类别的对象;基于所述真实预测类别相应的置信度,计算第二损失值;以及至少基于所述第一损失值和第二损失值,对所述目标检测模型进行调参。2.根据权利要求1所述的方法,还包括:标注所述第一样本图像所包括的目标对象的真实位置信息;获取所述目标检测模型基于第一样本图像所输出的所述目标对象的预测位置信息;基于所述目标对象的真实位置信息和预测位置信息,计算第三损失值,并且其中,基于所述第一损失值、第二损失值和第三损失值,对所述目标检测模型进行调参。3.根据权利要求2所述的方法,所述目标检测模型包括视觉语言模型和位置回归器,所述视觉语言模型包括图像特征提取子模型和转换矩阵,所述转换矩阵被配置为将图像特征向量投射至文本空间,以得到图像特征向量相应的文本特征向量,其中,将所述第一样本图像输入目标检测模型,以获取所述目标检测模型所输出的所述目标对象的第一特征向量表示和预测位置信息,以及所述第一样本图像中与多个初始预测类别各自相应的对象的第二特征向量表示包括:将所述第一样本图像输入图像特征提取子模型,以获取所述图像特征提取子模型所输出的所述目标对象的图像特征向量表示,以及所述第一样本图像中与多个初始预测类别各自相应的对象的图像特征向量表示;将所述目标对象的图像特征向量表示输入所述位置回归器,以获取所述位置回归器所输出的预测位置信息;将所述目标对象的图像特征向量表示和所述与多个初始预测类别相应的对象的图像特征向量表示输入转换矩阵,以获取所述转换矩阵所输出的所述目标对象的第一特征向量表示和每个初始预测类别相应的对象的第二特征向量表示。4.根据权利要求1
‑
3中任一项所述的方法,其中,从类别库中获取每个初始预测类别的文本特征向量表示,所述类别库中包括多个类别和多个文本特征向量之间的映射关系。5.根据权利要求1
‑
4中任一项所述的方法,其中,所述基于所述多个初始预测类别各自相应的置信度,从所述多个初始预测类别中确定真实预测类别包括:响应于某一个初始预测类别相应的置信度大于第二预设阈值,确定该初始预测类别为真实预测类别。
6.根据权利要求1
‑
5中任一项所述的方法,其中,所述基于所述目标对象的第一特征向量表示和所述真实类别的文本特征向量表示,计算第一损失值包括:计算所述第一特征向量表示和所述真实类别的文本特征向量表示的相似度;以及基于所述第一特征向量表示和所述真实类别的文本特征向量表示的相似度,计算所述第一损失值。7.根据权利要求1
‑
6中任一项所述的方法,其中,所述基于每个初始预测类别相应的第二特征向量表示和该初始预测类别的文本特征向量表示,确定所述第一样本图像中包括每个初始预测类别的对象的置信度包括:计算所述第二特征向量表示和所述初始预测类别的文本特征向量表示的相似度;以及基于所述第二特征向量表示和所述初始预测类别的文本特征向量表示的相似度,确定所述第一样本图像中包括每个初始预测类别的对象的置信度。8.一种目标检测方法,包括:将待检测图像输入目标检测模型,以获取所述目标检测模型所输出的目标对象的类别,所述目标检测模型是利用权利要求1
‑
7中任一项所述的方法训练得到的,其中,所述获取所述目标检测模型所输出的目标对象的类别包括:基于所述目标检测模型基于所述待检测图像所输出的目标对象的特征向量表示,确定所述目标对象的类别。9.根据权利要求8所述的方法,其中,所述目标检测模型的输出还包括所述目标对象的位置信息。10.一种目标检测模型的训练装置,包括:第一获取单元,被配置用于获取第一样本图像,并标注所述第一样本图像所包括的目标对象的真实类别;第二获取单元,被配置用于将所述第一样本图像输入目标检测模型,以获取所述目标检测模型所输出的所述目标对象的第一特征向量表示,以及所述第一样本图像中与多个初始预测类别各自相应的对象的第二特征向量表示...
【专利技术属性】
技术研发人员:陈子亮,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。