模型训练方法及装置、检测方法及装置、设备及存储介质制造方法及图纸

技术编号：36264775 阅读：13 留言：0更新日期：2023-01-07 10:04

本公开涉及一种模型训练方法及装置、检测方法及装置、设备及存储介质，其中，模型训练方法包括：获取样本图像中物体的真实物体信息；利用目标检测模型中的解码器，根据样本图像对应的初始参考位置坐标以及自然语言描述，确定样本图像的对应的预测目标查询向量，其中，预测目标查询向量用于确定样本图像中物体的预测物体信息；基于真实物体信息和预测物体信息的差异调整目标检测模型的参数，直至差异小于预设阈值。本公开能够加快目标检测模型收敛，从而实现提高模型训练效率、降低模型训练成本的效果。的效果。的效果。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法及装置、检测方法及装置、设备及存储介质

[0001]本公开涉及计算机视觉
，尤其涉及一种模型训练方法及装置、检测方法及装置、设备及存储介质。

技术介绍

[0002]目标检测是计算机视觉中最基本的任务之一，随着深度学习的发展，通过目标检测模型进行目标检测已成为热门研究方向，其中，DETR(DEtection TRansformer)由于将Transformer引入到了目标检测任务中，因此，可以去除锚点生成组件、非极大值抑制组件等，使得目标检测模型更简洁。
[0003]但是，现有的DETR的训练方法，收敛速度极慢，需要很多次迭代才能收敛得到一个较好的结果，该收敛缓慢的问题极大增加了训练成本。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种模型训练方法及装置、检测方法及装置、设备及存储介质。
[0005]根据本公开的一方面，提供了一种模型训练方法，包括：
[0006]获取样本图像中物体的真实物体信息；
[0007]利用目标检测模型中的解码器，根据样本图像对应的初始参考位置坐标以及自然语言描述，确定样本图像的对应的预测目标查询向量，其中，预测目标查询向量用于确定样本图像中物体的预测物体信息；
[0008]基于真实物体信息和预测物体信息的差异调整目标检测模型的参数，直至差异小于预设阈值。
[0009]根据本公开的另一方面，提供了一种检测方法，包括：
[0010]获取待检测图像、以及待检测图像...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：获取样本图像中物体的真实物体信息；利用目标检测模型中的解码器，根据所述样本图像对应的初始参考位置坐标以及自然语言描述，确定所述样本图像的对应的预测目标查询向量，其中，所述预测目标查询向量用于确定所述样本图像中物体的预测物体信息；基于所述真实物体信息和所述预测物体信息的差异调整所述目标检测模型的参数，直至所述差异小于预设阈值。2.根据权利要求1所述的方法，其特征在于，所述利用目标检测模型中的解码器，根据所述样本图像对应的初始参考位置坐标以及自然语言描述，确定所述样本图像的对应的预测目标查询向量，包括：根据所述初始参考位置坐标对所述样本图像对应的初始目标查询向量进行预处理，得到第一归一化目标查询向量；根据所述初始参考位置坐标和所述自然语言描述对所述样本图像中物体的位置的指导，将所述第一归一化目标查询向量在语义上与所述样本图像对应的编码图像特征对齐，得到新的目标查询向量和新的参考位置坐标；根据所述样本图像对应的图像特征位置编码、所述新的目标查询向量、以及所述新的参考位置坐标，得到所述解码器的第一层解码层输出的目标查询向量，其中，所述第一层解码层输出的目标查询向量用于确定所述预测目标查询向量。3.根据权利要求2所述的方法，其特征在于，根据所述初始参考位置坐标对所述样本图像对应的初始目标查询向量进行预处理，得到第一归一化目标查询向量，包括：对所述初始参考位置坐标进行位置编码，得到初始参考位置坐标编码向量；根据所述初始目标查询向量和所述初始参考位置坐标编码向量，利用所述第一层解码层的多头自注意力模块，确定优化的目标查询向量；对所述优化的目标查询向量和所述初始目标查询向量进行残差和归一化处理，得到所述第一归一化目标查询向量。4.根据权利要求2所述的方法，其特征在于，所述根据所述初始参考位置坐标和所述自然语言描述对所述样本图像中物体的位置的指导，将所述第一归一化目标查询向量在语义上与所述样本图像对应的编码图像特征对齐，得到新的目标查询向量和新的参考位置坐标，包括：从所述自然语言描述对应的自然语言特征中提取与所述样本图像中物体的位置关联的自然语言位置信息，其中，所述自然语言特征包括所述自然语言描述中每个单词的编码向量；根据所述初始参考位置坐标和所述自然语言位置信息，从所述编码图像特征中提取出对应的二维特征，得到自适应图像特征；将所述自然语言特征和所述自适应图像特征进行融合，得到多模态特征；对所述多模态特征进行卷积和多层感知机操作，得到显著点坐标；根据所述显著点坐标、所述自适应图像特征、以及所述第一归一化目...

【专利技术属性】
技术研发人员：胡志伟，陈博，冀志龙，
申请(专利权)人：北京世纪好未来教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人