模型训练方法、装置、计算机可读存储介质及计算机设备制造方法及图纸

技术编号：39294785 阅读：18 留言：0更新日期：2023-11-07 11:02

本申请公开了一种模型训练方法、装置、计算机可读存储介质及计算机设备。方法通过获取训练样本数据；将样本图像输入至神经网络模型，得到神经网络模型输出的图像特征，并基于图像特征与样本文本的文本特征计算第一损失；对样本图像进行掩码处理，得到掩码图像，并将掩码图像输入至神经网络模型，得到神经网络模型输出的掩码特征；对掩码特征进行解码，得到预测图像特征，并基于文本特征将图像特征与预测图像特征映射到文本空间，得到第一映射特征以及第二映射特征；基于第一映射特征与第二映射特征计算第二损失，并根据第一损失和第二损失对神经网络模型的参数进行更新。该方法可以提升训练得到的模型的准确性和可迁移性。提升训练得到的模型的准确性和可迁移性。提升训练得到的模型的准确性和可迁移性。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、装置、计算机可读存储介质及计算机设备

[0001]本申请涉及人工智能
，具体涉及一种模型训练方法、装置、计算机可读存储介质及计算机设备。

技术介绍

[0002]计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
[0003]计算机视觉技术的核心是视觉模型，为提升视觉模型的准确性，对视觉模型的训练一般需要采用大量的样本数据进行训练。而大量样本数据进行在线训练会消耗大量时间，导致模型的训练效率下降，因此本领域技术人员一般采用大量样本数据先对视觉模型进行离线的预训练，然后在具体的下游任务中再采用少量的样本数据对预训练后的视觉模型进行微调，从而得到模型精度和训练效率上的双重提升。
[0004]然而，目前对视觉模型的进行预训练的方法，训练得到的视觉模型精度还不高。

技术实现思路

[0005]本申请实施例提供一种模型训练方法、装置、计算机可读存储介质及计算机设

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：获取训练样本数据，所述训练样本数据包括样本图像以及与所述样本图像对应的样本文本；将所述样本图像输入至神经网络模型，得到所述神经网络模型输出的图像特征，并基于所述图像特征与所述样本文本的文本特征计算第一损失；对所述样本图像进行掩码处理，得到掩码图像，并将所述掩码图像输入至所述神经网络模型，得到所述神经网络模型输出的掩码特征；对所述掩码特征进行解码，得到预测图像特征，并基于所述文本特征将所述图像特征与所述预测图像特征映射到文本空间，得到第一映射特征以及第二映射特征；基于所述第一映射特征与所述第二映射特征计算第二损失，并根据所述第一损失和所述第二损失对所述神经网络模型的参数进行更新。2.根据权利要求1所述的方法，其特征在于，所述基于所述文本特征将所述图像特征与所述预测图像特征映射到文本空间，得到第一映射特征以及第二映射特征，包括：对所述图像特征以及所述预测图像特征映射到同一图像特征空间，并对映射得到的特征进行归一化处理，得到所述图像特征对应的第一归一化特征以及所述预测图像特征对应的第二归一化特征；基于所述文本特征将所述第一归一化特征与所述第二归一化特征映射到文本空间，得到所述图像特征对应的第一映射特征以及所述预测图像特征对应的第二映射特征。3.根据权利要求2所述的方法，其特征在于，所述基于所述文本特征将所述第一归一化特征与所述第二归一化特征映射到文本空间，得到所述图像特征对应的第一映射特征以及所述预测图像特征对应的第二映射特征，包括：以所述文本特征作为基向量，将所述第一归一化特征映射为在文本空间上的概率分布，得到第一映射特征；以所述文本特征作为基向量，将所述第二归一化特征映射为在所述文本空间上的概率分布，得到第二映射特征。4.根据权利要求1所述的方法，其特征在于，所述基于所述图像特征与所述样本文本的文本特征计算第一损失，包括：将所述图像特征与所述样本文本的文本特征映射到同一特征空间，得到图像映射特征以及文本映射特征；基于所述图像映射特征以及所述文本映射特征计算第一损失。5.根据权利要求4所述的方法，其特征在于，所述基于所述图像映射特征以及所述文本映射特征计算第一损失，包括：对所述图像映射特征进行归一化处理，得到第三归一化特征；对所述文本映射特征进行归一化处理，得到第四归一化特征；根据所述第三归一化特征以及所述第四归一化特征计算第一损失。6.根据权利要求5所述的方法，其特征在于，所述根据所述第三归一化特征以及所述第四归一化特征计算第一损失，包括：根据所述第三归一化特征与所述第四归一化特征计算所述样本图像对所述样本文本的第一对比学习损失；
根据所述第三归一化特征与所述第四归一化特征计算所述样本文本对所述样本图像的第二对比学习损失；计算所述第一对比学习损失与所述第二对比学习损失的均值，得到第一损失。7.根据权利要求1所述的方法，其特征在于，所述对所述样本图像进行掩码处理，得到掩码图像，并将所述掩码图像输入至所述神经网络模型，得到所述神经网络模型输出的掩码特征，包括：对所述样本图像进行随机掩码，得到掩码图像；基于所述神经网络模型对所述掩码图像进行图像编码，得到所述样本图像的掩码特征。8.根据权利要求1所述...

【专利技术属性】
技术研发人员：杨澍生，葛艺潇，易坤，单瀛，王兴刚，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人