模型训练方法、装置、计算机可读存储介质及计算机设备制造方法及图纸

技术编号:39294785 阅读:7 留言:0更新日期:2023-11-07 11:02
本申请公开了一种模型训练方法、装置、计算机可读存储介质及计算机设备。方法通过获取训练样本数据;将样本图像输入至神经网络模型,得到神经网络模型输出的图像特征,并基于图像特征与样本文本的文本特征计算第一损失;对样本图像进行掩码处理,得到掩码图像,并将掩码图像输入至神经网络模型,得到神经网络模型输出的掩码特征;对掩码特征进行解码,得到预测图像特征,并基于文本特征将图像特征与预测图像特征映射到文本空间,得到第一映射特征以及第二映射特征;基于第一映射特征与第二映射特征计算第二损失,并根据第一损失和第二损失对神经网络模型的参数进行更新。该方法可以提升训练得到的模型的准确性和可迁移性。提升训练得到的模型的准确性和可迁移性。提升训练得到的模型的准确性和可迁移性。

【技术实现步骤摘要】
模型训练方法、装置、计算机可读存储介质及计算机设备


[0001]本申请涉及人工智能
,具体涉及一种模型训练方法、装置、计算机可读存储介质及计算机设备。

技术介绍

[0002]计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
[0003]计算机视觉技术的核心是视觉模型,为提升视觉模型的准确性,对视觉模型的训练一般需要采用大量的样本数据进行训练。而大量样本数据进行在线训练会消耗大量时间,导致模型的训练效率下降,因此本领域技术人员一般采用大量样本数据先对视觉模型进行离线的预训练,然后在具体的下游任务中再采用少量的样本数据对预训练后的视觉模型进行微调,从而得到模型精度和训练效率上的双重提升。
[0004]然而,目前对视觉模型的进行预训练的方法,训练得到的视觉模型精度还不高。

技术实现思路

[0005]本申请实施例提供一种模型训练方法、装置、计算机可读存储介质及计算机设备,该方法可以大大提升神经网络模型的模型精度。
[0006]本申请第一方面提供一种模型训练方法,方法包括:
[0007]获取训练样本数据,所述训练样本数据包括样本图像以及与所述样本图像对应的样本文本;
[0008]将所述样本图像输入至神经网络模型,得到所述神经网络模型输出的图像特征,并基于所述图像特征与所述样本文本的文本特征计算第一损失;
[0009]对所述样本图像进行掩码处理,得到掩码图像,并将所述掩码图像输入至所述神经网络模型,得到所述神经网络模型输出的掩码特征;
[0010]对所述掩码特征进行解码,得到预测图像特征,并基于所述文本特征将所述图像特征与所述预测图像特征映射到文本空间,得到第一映射特征以及第二映射特征;
[0011]基于所述第一映射特征与所述第二映射特征计算第二损失,并根据所述第一损失和所述第二损失对所述神经网络模型的参数进行更新。
[0012]相应的,本申请第二方面提供一种模型训练装置,装置包括:
[0013]第一获取单元,用于获取训练样本数据,所述训练样本数据包括样本图像以及与
所述样本图像对应的样本文本;
[0014]第一计算单元,用于将所述样本图像输入至神经网络模型,得到所述神经网络模型输出的图像特征,并基于所述图像特征与所述样本文本的文本特征计算第一损失;
[0015]处理单元,用于对所述样本图像进行掩码处理,得到掩码图像,并将所述掩码图像输入至所述神经网络模型,得到所述神经网络模型输出的掩码特征;
[0016]映射单元,用于对所述掩码特征进行解码,得到预测图像特征,并基于所述文本特征将所述图像特征与所述预测图像特征映射到文本空间,得到第一映射特征以及第二映射特征;
[0017]更新单元,用于基于所述第一映射特征与所述第二映射特征计算第二损失,并根据所述第一损失和所述第二损失对所述神经网络模型的参数进行更新。
[0018]可选地,在一些实施例中,映射单元,包括:
[0019]归一化子单元,用于对所述图像特征以及所述预测图像特征映射到同一图像特征空间,并对映射得到的特征进行归一化处理,得到所述图像特征对应的第一归一化特征以及所述预测图像特征对应的第二归一化特征;
[0020]第一映射子单元,用于基于所述文本特征将所述第一归一化特征与所述第二归一化特征映射到文本空间,得到所述图像特征对应的第一映射特征以及所述预测图像特征对应的第二映射特征。
[0021]可选地,在一些实施例中,映射子单元,包括:
[0022]第一映射模块,用于以所述文本特征作为基向量,将所述第一归一化特征映射为在文本空间上的概率分布,得到第一映射特征;
[0023]第二映射模块,用于以所述文本特征作为基向量,将所述第二归一化特征映射为在所述文本空间上的概率分布,得到第二映射特征。
[0024]可选地,在一些实施例中,第一计算单元,包括:
[0025]第二映射子单元,用于将所述图像特征与所述样本文本的文本特征映射到同一特征空间,得到图像映射特征以及文本映射特征;
[0026]计算子单元,用于基于所述图像映射特征以及所述文本映射特征计算第一损失。
[0027]可选地,在一些实施例中,计算子单元,包括:
[0028]第一处理模块,用于对所述图像映射特征进行归一化处理,得到第三归一化特征;
[0029]第二处理模块,用于对所述文本映射特征进行归一化处理,得到第四归一化特征;
[0030]计算模块,用于根据所述第三归一化特征以及所述第四归一化特征计算第一损失。
[0031]可选地,在一些实施例中,计算模块,包括:
[0032]第一计算子模块,用于根据所述第三归一化特征与所述第四归一化特征计算所述样本图像对所述样本文本的第一对比学习损失;
[0033]第二计算子模块,用于根据所述第三归一化特征与所述第四归一化特征计算所述样本文本对所述样本图像的第二对比学习损失;
[0034]第三计算子模块,用于计算所述第一对比学习损失与所述第二对比学习损失的均值,得到第一损失。
[0035]可选地,在一些实施例中,处理单元,包括:
[0036]掩码子单元,用于对所述样本图像进行随机掩码,得到掩码图像;
[0037]编码子单元,用于基于所述神经网络模型对所述掩码图像进行图像编码,得到所述样本图像的掩码特征。
[0038]可选地,在一些实施例中,更新单元,包括:
[0039]获取子单元,用于获取所述第一损失的第一权重系数以及所述第二损失的第二权重系数;
[0040]处理子单元,用于基于所述第一权重系数与所述第二权重系数对所述第一损失和所述第二损失进程加权处理,得到目标损失;
[0041]更新子单元,用于基于所述目标损失对所述神经网络模型的参数进行更新。
[0042]可选地,在一些实施例中,更新子单元,包括:
[0043]确定模块,用于基于所述目标损失确定反传梯度;
[0044]第三处理模块,用于根据所述反传梯度进行梯度反传处理,以对所述神经网络模型的参数进行更新。
[0045]本申请第三方面提供一种模型训练方法,方法包括:
[0046]获取目标任务对应的目标训练样本数据,所述目标训练样本数据包括目标样本图像以及所述目标样本图像对应的标签数据;...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取训练样本数据,所述训练样本数据包括样本图像以及与所述样本图像对应的样本文本;将所述样本图像输入至神经网络模型,得到所述神经网络模型输出的图像特征,并基于所述图像特征与所述样本文本的文本特征计算第一损失;对所述样本图像进行掩码处理,得到掩码图像,并将所述掩码图像输入至所述神经网络模型,得到所述神经网络模型输出的掩码特征;对所述掩码特征进行解码,得到预测图像特征,并基于所述文本特征将所述图像特征与所述预测图像特征映射到文本空间,得到第一映射特征以及第二映射特征;基于所述第一映射特征与所述第二映射特征计算第二损失,并根据所述第一损失和所述第二损失对所述神经网络模型的参数进行更新。2.根据权利要求1所述的方法,其特征在于,所述基于所述文本特征将所述图像特征与所述预测图像特征映射到文本空间,得到第一映射特征以及第二映射特征,包括:对所述图像特征以及所述预测图像特征映射到同一图像特征空间,并对映射得到的特征进行归一化处理,得到所述图像特征对应的第一归一化特征以及所述预测图像特征对应的第二归一化特征;基于所述文本特征将所述第一归一化特征与所述第二归一化特征映射到文本空间,得到所述图像特征对应的第一映射特征以及所述预测图像特征对应的第二映射特征。3.根据权利要求2所述的方法,其特征在于,所述基于所述文本特征将所述第一归一化特征与所述第二归一化特征映射到文本空间,得到所述图像特征对应的第一映射特征以及所述预测图像特征对应的第二映射特征,包括:以所述文本特征作为基向量,将所述第一归一化特征映射为在文本空间上的概率分布,得到第一映射特征;以所述文本特征作为基向量,将所述第二归一化特征映射为在所述文本空间上的概率分布,得到第二映射特征。4.根据权利要求1所述的方法,其特征在于,所述基于所述图像特征与所述样本文本的文本特征计算第一损失,包括:将所述图像特征与所述样本文本的文本特征映射到同一特征空间,得到图像映射特征以及文本映射特征;基于所述图像映射特征以及所述文本映射特征计算第一损失。5.根据权利要求4所述的方法,其特征在于,所述基于所述图像映射特征以及所述文本映射特征计算第一损失,包括:对所述图像映射特征进行归一化处理,得到第三归一化特征;对所述文本映射特征进行归一化处理,得到第四归一化特征;根据所述第三归一化特征以及所述第四归一化特征计算第一损失。6.根据权利要求5所述的方法,其特征在于,所述根据所述第三归一化特征以及所述第四归一化特征计算第一损失,包括:根据所述第三归一化特征与所述第四归一化特征计算所述样本图像对所述样本文本的第一对比学习损失;
根据所述第三归一化特征与所述第四归一化特征计算所述样本文本对所述样本图像的第二对比学习损失;计算所述第一对比学习损失与所述第二对比学习损失的均值,得到第一损失。7.根据权利要求1所述的方法,其特征在于,所述对所述样本图像进行掩码处理,得到掩码图像,并将所述掩码图像输入至所述神经网络模型,得到所述神经网络模型输出的掩码特征,包括:对所述样本图像进行随机掩码,得到掩码图像;基于所述神经网络模型对所述掩码图像进行图像编码,得到所述样本图像的掩码特征。8.根据权利要求1所述...

【专利技术属性】
技术研发人员:杨澍生葛艺潇易坤单瀛王兴刚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1