【技术实现步骤摘要】
模型训练方法和电子设备
[0001]本申请属于人工智能
,具体涉及一种模型训练方法和电子设备。
技术介绍
[0002]图文多模态模型包括文本编码器和视觉编码器,可以用于处理视觉任务或者图文多模态任务。通常,模型的参数量越大,其拟合能力越强。
[0003]在相关技术中,为了提高模型的参数量,可以在文本编码器的输入端插入可学习的提示向量,通过下游数据和标注来更新这些提示向量,使模型更加有效地迁移至下游任务。
[0004]然而,一方面,由于文本编码器对输入字符的长度做了限制,因此增加在输入端的提示向量会受到个数限制,另一方面,即使增加在输入端的提示向量没有个数限制,基于对图文多模态模型扰动性的考虑,也无法增加大量提示向量,这使得图文多模态模型难以具有较大规模的可训练参数量,从而限制了模型的拟合能力。
技术实现思路
[0005]本申请实施例的目的是提供一种模型训练方法和电子设备,能够解决模型难以具有较大规模的可训练参数量,影响模型拟合能力的问题。
[0006]第一方面,本申请实施例提供了一种模型训练方法,该方法包括:获取N个训练样本,每个训练样本包括一个文本信息和一个图像,N为大于或等于1的整数;将所述N个训练样本输入图文多模态模型,得到目标特征向量,所述图文多模态模型包括第一视觉编码器,所述第一视觉编码器每一层的输入端均包括一个提示向量,且第M层的提示向量为根据第(M
‑
1)层的提示向量的输出值确定的,M为大于1的整数;根据所述目标特征向量确定目标函数,并基于 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取N个训练样本,每个训练样本包括一个文本信息和一个图像,N为大于或等于1的整数;将所述N个训练样本输入图文多模态模型,得到目标特征向量,所述图文多模态模型包括第一视觉编码器,所述第一视觉编码器每一层的输入端均包括一个提示向量,且第M层的提示向量为根据第(M
‑
1)层的提示向量的输出值确定的,M为大于1的整数;根据所述目标特征向量确定目标函数,并基于所述目标函数更新所述第一视觉编码器的提示向量的参数,直至所述目标函数处于收敛状态。2.根据权利要求1所述的模型训练方法,其特征在于,所述目标特征向量包括文本特征向量和第一视觉特征向量;所述目标函数包括第一损失函数;所述根据所述目标特征向量确定目标函数,并基于所述目标函数更新所述第一视觉编码器的提示向量的参数,直至所述目标函数处于收敛状态,包括:根据所述文本特征向量和所述第一视觉特征向量计算第一损失函数;更新所述第一视觉编码器的提示向量的参数,直至所述第一损失函数处于收敛状态。3.根据权利要求2所述的模型训练方法,其特征在于,所述更新所述第一视觉编码器的提示向量的参数,直至所述第一损失函数处于收敛状态,包括:在训练样本中文本信息与图像匹配的情况下,通过更新所述第一视觉编码器的提示向量的参数使所述第一损失函数减小;在训练样本中文本信息与图像不匹配的情况下,通过更新所述第一视觉编码器的提示向量的参数使所述第一损失函数增大。4.根据权利要求1所述的模型训练方法,其特征在于,所述目标特征向量包括第二视觉特征向量、第三视觉特征向量以及第四视觉特征向量;所述目标函数包括第二损失函数;所述根据所述目标特征向量确定目标函数,并基于所述目标函数更新所述第一视觉编码器的提示向量的参数,直至所述目标函数处于收敛状态,包括:根据所述第三视觉特征向量和所述第二视觉特征向量确定正样本对,根据所述第四视觉特征向量和所述第二视觉特征向量确定负样本对;基于对比学习计算所述正样本对与所述负样本对的第二损失函数;更新所述第一视觉编码器的提示向量的参数,直至所述第二损失函数处于收敛状态。5.根据权利要求4所述的模型训练方法,其特征在于,所述N个训练样本包括目标样本,所述目标样本包括第一图像;所述将所述N个训练样本输入图文多模态模型,得到目标特征向量,包括:将所述第一图像输入所述第一视觉编码器,得到所述第二视觉特征向量,将所述第一图像输入第二视觉编码器,得到所述第三视觉特征向量,将所述N个训练样本中除所述目标样本外的其他样本的图像输入所述第二视觉编码器,得到所述第四视觉特征向量;其中,所述第二视觉编码器为未在每层插入提示向量的视觉编码器。6.根据权利要求4所述的模型训练方法,其特征在于,所述第二损失函数为第一余弦距离与第二余弦距离的比值,所述第一余弦距离为所述正样本对的余弦距离,所述第二余弦距离为所述负样本对的余弦距离的总和;所述更新所述第一视觉编码器的提示向量的参数,直至所述第二损失函数处于收敛状
态,包括:通过更新所述第一视觉编码器的提示向量的参数,使所述第一余弦距离减小、所述第二余弦距离增大。7.根据权利要求1
‑
6任一项所述的模型训练方法,其特征在于,所述将所述N个训练样本输入图文多模态模型,得到目标特征向量之前,所述方法还包括:基于所述图文多模态模型的模型参数生成提示向量;在所述第(M
‑
1)层插入提示向量P
i
,在所述第M层插入提示向量P
i
';其中,P
i
'=α*O
i
‑1+(1
‑
α)*P
i
,O
i
‑1为所述提示向量P
i
的输出值,α为超参数。8.根据权利要求7所述的模型训练方法,其特征在于,所述模型参数包括:输入向量维度和所述第一视觉编码器的层数;所述基于所述图文多模态模型的模型参数生成提示向量,包括:根据所述输入向量维度和所述第一视觉编码器的层数生成大小为L*D*E的提示向量;对所述提示向量的参数进行初始化处理;其中,D为所述输入向量维度,L为所述第一视觉编码器的层数,E为每层插入的提示向...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。