当前位置: 首页 > 专利查询>南京大学专利>正文

模型训练方法和电子设备技术

技术编号:38218219 阅读:13 留言:0更新日期:2023-07-25 11:29
本申请公开了一种模型训练方法和电子设备,属于人工智能技术领域。具体方案包括:获取N个训练样本,每个训练样本包括一个文本信息和一个图像,N为大于或等于1的整数;将所述N个训练样本输入图文多模态模型,得到目标特征向量,所述图文多模态模型包括第一视觉编码器,所述第一视觉编码器每一层的输入端均包括一个提示向量,且第M层的提示向量为根据第(M

【技术实现步骤摘要】
模型训练方法和电子设备


[0001]本申请属于人工智能
,具体涉及一种模型训练方法和电子设备。

技术介绍

[0002]图文多模态模型包括文本编码器和视觉编码器,可以用于处理视觉任务或者图文多模态任务。通常,模型的参数量越大,其拟合能力越强。
[0003]在相关技术中,为了提高模型的参数量,可以在文本编码器的输入端插入可学习的提示向量,通过下游数据和标注来更新这些提示向量,使模型更加有效地迁移至下游任务。
[0004]然而,一方面,由于文本编码器对输入字符的长度做了限制,因此增加在输入端的提示向量会受到个数限制,另一方面,即使增加在输入端的提示向量没有个数限制,基于对图文多模态模型扰动性的考虑,也无法增加大量提示向量,这使得图文多模态模型难以具有较大规模的可训练参数量,从而限制了模型的拟合能力。

技术实现思路

[0005]本申请实施例的目的是提供一种模型训练方法和电子设备,能够解决模型难以具有较大规模的可训练参数量,影响模型拟合能力的问题。
[0006]第一方面,本申请实施例提供了一种模型训练方法,该方法包括:获取N个训练样本,每个训练样本包括一个文本信息和一个图像,N为大于或等于1的整数;将所述N个训练样本输入图文多模态模型,得到目标特征向量,所述图文多模态模型包括第一视觉编码器,所述第一视觉编码器每一层的输入端均包括一个提示向量,且第M层的提示向量为根据第(M

1)层的提示向量的输出值确定的,M为大于1的整数;根据所述目标特征向量确定目标函数,并基于所述目标函数更新所述第一视觉编码器的提示向量的参数,直至所述目标函数处于收敛状态。
[0007]第二方面,本申请实施例提供了一种模型训练装置,包括:获取模块和处理模块;所述获取模块,用于获取N个训练样本,每个训练样本包括一个文本信息和一个图像,N为大于或等于1的整数;所述处理模块,用于将所述N个训练样本输入图文多模态模型,得到目标特征向量,所述图文多模态模型包括第一视觉编码器,所述第一视觉编码器每一层的输入端均包括一个提示向量,且第M层的提示向量为根据第(M

1)层的提示向量的输出值确定的,M为大于1的整数;所述处理模块,还用于根据所述目标特征向量确定目标函数,并基于所述目标函数更新所述第一视觉编码器的提示向量的参数,直至所述目标函数处于收敛状态。
[0008]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
[0009]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程
序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0010]第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
[0011]第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
[0012]在本申请实施例中,获取N个训练样本,每个训练样本包括一个文本信息和一个图像,N为大于或等于1的整数;将所述N个训练样本输入图文多模态模型,得到目标特征向量,所述图文多模态模型包括第一视觉编码器,所述第一视觉编码器每一层的输入端均包括一个提示向量,且第M层的提示向量为根据第(M

1)层的提示向量的输出值确定的,M为大于1的整数;根据所述目标特征向量确定目标函数,并基于所述目标函数更新所述第一视觉编码器的提示向量的参数,直至所述目标函数处于收敛状态。通过该方案,一方面,由于图文多模态模型包括第一视觉编码器,且该第一视觉编码器每一层的输入端均包括一个提示向量,因此可以解决模型输入端的提示向量个数受限的问题,从而提高模型的拟合能力;另一方面,由于第M层的提示向量为根据第(M

1)层的提示向量的输出值确定的,因此,可以使得不同层间的提示向量进行有效交互,从而降低提示向量对模型的扰动性、减少参数更新发生冲突的可能性,进而缓解模型训练的难度和对超参数敏感的现象。
附图说明
[0013]图1是本申请实施例提供的模型训练方法的流程示意图之一;
[0014]图2是本申请实施例提供的文本编码器的输入输出示意图;
[0015]图3是本申请实施例提供的第一视觉编码器的输入输出示意图;
[0016]图4是本申请实施例提供的图文多模态模型的训练示意图之一;
[0017]图5是本申请实施例提供的图文多模态模型的训练示意图之二;
[0018]图6是本申请实施例提供的模型训练方法的流程示意图之二;
[0019]图7是本申请实施例提供的模型训练装置的结构示意图;
[0020]图8是本申请实施例提供的电子设备的结构示意图;
[0021]图9是本申请实施例提供的电子设备的硬件示意图。
具体实施方式
[0022]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0023]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0024]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的模型训练方法进行详细地说明。
[0025]本申请实施例提供的模型训练方法,该模型训练方法的执行主体可以为电子设备或者电子设备中能够实现该模型训练方法的功能模块或功能实体,本申请实施例提及的电子设备包括但不限于手机、平板电脑、电脑、相机、可穿戴设备等,下面以电子设备作为执行主体为例对本申请实施例提供的模型训练方法进行说明。
[0026]如图1所示,本申请实施例提供了一种模型训练方法,该方法可以包括步骤101

步骤103:
[0027]步骤101、获取N个训练样本。
[0028]其中,每个训练样本可以包括一个文本信息和一个图像,N为大于或等于1的整数。
[0029]可选地,上述训练样本中的文本信息可以用于描述图像中的主体对象。例如,在图像的主体对象为狮子的情况下,对应的文本信息可以为“狮子的照片(A photo of a lion)”、在图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取N个训练样本,每个训练样本包括一个文本信息和一个图像,N为大于或等于1的整数;将所述N个训练样本输入图文多模态模型,得到目标特征向量,所述图文多模态模型包括第一视觉编码器,所述第一视觉编码器每一层的输入端均包括一个提示向量,且第M层的提示向量为根据第(M

1)层的提示向量的输出值确定的,M为大于1的整数;根据所述目标特征向量确定目标函数,并基于所述目标函数更新所述第一视觉编码器的提示向量的参数,直至所述目标函数处于收敛状态。2.根据权利要求1所述的模型训练方法,其特征在于,所述目标特征向量包括文本特征向量和第一视觉特征向量;所述目标函数包括第一损失函数;所述根据所述目标特征向量确定目标函数,并基于所述目标函数更新所述第一视觉编码器的提示向量的参数,直至所述目标函数处于收敛状态,包括:根据所述文本特征向量和所述第一视觉特征向量计算第一损失函数;更新所述第一视觉编码器的提示向量的参数,直至所述第一损失函数处于收敛状态。3.根据权利要求2所述的模型训练方法,其特征在于,所述更新所述第一视觉编码器的提示向量的参数,直至所述第一损失函数处于收敛状态,包括:在训练样本中文本信息与图像匹配的情况下,通过更新所述第一视觉编码器的提示向量的参数使所述第一损失函数减小;在训练样本中文本信息与图像不匹配的情况下,通过更新所述第一视觉编码器的提示向量的参数使所述第一损失函数增大。4.根据权利要求1所述的模型训练方法,其特征在于,所述目标特征向量包括第二视觉特征向量、第三视觉特征向量以及第四视觉特征向量;所述目标函数包括第二损失函数;所述根据所述目标特征向量确定目标函数,并基于所述目标函数更新所述第一视觉编码器的提示向量的参数,直至所述目标函数处于收敛状态,包括:根据所述第三视觉特征向量和所述第二视觉特征向量确定正样本对,根据所述第四视觉特征向量和所述第二视觉特征向量确定负样本对;基于对比学习计算所述正样本对与所述负样本对的第二损失函数;更新所述第一视觉编码器的提示向量的参数,直至所述第二损失函数处于收敛状态。5.根据权利要求4所述的模型训练方法,其特征在于,所述N个训练样本包括目标样本,所述目标样本包括第一图像;所述将所述N个训练样本输入图文多模态模型,得到目标特征向量,包括:将所述第一图像输入所述第一视觉编码器,得到所述第二视觉特征向量,将所述第一图像输入第二视觉编码器,得到所述第三视觉特征向量,将所述N个训练样本中除所述目标样本外的其他样本的图像输入所述第二视觉编码器,得到所述第四视觉特征向量;其中,所述第二视觉编码器为未在每层插入提示向量的视觉编码器。6.根据权利要求4所述的模型训练方法,其特征在于,所述第二损失函数为第一余弦距离与第二余弦距离的比值,所述第一余弦距离为所述正样本对的余弦距离,所述第二余弦距离为所述负样本对的余弦距离的总和;所述更新所述第一视觉编码器的提示向量的参数,直至所述第二损失函数处于收敛状
态,包括:通过更新所述第一视觉编码器的提示向量的参数,使所述第一余弦距离减小、所述第二余弦距离增大。7.根据权利要求1

6任一项所述的模型训练方法,其特征在于,所述将所述N个训练样本输入图文多模态模型,得到目标特征向量之前,所述方法还包括:基于所述图文多模态模型的模型参数生成提示向量;在所述第(M

1)层插入提示向量P
i
,在所述第M层插入提示向量P
i
';其中,P
i
'=α*O
i
‑1+(1

α)*P
i
,O
i
‑1为所述提示向量P
i
的输出值,α为超参数。8.根据权利要求7所述的模型训练方法,其特征在于,所述模型参数包括:输入向量维度和所述第一视觉编码器的层数;所述基于所述图文多模态模型的模型参数生成提示向量,包括:根据所述输入向量维度和所述第一视觉编码器的层数生成大小为L*D*E的提示向量;对所述提示向量的参数进行初始化处理;其中,D为所述输入向量维度,L为所述第一视觉编码器的层数,E为每层插入的提示向...

【专利技术属性】
技术研发人员:沈昊成徐臣王利民
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1