System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多模态模型的训练及图像分类方法和装置制造方法及图纸_技高网

多模态模型的训练及图像分类方法和装置制造方法及图纸

技术编号:40827140 阅读:13 留言:0更新日期:2024-04-01 14:48
本发明专利技术涉及一种多模态模型的训练及图像分类方法和装置,将各目标图像分别对应的可学习的提示词向量,经过多个适配器投影,得到丰富语义的多个文本支持特征向量,丰富了单一文本特征向量的语义表达,更具泛化性与鲁棒性。并基于多个文本特征向量,得到各类别的分类超平面,从而实现图像与文本之间的点对面映射,从而可以使基于各类别的分类超平面进一步确定的损失函数,训练得到最终的提示词向量和多个适配器,使基于训练好的提示词向量进行图像分类时,提高多模态模型的泛化能力,分类准确率更高。基于分类超平面之间的平面夹角确定损失函数,更充分使用特征空间,从而使不同的分类超平面之间的关系更加具有判别性,分类准确率更高。

【技术实现步骤摘要】

本专利技术涉及人工智能领域,特别是涉及多模态模型的训练及图像分类方法和装置


技术介绍

1、在传统的深度学习方法中,下游任务通常需要在特定领域或任务上进行独立的微调,这可能需要大量的标注数据,而且模型的性能受到任务间的差异和数据不足的制约。因此,研究人员开始思考如何更好地利用预训练模型的通用性和大规模文本和图像数据,以提高多模态模型在各种下游任务上的性能。提示词学习(prompt learning)是一种创新的方法,旨在将下游任务重新构造为与预训练任务类似的形式,以充分发挥预训练模型在多模态数据上的能力。

2、然而,提示学习中的提示词训练使得视觉语言多模态模型泛化性下降,使视觉语言多模态模型在训练的类别上有突出的增益效果,但是在没训练过的类别上分类性能大幅下降。


技术实现思路

1、本专利技术提供一种多模态模型的训练及图像分类方法和装置,用以解决现有技术中用于图像分类的多模态模型泛化能力弱,分类准确率不高的问题,实现提高用于图像分类的多模态模型的泛化能力,并提高多模态模型的分类准确率。

2、一种多模态模型的训练方法,所述方法包括:基于各目标图像和预设多模态模型确定各目标图像的图像特征向量;并基于各目标图像的类别、各目标图像分别对应的可学习的提示词向量、预设多模态模型,以及多个适配器,确定各目标图像分别对应的多个文本支持特征向量;所述多个适配器用于将提示词向量投影到不同语义空间;基于各目标图像分别对应的多个文本支持特征向量,确定每种类别目标图像分别对应的分类超平面;基于所述各目标图像的图像特征向量、所述各目标图像的图像特征向量在对应的分类超平面上的投影点,以及各类别分类超平面中两两分类超平面之间的平面夹角,确定损失函数;并基于所述损失函数更新所述提示词向量以及多个适配器,得到训练好的提示词向量以及多个适配器,用于输入预设多模态模型中进行图像分类。

3、在其中一个实施例中,所述基于各目标图像和预设多模态模型确定各目标图像的图像特征向量;并基于各目标图像的类别、各目标图像分别对应的可学习的提示词向量、预设多模态模型,以及多个适配器,确定各目标图像分别对应的多个文本支持特征向量,包括:将各目标图像输入预设多模态模型的图像编辑器中,确定各目标图像的图像特征向量;针对每个目标图像,将目标图像的类别和目标图像分别对应的可学习的提示词向量,输入预设多模态模型的文本编辑器中,得到目标图像的初始本文支持特征向量;将每个目标图像对应的初始本文支持特征分别输入多个适配器,确定每个目标图像对应的多个文本支持特征向量。

4、在其中一个实施例中,所述基于各目标图像分别对应的多个文本支持特征向量,确定每种类别目标图像分别对应的分类超平面,包括:针对同一类别中每个目标图像,将目标图像对应的多个文本支持特征向量进行归一化,得到同一类别每个目标图像对应的归一化的多个本文支持特征向量;将同一类别各目标图像对应的归一化的多个文本支持特征向量进行拼接,得到每种类别目标图像分别对应的分类超平面。

5、在其中一个实施例中,所述基于所述各目标图像的图像特征向量、所述各目标图像的图像特征向量在对应的分类超平面上的投影点,以及各类别分类超平面中两两分类超平面之间的平面夹角,确定损失函数;并基于所述损失函数更新所述提示词向量以及多个适配器,得到训练好的提示词向量以及多个适配器,包括:基于各目标图像的图像特征向量及其到对应的分类超平面上的投影点之间的相似度,确定损失函数中的原始项;基于各类别分类超平面中两两分类超平面之间的平面夹角确定正则项;基于所述原始项和所述正则项的和,确定损失函数,并基于所述损失函数更新所述提示词向量以及多个适配器,得到训练好的提示词向量以及多个适配器。

6、在其中一个实施例中,所述基于各目标图像的图像特征向量及其到对应的分类超平面上的投影点之间的相似度,确定损失函数中的原始项,包括:基于各目标图像的图像特征向量及其到各类别对应的分类超平面上的投影点之间的第一余弦相似度,确定各目标图像的图像特征向量属于各类别的分类概率;并基于所述各目标图像的图像特征向量属于各类别的分类概率,确定损失函数中的原始项;所述基于各类别分类超平面中两两分类超平面之间的平面夹角确定正则项,包括:基于各类别分类超平面中两两分类超平面之间的平面夹角对应的余弦相似度之和,确定正则项。

7、本专利技术还提供一种基于多模态模型的图像分类方法,包括:基于上述多模态模型的训练方法,确定训练好的提示词向量和多个适配器;基于所述训练好的提示词向量和多个适配器与待分类的图像的类别,确定文本语句;基于所述文本语句、待分类的图像,以及多模态模型,对待分类的图像进行分类。

8、本专利技术还提供一种多模态模型的训练装置,所述装置包括:第一确定模块,用于基于各目标图像和预设多模态模型确定各目标图像的图像特征向量;并基于各目标图像的类别、各目标图像分别对应的可学习的提示词向量、预设多模态模型,以及多个适配器,确定各目标图像分别对应的多个文本支持特征向量;所述多个适配器用于将提示词向量投影到不同语义空间;第二确定模块,用于基于各目标图像分别对应的多个文本支持特征向量,确定每种类别目标图像分别对应的分类超平面;处理模块,用于基于所述各目标图像的图像特征向量、所述各目标图像的图像特征向量在对应的分类超平面上的投影点,以及各类别分类超平面中两两分类超平面之间的平面夹角,确定损失函数;并基于所述损失函数更新所述提示词向量以及多个适配器,得到训练好的提示词向量以及多个适配器,用于输入预设多模态模型中进行图像分类。

9、本专利技术还提供一种基于多模态模型的图像分类装置,所述装置包括:第三确定模块,用于基于上述多模态模型的训练方法,确定训练好的提示词向量和多个适配器;第四确定模块,用于基于所述训练好的提示词向量和多个适配器与待分类的图像的类别,确定文本语句;分类模块,用于基于所述文本语句、待分类的图像,以及多模态模型,对待分类的图像进行分类。

10、本专利技术还提供计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述多模态模型的训练方法或所述基于多模态模型的图像分类方法的步骤。

11、本专利技术还提供存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述多模态模型的训练方法或所述基于多模态模型的图像分类方法的步骤。

12、上述多模态模型的训练及图像分类方法和装置,将各目标图像分别对应的可学习的提示词向量,经过多个适配器投影,得到丰富语义后的多个文本支持特征向量,从而丰富了单一文本特征向量的语义表达,更具泛化性与鲁棒性。并基于多个文本特征向量,得到各类别对应的分类超平面,从而实现将原来图像与文本之间的点对点映射,转换为当前的图像与文本之间的点对面映射,从而可以使基于各类别对应的分类超平面进一步确定的损失函数,训练得到最终的提示词向量和多个适配器,从而使基于训练好的提示词向量进行本文档来自技高网...

【技术保护点】

1.一种多模态模型的训练方法,其特征在于,所述方法包括:

2.如权利要求1所述的多模态模型的训练方法,其特征在于,所述基于各目标图像和预设多模态模型确定各目标图像的图像特征向量;并基于各目标图像的类别、各目标图像分别对应的可学习的提示词向量、预设多模态模型,以及多个适配器,确定各目标图像分别对应的多个文本支持特征向量,包括:

3.如权利要求1所述的多模态模型的训练方法,其特征在于,所述基于各目标图像分别对应的多个文本支持特征向量,确定每种类别目标图像分别对应的分类超平面,包括:

4.如权利要求1所述的多模态模型的训练方法,其特征在于,所述基于所述各目标图像的图像特征向量、所述各目标图像的图像特征向量在对应的分类超平面上的投影点,以及各类别分类超平面中两两分类超平面之间的平面夹角,确定损失函数;并基于所述损失函数更新所述提示词向量以及多个适配器,得到训练好的提示词向量以及多个适配器,包括:

5.如权利要求4所述的多模态模型的训练方法,其特征在于,所述基于各目标图像的图像特征向量及其到对应的分类超平面上的投影点之间的相似度,确定损失函数中的原始项,包括:基于各目标图像的图像特征向量及其到各类别对应的分类超平面上的投影点之间的第一余弦相似度,确定各目标图像的图像特征向量属于各类别的分类概率;并基于所述各目标图像的图像特征向量属于各类别的分类概率,确定损失函数中的原始项;

6.一种基于多模态模型的图像分类方法,其特征在于,包括:

7.一种多模态模型的训练装置,其特征在于,所述装置包括:

8.一种基于多模态模型的图像分类装置,其特征在于,所述装置包括:

9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项权利要求所述多模态模型的训练方法或权利要求6所述基于多模态模型的图像分类方法的步骤。

10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至5中任一项权利要求所述多模态模型的训练方法或权利要求6所述基于多模态模型的图像分类方法的步骤。

...

【技术特征摘要】

1.一种多模态模型的训练方法,其特征在于,所述方法包括:

2.如权利要求1所述的多模态模型的训练方法,其特征在于,所述基于各目标图像和预设多模态模型确定各目标图像的图像特征向量;并基于各目标图像的类别、各目标图像分别对应的可学习的提示词向量、预设多模态模型,以及多个适配器,确定各目标图像分别对应的多个文本支持特征向量,包括:

3.如权利要求1所述的多模态模型的训练方法,其特征在于,所述基于各目标图像分别对应的多个文本支持特征向量,确定每种类别目标图像分别对应的分类超平面,包括:

4.如权利要求1所述的多模态模型的训练方法,其特征在于,所述基于所述各目标图像的图像特征向量、所述各目标图像的图像特征向量在对应的分类超平面上的投影点,以及各类别分类超平面中两两分类超平面之间的平面夹角,确定损失函数;并基于所述损失函数更新所述提示词向量以及多个适配器,得到训练好的提示词向量以及多个适配器,包括:

5.如权利要求4所述的多模态模型的训练方法,其特征在于,所述基于各目标图像的图像特征向量及其到对应的分类超平面上的投影点之间的相似...

【专利技术属性】
技术研发人员:马占宇童煜钧常东良曹天伟
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1