System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及多模态向量检索领域,更具体的说是涉及一种多模态向量化模型的训练方法。
技术介绍
1、目前,利用深度学习方法解决跨模态图像、文本检索问题,一般的做法是通过多模态神经网络将图像文本信息映射到一维特征空间,计算图像和文本特征的相似度来对结果进行排序,从而实现跨模态图像-文本检索,因此现有技术中有公开号为cn118364256a,名称为一种多模态模型训练方法、系统及电子设备,便公开了一种多模态模型的训练方法,然而该方法在训练时主要依赖于图文对数据和对比损失(contrastive loss)进行训练。这种方法虽然在跨模态检索(如图搜文、文搜图)方面表现优异,但在单模态检索(如文搜文、图搜图)方面效果较差。
技术实现思路
1、针对现有技术存在的不足,本专利技术的目的在于提供一种在训练过程中同步优化图文单模态向量以及图文跨模态向量的训练方法。
2、为实现上述目的,本专利技术提供了如下技术方案:包括如下步骤:
3、步骤一,进行数据准备,收集图文对数据、文本对数据和图像对数据;
4、步骤二,构建一个统一的多模态向量化模型,能够同时处理文本和图像数据;
5、步骤三,构建损失函数;
6、步骤四,同时使用图文对数据、文本对数据和图像对数据进行两个阶段的训练。
7、作为本专利技术的进一步改进,所述步骤一中准备的图文对数据是指每条数据包含一个图像和与之相关的文本描述,这些数据用于跨模态训练,以帮助模型学习如何将图像和文本表
8、作为本专利技术的进一步改进,所述步骤一中准备的文本对数据是指每条数据包含两个相关的文本片段,这些数据用于单模态文本训练,帮助模型学习如何在文本匹配任务中表现出色,并在步骤四中第二阶段的训练时,通过大模型合成数据的方式为训练数据生成难负例,即根据训练文本生成文字相似但含义不同的数据。
9、作为本专利技术的进一步改进,所述步骤一中准备的图像对数据是指每条数据包含两个相关的图像,具体为从图像分类数据集中生成图像对数据,用于单模态图像训练,帮助模型学习如何在图像分类和特征提取任务中表现出色,并在步骤四模型训练的过程中,通过挑选难负例来增强训练,其中,挑选难负例的具体方法为通过步骤四中第一阶段训练得到模型来提取图像特征向量,然后计算两个不同分类类别标签的图像特征向量的cosine余弦相似度,保留相似度大于90%的图像作为难负例,具体的cosine余弦相似度的计算公式为:
10、
11、其中,ab 表示图像特征向量 a和 b 的点积,表示向量 a 的欧几里得范数,表示向量 b 的欧几里得范数。
12、作为本专利技术的进一步改进,所述步骤二中构建的多模态向量化模型包括:
13、图像编码器,用于提取图像的视觉特征,采用卷积神经网络或视觉transformers这些基于大规模数据预训练的图像处理技术实现;
14、文本编码器,用于提取文本的语义特征,采用基于注意力机制的transformer这些基于大规模数据预训练的自然语言处理技术实现。
15、作为本专利技术的进一步改进,所述步骤三中构建的损失函数包括图文对损失函数、文本对/图像对损失函数和基于难负例的文本对/图像对损失函数。
16、作为本专利技术的进一步改进,所述图文对损失函数如下:
17、
18、其中: 是第 i 个文本的文本语义特征向量, 是第 i 个图像的图像特征向量,sim(t,v) 是文本语义特征向量和图像特征向量之间的余弦相似度,τ 是可学习的温度参数,用于控制相似度值的缩放比例,n 则是训练时的数据批尺寸大小,通常推荐批尺寸越大越好,会有利于模型的泛化性,但也需要根据训练显存来调整。
19、作为本专利技术的进一步改进,所述文本对/图像对损失函数如下:
20、
21、其中: 和 分别表示第 i 个文本对或图像对的两个向量表示,sim(a,b) 表示两个向量之间的相似度。
22、作为本专利技术的进一步改进,所述基于难负例的文本对/图像对损失函数如下:
23、
24、λ是对难负例误判的加权系数,推荐值为0.5,为上述的原版损失函数。
25、作为本专利技术的进一步改进,所述步骤四中的训练的具体步骤如下:
26、步骤四一,在每一批次数据中混合使用图文对、文本对、图像对数据进行训练,优化向量化模型,初步提升图文模型的向量,对齐跨模态和单模态向量完成第一阶段训练;
27、步骤四二,添加难例样本进一步优化,并对文本对以及图像对的训练引入新的基于难负例的对比损失函数,提升模型提取细粒度特征的能力完成第二阶段训练;
28、其中,在每个训练步骤中,计算跨模态对比损失、纯模态损失函数,并将三个损失值求和之后作为总的损失值进行梯度计算以及反向传播。
29、本专利技术的有益效果,本专利技术提出了一种新的训练方法,通过在训练过程中引入文本对数据和图像对数据,并添加相应的文本对infonce损失和图像对infonce损失,从而同步优化单模态和跨模态的检索能力。最终得到的模型不仅在跨模态检索方面表现优异,同时在单模态检索方面也具有很强的能力,具有以下显著效果:
30、1、提高单模态检索能力:
31、通过引入文本对和图像对数据,以及相应的单模态对比损失,显著提升了模型在文搜文和图搜图任务中的表现。
32、2、增强跨模态检索能力:
33、保持了原有方法在图搜文和文搜图任务中的优秀表现。
34、3、综合性能提升:
35、模型在多种检索任务中都表现出色,可实现一个模型满足多种检索需求,节约算力成本和资源消耗,具有更广泛的应用场景。
本文档来自技高网...【技术保护点】
1.一种多模态向量化模型的训练方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的多模态向量化模型的训练方法,其特征在于:所述步骤一中准备的图文对数据是指每条数据包含一个图像和与之相关的文本描述,这些数据用于跨模态训练,以帮助模型学习如何将图像和文本表示对齐。
3.根据权利要求1或2所述的多模态向量化模型的训练方法,其特征在于:所述步骤一中准备的文本对数据是指每条数据包含两个相关的文本片段,这些数据用于单模态文本训练,帮助模型学习如何在文本匹配任务中表现出色,并在步骤四中第二阶段的训练时,通过大模型合成数据的方式为训练数据生成难负例,即根据训练文本生成文字相似但含义不同的数据。
4.根据权利要求1或2所述的多模态向量化模型的训练方法,其特征在于:所述步骤一中准备的图像对数据是指每条数据包含两个相关的图像,具体为从图像分类数据集中生成图像对数据,用于单模态图像训练,帮助模型学习如何在图像分类和特征提取任务中表现出色,并在步骤四模型训练的过程中,通过挑选难负例来增强训练,其中,挑选难负例的具体方法为通过步骤四中第一阶段训练得到模型来提取图像特
5.根据权利要求1或2所述的多模态向量化模型的训练方法,其特征在于:所述步骤二中构建的多模态向量化模型包括:
6.根据权利要求1或2所述的多模态向量化模型的训练方法,其特征在于:所述步骤三中构建的损失函数包括图文对损失函数、文本对/图像对损失函数和基于难负例的文本对/图像对损失函数。
7.根据权利要求6所述的多模态向量化模型的训练方法,其特征在于:所述图文对损失函数如下:
8.根据权利要求6所述的多模态向量化模型的训练方法,其特征在于:所述文本对/图像对损失函数如下:
9.根据权利要求6所述的多模态向量化模型的训练方法,其特征在于:所述基于难负例的文本对/图像对损失函数如下:
10.根据权利要求1或2所述的多模态向量化模型的训练方法,其特征在于:所述步骤四中的训练的具体步骤如下:
...【技术特征摘要】
1.一种多模态向量化模型的训练方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的多模态向量化模型的训练方法,其特征在于:所述步骤一中准备的图文对数据是指每条数据包含一个图像和与之相关的文本描述,这些数据用于跨模态训练,以帮助模型学习如何将图像和文本表示对齐。
3.根据权利要求1或2所述的多模态向量化模型的训练方法,其特征在于:所述步骤一中准备的文本对数据是指每条数据包含两个相关的文本片段,这些数据用于单模态文本训练,帮助模型学习如何在文本匹配任务中表现出色,并在步骤四中第二阶段的训练时,通过大模型合成数据的方式为训练数据生成难负例,即根据训练文本生成文字相似但含义不同的数据。
4.根据权利要求1或2所述的多模态向量化模型的训练方法,其特征在于:所述步骤一中准备的图像对数据是指每条数据包含两个相关的图像,具体为从图像分类数据集中生成图像对数据,用于单模态图像训练,帮助模型学习如何在图像分类和特征提取任务中表现出色,并在步骤四模型训练的过程中,通过挑选难负例来增强训练,其中,挑选难负例的具体方法为通过步...
【专利技术属性】
技术研发人员:刘鹏,赵天成,廖嘉佳,许若晨,余海,
申请(专利权)人:杭州联汇科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。