System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及多模态信息学习,更具体地说,它涉及一种面向模态信息不平衡场景的多模态学习方法。
技术介绍
1、在多模态信息学习中,传统模型在面对模态信息不平衡时,往往会出现训练性能大幅下降的问题。不同模态的数据在数量、质量和特征分布上可能存在较大差异,导致模型难以充分利用各个模态的信息,影响多模态融合的效果和下游任务的性能。
技术实现思路
1、针对现有技术存在的不足,本专利技术的目的在于提供一种面向模态信息不平衡场景的多模态学习方法。
2、为实现上述目的,本专利技术提供了如下技术方案:
3、一种面向模态信息不平衡场景的多模态学习方法,包括预训练阶段和下游任务阶段;
4、所述预训练阶段包括数据采集与数据集构建、传入映射模块mapping_module获取编码向量、联合表征向量化操作、随机掩码与transformer模块处理以及训练生成多模态融合模型m;
5、所述transformer模块由transformer编码模块和transformer解码模块组成;
6、所述下游任务阶段包括多模态信息输入与特征映射、联合表征向量化操作生成三元表征向量、多模态融合模型m训练。
7、优选的,所述数据采集与构建数据集,包括:
8、所述数据采集包括图像、文本、音频信息;
9、对采集到的信息进行预处理、特征提取、标注以及划分来完成数据集的构建,得到数据集包括图像数据集i1、文本数据集t1、音频数据集v1。
>10、优选的,所述传入映射模块mapping_module获取编码向量,包括:
11、所述映射模块mapping_module能够接收不同模态的数据并输出统一形式的编码向量;
12、确定映射模块mapping_module结构,映射模块mapping_module由针对不同模态的特定特征提取器组成;
13、对于图像数据,选择预训练的卷积神经网络,去除最后的分类层,作为图像特征提取器;
14、对于文本数据,选择预训练的语言模型,作为文本特征提取器;
15、对于音频数据,选择基于梅尔频率倒谱系数的神经网络模型,作为音频特征提取器;
16、将图像数据集i1、文本数据集t1、音频数据集v1分别传入映射模块mapping_module,得到对应的编码向量i_patches、t_patches以及v_patches;
17、将图像数据集i1逐批输入到映射模块mapping_module中的图像特征提取部分,得到图像编码向量i_patches;
18、将文本数据集t1逐批输入到映射模块mapping_module中的文本特征提取部分,得到文本编码向量t_patches;
19、将音频数据集v1逐批输入到映射模块mapping_module中的音频特征提取部分,得到音频编码向量v_patches。
20、优选的,所述联合表征向量化操作,包括:
21、根据位置信息、上下文关联性、像素相似性对三种编码向量i_patches、t_patches、v_patches进行联合表征向量化操作;
22、将三种编码向量采用简单拼接的组合方式进行组合,形成n组三元表征向量(i,t,v);
23、将n组三元表征向量直接拼接在一起,形成维度向量f;
24、如果拼接后的维度向量f维度过高,会导致计算复杂度增加和过拟合的风险,则对维度向量f进行降维处理,得到降维后的维度向量f;
25、为了使不同维度的特征具有可比性,对降维后的维度向量f进行归一化处理,得到归一化后的维度向量f,即为最终的维度向量f。
26、优选的,所述随机掩码与transformer模块处理,包括:
27、对于n组三元表征向量,以掩码率x随机选择其中的一部分进行掩码;将经过随机掩码后的三元表征向量组合在一起,形成一个新的向量f_m;
28、将f_m传入transformer编码模块,获取编码令牌f_mask_tokens;
29、确定transformer编码模块的超参数,包括层数、隐藏层维度、注意力头数;
30、根据超参数构建transformer编码器,每个编码器层由多头自注意力机制和前馈神经网络组成;
31、在每个编码器层中,首先通过多头自注意力机制对输入向量进行处理,捕捉不同位置之间的依赖关系;然后通过前馈神经网络对注意力机制的输出进行进一步的处理,提取更高级的特征;经过多个编码器层的处理后,得到编码后的向量f_mask_tokens;
32、通过transformer解码模块复原被随机掩盖的三元表征向量,形成维度向量f_re;
33、确定transformer解码模块的超参数,包括层数、隐藏层维度、注意力头数;
34、根据超参数构建transformer解码器,每个解码器层由掩码多头自注意力机制、编码器-解码器注意力机制和前馈神经网络组成;
35、在每个解码器层中,首先通过多头自注意力机制对已经解码的部分进行处理,捕捉其内部的依赖关系;然后通过编码器-解码器注意力机制对编码令牌进行处理,获取被掩码部分的信息;最后通过前馈神经网络对注意力机制的输出进行进一步的处理;经过多个解码器层的迭代处理,逐步复原被随机掩盖的三元表征向量,形成维度向量f_re。
36、优选的,所述训练生成多模态融合模型m包括定义损失函数、优化模型参数、评估模型性能、重复训练过程以及生成多模态融合模型m;
37、所述定义损失函数使用均方误差、交叉熵等损失函数来衡量模型的输出与真实值之间的差异;
38、所述优化模型参数使用随机梯度下降优化算法来更新模型的参数,以最小化损失函数;
39、所述评估模型性能,在训练过程中,定期使用验证集来评估模型的性能;
40、所述重复训练过程不断调整超参数、改进模型结构和训练策略,重复训练过程,直到模型在验证集上的性能达到预期;
41、所述生成多模态融合模型m,当模型在验证集上的性能达到一定的要求时,可以认为模型已经训练完成;将训练好的模型保存下来,作为具备处理模态不平衡能力的多模态融合模型m。
42、优选的,所述多模态信息输入与特征映射,包括:
43、收集用于下游任务的图像、文本、音频构成的多模态信息;
44、将收集的多模态信息分别输入到映射模块mapping_module中,提取特征后获得统一的编码向量i_patches、t_patches以及v_patches。
45、优选的,所述联合表征向量化操作生成三元表征向量,包括:
46、根据位置信息、上下文关联性和像素相似性对三种编码向量进行联合表征;
47、对三种编码向量进行联合表征向量化操作,组成m组三元表征向量(i,本文档来自技高网...
【技术保护点】
1.一种面向模态信息不平衡场景的多模态学习方法,其特征在于,包括预训练阶段和下游任务阶段;
2.根据权利要求1所述的一种面向模态信息不平衡场景的多模态学习方法,其特征在于,所述数据采集与构建数据集,包括:
3.根据权利要求2所述的一种面向模态信息不平衡场景的多模态学习方法,其特征在于,所述传入映射模块Mapping_Module获取编码向量,包括:
4.根据权利要求3所述的一种面向模态信息不平衡场景的多模态学习方法,其特征在于,所述联合表征向量化操作,包括:
5.根据权利要求4所述的一种面向模态信息不平衡场景的多模态学习方法,其特征在于,所述随机掩码与Transformer模块处理,包括:
6.根据权利要求5所述的一种面向模态信息不平衡场景的多模态学习方法,其特征在于,所述训练生成多模态融合模型M包括定义损失函数、优化模型参数、评估模型性能、重复训练过程以及生成多模态融合模型M;
7.根据权利要求6所述的一种面向模态信息不平衡场景的多模态学习方法,其特征在于,所述多模态信息输入与特征映射,包括:
9.根据权利要求8所述的一种面向模态信息不平衡场景的多模态学习方法,其特征在于,所述多模态融合模型M训练,包括:
...【技术特征摘要】
1.一种面向模态信息不平衡场景的多模态学习方法,其特征在于,包括预训练阶段和下游任务阶段;
2.根据权利要求1所述的一种面向模态信息不平衡场景的多模态学习方法,其特征在于,所述数据采集与构建数据集,包括:
3.根据权利要求2所述的一种面向模态信息不平衡场景的多模态学习方法,其特征在于,所述传入映射模块mapping_module获取编码向量,包括:
4.根据权利要求3所述的一种面向模态信息不平衡场景的多模态学习方法,其特征在于,所述联合表征向量化操作,包括:
5.根据权利要求4所述的一种面向模态信息不平衡场景的多模态学习方法,其特征在于,所述随机掩码与transform...
【专利技术属性】
技术研发人员:欧阳春,孟春雷,林炜,罗思齐,刘博文,
申请(专利权)人:复旦大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。