一种基于实时共享Transformer的多模态特征级融合方法技术

技术编号：44424878 阅读：4 留言：0更新日期：2025-02-28 18:39

本发明专利技术涉及一种基于实时共享Transformer的多模态特征级融合方法，涉及多模态数据处理技术领域。该方法包括：将图像信息、文本信息、语音信息分别传入到映射模块，得到三种编码切片的嵌入向量；将三种编码切片的嵌入向量分别传入到普通transformer编码模块，得到三种编码令牌；将三种编码令牌同时传入到实时共享transformer编码模块，得到三种共享编码；三种共享编码传入自适应性融合模块，得到一个包含所有模态信息的联合特征表示。该方法通过将多模态数据转换为嵌入向量，进行特征提取和编码之后，进行跨模态信息共享，最后在自适应性融合模块中整合所有模态的信息，实现将多模态信息更加全面有机地融合。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多模态数据处理，特别是涉及一种基于实时共享transformer的多模态特征级融合方法。

技术介绍

1、随着人工智能领域的快速发展，多模态数据处理技术在图像、文本、语音等不同模态的融合方面发挥了重要作用。传统的多模态处理方法通常将每个模态的数据独立处理，然后在后期阶段进行简单的拼接或加权融合。然而，这种方式容易导致信息不平衡问题，特别是在多模态特征之间缺乏实时共享与交互时，无法充分发挥每个模态的信息优势。

2、因此，现有技术在处理多模态数据时面临着如何在融合过程中有效利用各模态的互补特征以提高整体处理效果的挑战。

技术实现思路

1、基于此，有必要针对上述问题，提供一种基于实时共享transformer的多模态特征级融合方法。

2、本专利技术提供的一种基于实时共享transformer的多模态特征级融合方法，所述方法包括：

3、将图像信息、文本信息、语音信息分别传入到映射模块，进行切片操作和向量化处理，得到图像编码切片、文本编码切片和语音编码切片的嵌入向量；

4、将图像编码切片、文本编码切片和语音编码切片的嵌入向量分别传入到普通transformer编码模块，得到图像编码令牌、文本编码令牌和语音编码令牌；

5、将图像编码令牌、文本编码令牌和语音编码令牌同时传入到实时共享transformer编码模块，得到共享图像编码、共享文本编码和共享音频编码；

6、将共享图像编码、共享文本编码和共享音频编码传入自

7、在其中一个实施例中，将图像信息、文本信息和语音信息分别传入到映射模块，进行切片操作和向量化处理的步骤，包括：

8、对图像信息、文本信息、语音信息进行切分，得到图像编码切片、文本编码切片和语音编码切片；

9、将图像编码切片、文本编码切片和语音编码切片进行展平，得到图像编码切片、文本编码切片和语音编码切片的嵌入向量。

10、在其中一个实施例中，将图像编码切片、文本编码切片和语音编码切片的嵌入向量分别传入到普通transformer编码模块，获取图像编码令牌、文本编码令牌和语音编码令牌的步骤，包括：

11、将图像编码切片、文本编码切片和语音编码切片的嵌入向量进行多头自注意力机制处理，得到与多个令牌对应的综合注意力输出；

12、将多个令牌对应的综合注意力输出输入到前馈神经网络，得到图像编码令牌、文本编码令牌和语音编码令牌。

13、在其中一个实施例中，将图像编码切片、文本编码切片和语音编码切片的嵌入向量进行多头自注意力机制处理，得到各自的综合注意力输出的步骤，包括：

14、对图像编码切片、文本编码切片和语音编码切片的嵌入向量生成查询向量、键向量、值向量；

15、将生成的查询向量、键向量、值向量分别分割成多个注意力头，对多个注意力头并行计算，得到多个注意力头的注意力权重；

16、使用多个注意力头的注意力权重，根据其对应的值向量进行加权求和，得到各注意力头的输出；

17、将各注意力头的输出多头注意力的输出与原始输入令牌进行残差连接，并通过层归一化处理，得到与多个令牌对应的综合注意力输出。

18、在其中一个实施例中，将多个令牌对应的综合注意力输出输入到前馈神经网络，得到图像编码令牌、文本编码令牌和语音编码令牌的步骤，包括：

19、前馈神经网络对多个令牌对应的综合注意力输出进行线性变换和非线性激活，得到转换后的特征表示；

20、对转换后的特征表示进行残差连接和层归一化处理，最终得到各自的编码令牌。

21、在其中一个实施例中，将图像编码令牌、文本编码令牌和语音编码令牌同时传入到实时共享transformer编码模块以开展实时共享的编码，得到共享图像编码、共享文本编码和共享音频编码的步骤，包括：

22、通过第一实时共享层将图像模态的编码特征分享到文本模态和音频模态，将文本模态的编码特征分享到图像模态和音频模态，将音频模态的编码特征分享到图像模态和文本模态，得到图像编码令牌、文本编码令牌和音频编码令牌；

23、通过第二实时共享层的transformer block对图像编码令牌、文本编码令牌和音频编码令牌进行编码处理，得到共享图像编码、共享文本编码和共享音频编码。

24、在其中一个实施例中，所述第一实时共享层包括三个transformer block和一个通道叠加点。

25、在其中一个实施例中，所述第二实时共享层包括3个transformer block，每个transformer bloc包括一个vision transformer中的encoder构成。

26、在其中一个实施例中，将共享图像编码、共享文本编码和共享音频编码传入自适应性融合模块，得到一个包含所有模态信息的联合特征表示的步骤，包括：

27、采用聚类算法对输入的共享图像编码、共享文本编码和共享音频编码进行聚类，输出m种类别特征聚类；

28、采用自适应融合方法对每一种聚类内部的不同模态的特征向量融合为一个统一的特征向量，生成m个融合特征向量；

29、将m个融合特征向量按照进行叠加处理，生成单个多模态融合特征向量。

30、本专利技术还提供了一种基于实时共享transformer的多模态特征级融合系统，所述系统包括：

31、映射模块，包括切片操作和向量化处理，用于处理图像信息、文本信息、语音信息，以得到各自模态的嵌入向量；

32、普通transformer编码模块，包括transformer encoder编码器，用于根据三种模态的嵌入向量得到三种模态的普通编码令牌；

33、实时共享transformer编码模块，包括实时共享层和transformer block，用于三种模态的普通编码令牌得到三种模态间实时共享后的编码令牌；

34、自适应性融合模块，包括特征聚类层、第一自主融合操作和第二融合操作，用于根据三种模态间实时共享后的编码令牌得到多模态融合信息。

35、上述基于实时共享transformer的多模态特征级融合方法，通过将多模态数据(图像、文本、语音)转换为嵌入向量，然后通过transformer编码模块进行特征提取和编码，接着在实时共享transformer编码模块中进行跨模态信息共享，最后在自适应性融合模块中整合所有模态的信息，得到一个综合的特征表示，实现将多模态信息更加全面有机地融合，可以学习到更加细粒度的特征信息，并且其后续生成出的融合特征也能整合多模态数据的特征用于多种下游任务。

本文档来自技高网...

【技术保护点】

1.一种基于实时共享Transformer的多模态特征级融合方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于实时共享Transformer的多模态特征级融合方法，其特征在于，将图像信息、文本信息和语音信息分别传入到映射模块，进行切片操作和向量化处理的步骤，包括：

3.根据权利要求1所述的基于实时共享Transformer的多模态特征级融合方法，其特征在于，将图像编码切片、文本编码切片和语音编码切片的嵌入向量分别传入到普通transformer编码模块，获取图像编码令牌、文本编码令牌和语音编码令牌的步骤，包括：

4.根据权利要求3所述的基于实时共享Transformer的多模态特征级融合方法，其特征在于，将图像编码切片、文本编码切片和语音编码切片的嵌入向量进行多头自注意力机制处理，得到各自的综合注意力输出的步骤，包括：

5.根据权利要求4所述的基于实时共享Transformer的多模态特征级融合方法，其特征在于，将多个令牌对应的综合注意力输出输入到前馈神经网络，得到图像编码令牌、文本编码令牌和语音编码令牌的步骤，包括：</p>

6.根据权利要求1所述的基于实时共享Transformer的多模态特征级融合方法，其特征在于，将图像编码令牌、文本编码令牌和语音编码令牌同时传入到实时共享transformer编码模块以开展实时共享的编码，得到共享图像编码、共享文本编码和共享音频编码的步骤，包括：

7.根据权利要求6所述的基于实时共享Transformer的多模态特征级融合方法，其特征在于，所述第一实时共享层包括三个Transformer Block和一个通道叠加点。

8.根据权利要求6所述的基于实时共享Transformer的多模态特征级融合方法，其特征在于，所述第二实时共享层包括3个Transformer Block，每个Transformer Bloc包括一个vision transformer中的encoder构成。

9.根据权利要求1所述的基于实时共享Transformer的多模态特征级融合方法，其特征在于，将共享图像编码、共享文本编码和共享音频编码传入自适应性融合模块，得到一个包含所有模态信息的联合特征表示的步骤，包括：

10.一种基于实时共享Transformer的多模态特征级融合系统，应用于权利要求1-9任一项所述的一种基于实时共享Transformer的多模态特征级融合方法，其特征在于，所述系统包括：

...

【技术特征摘要】

1.一种基于实时共享transformer的多模态特征级融合方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于实时共享transformer的多模态特征级融合方法，其特征在于，将图像信息、文本信息和语音信息分别传入到映射模块，进行切片操作和向量化处理的步骤，包括：

3.根据权利要求1所述的基于实时共享transformer的多模态特征级融合方法，其特征在于，将图像编码切片、文本编码切片和语音编码切片的嵌入向量分别传入到普通transformer编码模块，获取图像编码令牌、文本编码令牌和语音编码令牌的步骤，包括：

4.根据权利要求3所述的基于实时共享transformer的多模态特征级融合方法，其特征在于，将图像编码切片、文本编码切片和语音编码切片的嵌入向量进行多头自注意力机制处理，得到各自的综合注意力输出的步骤，包括：

5.根据权利要求4所述的基于实时共享transformer的多模态特征级融合方法，其特征在于，将多个令牌对应的综合注意力输出输入到前馈神经网络，得到图像编码令牌、文本编码令牌和语音编码令牌的步骤，包括：

6.根据权利要求1所述的基于实时共享transformer的多模态特征级...

【专利技术属性】
技术研发人员：欧阳春，孟春雷，林炜，罗思齐，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人