一种多模态大语言模型的大小模型协同训练方法及装置制造方法及图纸

技术编号：44457142 阅读：1 留言：0更新日期：2025-02-28 19:04

本发明专利技术提供一种多模态大语言模型的大小模型协同训练方法及装置，该方法包括：将图像、视频、音频等多模态样本输入多模态共享编码器生成多模态令牌；将文本样本输入文本编码器得到文本令牌；将不同模态的多模态令牌与文本令牌相结合，通过预训练的小型多模态大语言模型前向蒸馏预训练的大型多模态大语言模型并训练投影层得到训练后的投影层，该投影层连接于小型和大型多模态大语言模型之间；利用训练后的投影层和预训练的大型多模态大语言模型反向蒸馏小型多模态大语言模型，由此训练过程同时得到训练后的大型和小型多模态大语言模型。不仅提升了大型多模态大语言模型的跨模态对齐能力，还通过知识蒸馏增强了小型多模态大语言模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种多模态大语言模型的大小模型协同训练方法及装置。

技术介绍

1、近年来，多模态大规模预训练模型在人工智能领域取得了重大突破。这些模型通过整合视觉和语言信息，在图像描述、视觉问答等复杂任务中表现出色。然而，现有的多模态大语言模型（multimodal-large-language-models，mllm）通常有两条独立的研究路径：一种是通过扩展模型规模来提高性能，另一种是通过剪枝等方法减少参数，以适应计算资源有限的环境。这两种路径的独立性导致了训练策略的效率低下，且模型间的互联性较差，未能充分利用大模型和小模型各自的优势。

技术实现思路

1、本专利技术提供一种多模态大语言模型的大小模型协同训练方法及装置，用以解决现有技术中多模态大语言模型训练策略的效率低下，且模型间的互联性较差，未能充分利用大模型和小模型各自的优势的缺陷，实现大型多模态大语言模型和小型多模态大语言模型的协同训练。本专利技术提出的技术方案如下：

2、第一方面，本专利技术提供一种多模态大语言模型的大小模型协同训练方法，包括：

3、获取多模态大语言模型、多模态样本和文本样本；其中，多模态大语言模型包括多模态共享编码器、文本编码器、预训练的小型多模态大语言模型和预训练的大型多模态大语言模型，小型多模态大语言模型和大型多模态大语言模型之间通过投影层连接对齐，多模态样本为图像、视频和音频的组合；

4、将多模态样本输入所述多模态共享编码器，生成多模态令牌；</p>

5、将文本样本输入所述文本编码器，得到文本令牌；

6、将多模态令牌与文本令牌相结合，通过预训练的小型多模态大语言模型前向蒸馏所述预训练的大型多模态大语言模型并训练投影层，得到训练后的投影层；

7、利用训练后的投影层和预训练的大型多模态大语言模型，反向蒸馏所述预训练的小型多模态大语言模型，得到训练后的大型多模态大语言模型和训练后的小型多模态大语言模型。

8、可选地，所述将多模态令牌与文本令牌相结合，通过预训练的小型多模态大语言模型前向蒸馏所述预训练的大型多模态大语言模型并训练投影层，得到训练后的投影层，包括：

9、小型多模态大语言模型基于多模态令牌和文本令牌生成相应的文本描述；

10、投影层将多模态令牌与文本令牌进行空间对齐，生成对齐后的多模态特征；

11、大型多模态大语言模型基于对齐后的多模态特征生成相应的文本描述；

12、基于预先构建的第一损失函数和生成的文本描述，计算第一总损失；

13、使用优化算法更新投影层的参数以最小化第一总损失，得到训练后的投影层。

14、可选地，所述基于预先构建的第一损失函数和生成的文本描述，计算第一总损失，包括：

15、计算小型多模态大语言模型生成的文本描述与文本样本的真实标签之间的差异，得到第一字幕损失；

16、计算小型多模态大语言模型生成的文本描述的概率分布与大型多模态大语言模型生成的文本描述的概率分布之间的kl散度，得到前向kld损失；

17、将所述第一字幕损失和所述前向kld损失输入预先构建的第一损失函数，得到所述第一总损失。

18、可选地，所述利用训练后的投影层和预训练的大型多模态大语言模型，反向蒸馏所述预训练的小型多模态大语言模型，得到训练后的大型多模态大语言模型和训练后的小型多模态大语言模型，包括：

19、小型多模态大语言模型基于多模态令牌和文本令牌生成相应的文本描述；

20、使用训练后的投影层将多模态令牌与文本令牌进行空间对齐，生成对齐后的多模态特征；

21、大型多模态大语言模型基于对齐后的多模态特征生成相应的文本描述；

22、基于预先构建的第二损失函数和生成的文本描述，计算第二总损失；

23、使用优化算法更新所述预训练的小型多模态大语言模型的参数和所述预训练的大型多模态大语言模型的参数以最小化第二总损失，得到训练后的大型多模态大语言模型和训练后的小型多模态大语言模型。

24、可选地，所述基于预先构建的第二损失函数和生成的文本描述，计算第二总损失，包括：

25、计算大型多模态大语言模型生成的文本描述与文本样本的真实标签之间的差异，得到第二字幕损失；

26、计算大型多模态大语言模型生成的文本描述的概率分布与小型多模态大语言模型生成的文本描述的概率分布之间的kl散度，得到反向kld损失；

27、将所述第二字幕损失和所述反向kld损失输入预先构建的第二损失函数，得到所述第二总损失。

28、可选地，所述多模态令牌包括第一视觉令牌、第二视觉令牌和第三视觉令牌，所述多模态共享编码器包括图像分词器、视频分词器、音频分词器和视觉编码器；

29、所述将多模态样本输入所述多模态共享编码器，生成多模态令牌，包括：

30、图像分词器将图像分割成多个区域得到第一图像序列，视觉编码器对第一图像序列进行编码得到第一视觉令牌；

31、视频分词器从视频中抽取出多个视频帧，并将每一视频帧分割成多个区域得到第二图像序列，视觉编码器对第二图像序列进行编码得到对应的嵌入表示，把多个视频帧的嵌入表示进行拼接得到第二视觉令牌；

32、音频分词器将音频转换为多张梅尔频谱图，并将每一梅尔频谱图分割成多个区域得到第三图像序列，视觉编码器对第三图像序列进行编码得到嵌入表示，把多张梅尔频谱图的嵌入表示进行拼接得到第三视觉令牌。

33、第二方面，本专利技术还提供一种多模态大语言模型的大小模型协同训练装置，包括：

34、获取模块，用于获取多模态大语言模型、多模态样本和文本样本；其中，多模态大语言模型包括多模态共享编码器、文本编码器、预训练的小型多模态大语言模型和预训练的大型多模态大语言模型，小型多模态大语言模型和大型多模态大语言模型之间通过投影层连接对齐，多模态样本为图像、视频和音频的组合；

35、多模态编码模块，用于将多模态样本输入所述多模态共享编码器，生成多模态令牌；

36、文本编码模块，用于将文本样本输入所述文本编码器，得到文本令牌；

37、前向蒸馏模块，用于将多模态令牌与文本令牌相结合，通过预训练的小型多模态大语言模型前向蒸馏所述预训练的大型多模态大语言模型并训练投影层，得到训练后的投影层；

38、反向蒸馏模块，用于利用训练后的投影层和预训练的大型多模态大语言模型，反向蒸馏所述预训练的小型多模态大语言模型，得到训练后的大型多模态大语言模型和训练后的小型多模态大语言模型。

39、第三方面，本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述多模态大语言模型的大小模型协同训练方法。

40、第四方面，本专利技术还提供一种非暂态计算机可读存储介质，其上存储本文档来自技高网...

【技术保护点】

1.一种多模态大语言模型的大小模型协同训练方法，其特征在于，包括：

2.根据权利要求1所述的多模态大语言模型的大小模型协同训练方法，其特征在于，所述将多模态令牌与文本令牌相结合，通过预训练的小型多模态大语言模型前向蒸馏所述预训练的大型多模态大语言模型并训练投影层，得到训练后的投影层，包括：

3.根据权利要求2所述的多模态大语言模型的大小模型协同训练方法，其特征在于，所述基于预先构建的第一损失函数和生成的文本描述，计算第一总损失，包括：

4.根据权利要求1所述的多模态大语言模型的大小模型协同训练方法，其特征在于，所述利用训练后的投影层和预训练的大型多模态大语言模型，反向蒸馏所述预训练的小型多模态大语言模型，得到训练后的大型多模态大语言模型和训练后的小型多模态大语言模型，包括：

5.根据权利要求4所述的多模态大语言模型的大小模型协同训练方法，其特征在于，所述基于预先构建的第二损失函数和生成的文本描述，计算第二总损失，包括：

6.根据权利要求1所述的多模态大语言模型的大小模型协同训练方法，其特征在于，所述多模态令牌包括第一视觉

7.一种多模态大语言模型的大小模型协同训练装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述多模态大语言模型的大小模型协同训练方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述多模态大语言模型的大小模型协同训练方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述多模态大语言模型的大小模型协同训练方法。

...

【技术特征摘要】

1.一种多模态大语言模型的大小模型协同训练方法，其特征在于，包括：

5.根据权利要求4所述的多模态大语言模型的大小模型协同训练方法，其特征在于，所述基于预先构建的第二损失函数和生成的文本描述，计算第二总损失，...

【专利技术属性】
技术研发人员：郭龙腾，刘静，卢诗晨，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人