一种基于思维链引导的多模态大模型自增强学习方法技术

技术编号：44739161 阅读：19 留言：0更新日期：2025-03-21 18:06

本发明专利技术涉及一种基于思维链引导的多模态大模型自增强学习方法，本发明专利技术其核心在于通过模型自生成的思维链迭代的微调模型，低成本地解决多模态模型复杂推理能力差的问题。本方法首次提出基于思维链引导的多模态大模型自增强学习方法，通过现有视觉推理问答数据集，引导多模态模型生成准确的思维链，从而构建高质量的复杂推理微调数据集，迭代地增强多模态模型的复杂推理能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于思维链引导的多模态大模型自增强学习方法，属于视觉推理问答。

技术介绍

1、视觉问答任务是一种涉及自然语言处理和计算机视觉的问答任务，通常以一张图片和有关图像视觉内容的自然语言文本问题作为输入，经过视觉问答模型，输出一个自然语言形式的答案。

2、视觉推理问答是视觉问答领域的子任务，不仅要求模型能接受和理解视觉内容和自然语言文本，还要求视觉问答模型具有一定的推理能力。譬如，输入一张苹果的照片给视觉问答模型，并询问它“与图片中的水果最相关的十七世纪的科学家是谁？”，模型首先要判断出图片中的水果是苹果，并需要知道十七世纪科学家中牛顿因为苹果发现万有引力的故事。具有推理能力的视觉问答模型，在实际应用上具有巨大潜力，譬如视觉搜索引擎等。

3、随着大型语言模型的发展，多模态大型语言模型近年来在各类开放式的多模态理解任务上都显示出了惊人的表现。但在视觉相关的长文本生成任务和涉及复杂推理的视觉推理问答任务上，随着生成文本长度的增加，模型对于视觉输入的注意力减弱，生成错误内容的概率增加。

4、为了增强大型语言模型的可解释性，模拟人类慢思考模式的推理链生成策略被提出。推理链生成策略具体是指在模型生成回答过程中，引导模型在解码过程中先给出推理步骤，再得到最终答案的生成策略。譬如上文提到问题中，识别图片中的水果为苹果，通过苹果联想到牛顿因为苹果发现万有引力的故事，从而回答牛顿的整个过程就是回答该问题的思维链。

5、但将思维链直接应用到多模态语言模型上，随着生成的推理链长度增加，视觉内容

6、综上所述，如何低成本的获得高质量复杂推理数据集的是一个值得深入研究的课题，本专题就思维链与模型自增强方向切入展开探讨，解决目前方法存在的难点和重点，形成一套完整的基于思维链引导的多模态大模型自增强学习方法。

技术实现思路

1、为了克服现有研究的不足，本专利技术提供了一种基于思维链引导的多模态大模型自增强学习方法，其核心在于通过模型自生成的思维链迭代的微调模型，低成本地解决多模态模型复杂推理能力差的问题。本方法首次提出基于思维链引导的多模态大模型自增强方法，通过现有视觉推理问答数据集，引导多模态模型生成准确的思维链，从而构建高质量的复杂推理微调数据集，迭代地增强多模态模型的复杂推理能力。

2、一种基于思维链引导的多模态大模型自增强学习方法，包括以下步骤：

3、步骤一：收集多模态问答数据集；

4、步骤二：构建目标模型与验证模型；

5、步骤三：使用提示词引导目标模型生成思维链微调数据集；

6、步骤四：微调目标模型；

7、步骤五：在微调后的目标模型上，重复步骤三-四，直至目标模型性能收敛。

8、作为优选，所述步骤一具体如下：

9、收集现有的多模态问答数据集其中vi表示图片，qi表示与图片内容相关的自然语言问题，ai表示问题对应的答案，nd表示数据集中的样本数。

10、作为优选，所述步骤二具体如下：

11、使用预先训练好的多模态大模型作为目标模型m与验证模型y，目标模型m与验证模型y初始结构和模型参数应保持一致。

12、作为优选，所述步骤三具体如下：

13、3.1：取多模态问答数据集d中的每一个多模态问答数据实例(qi,vi,ai)，构建引导模型生成思维链的提示词。引导模型生成思维链提示词由任务定义t，示例模板e和输入数据ii三部分组成。

14、任务定义t用于提示模型按照输出模板生成推理过程；示例模板e作为模板提示模型输出的具体内容；输入数据ii由数据集d中的一个样本实例(qi,vi,ai)套入示例模板e获得。任务定义t，示例模板e和输入数据ii三部分拼接获得该样本的思维链提示词pi

15、3.2：思维链提示词pi输入目标模型m中获得n条不同的思维链验证模型y将筛选思维链合集c中错误的内容，并整合n条思维链的信息至一条最终思维链fi中。

16、多模态问答数据集d的所有样本生成的最终思维链fi构成思维链微调数据集

17、作为优选，所述步骤四具体如下：

18、使用思维链微调数据集微调目标模型m'。

19、作为优选，所述步骤五具体如下：

20、在复杂推理数据集上验证更新后的目标模型m'的性能，若目标模型m的性能还未收敛，则用m'更新目标模型m并重复步骤三-四,直至目标模型m性能收敛。

21、与现有技术相比，本专利技术的有益效果在于：

22、本专利技术在现有视觉推理问答数据上，通过现有人类注释引导多模态模型生成高质量的思维链，来构造复杂推理数据集。构造的复杂推理数据集被用来微调模型本身，并有选择地将上述过程重复多次，迭代地增强多模态模型在视觉问答推理任务上的能力，不需要消耗其他额外的人力财力。

23、本专利技术所提出的一种基于思维链引导的多模态大模型自增强学习方法，通过使用现有的视觉问答数据集中的人类注释，低成本且有效地引导模型生成准确的思维链微调数据集，使模型学习自己生成的思维链，提升模型的复杂推理任务。

本文档来自技高网...

【技术保护点】

1.一种基于思维链引导的多模态大模型自增强学习方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于思维链引导的多模态大模型自增强学习方法，其特征在于：所述步骤一中数据集D是由OK-VQA、A-OKVQA、GQA和OCRVQA四个数据集组成的规模为40000个有人类标注样本的复杂推理数据集。

3.根据权利要求1所述的一种基于思维链引导的多模态大模型自增强学习方法，其特征在于：所述步骤二具体包括：

4.根据权利要求1所述的一种基于思维链引导的多模态大模型自增强学习方法，其特征在于：所述步骤三具体包括：

5.根据权利要求1所述的一种基于思维链引导的多模态大模型自增强学习方法，其特征在于：所述步骤四具体包括：

6.根据权利要求1所述的一种基于思维链引导的多模态大模型自增强学习方法，其特征在于：所述步骤五具体包括：

【技术特征摘要】

1.一种基于思维链引导的多模态大模型自增强学习方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于思维链引导的多模态大模型自增强学习方法，其特征在于：所述步骤一中数据集d是由ok-vqa、a-okvqa、gqa和ocrvqa四个数据集组成的规模为40000个有人类标注样本的复杂推理数据集。

3.根据权利要求1所述的一种基于思维链引导的多模态大模型自增强学...

【专利技术属性】
技术研发人员：余宙，欧阳雪城，俞俊，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人