基于强化反馈的链式推理方法、系统、设备及介质技术方案

技术编号：44913253 阅读：13 留言：0更新日期：2025-04-08 18:56

本发明专利技术属于链式推理技术领域，具体涉及基于教师模型强化反馈的链式推理方法、系统、设备及介质。针对现有融合多模态信息的链式推理模型的准确性和可靠性不佳的不足，本发明专利技术采用如下技术方案：基于教师模型强化反馈的链式推理方法包括：获取用于模型训练的多模态数据集；对所述多模态数据集中每个样本问题的链式推理过程进行建模；通过教师模型GPT‑4优化链式推理模型的推理能力；在强化学习优化后的模型基础上，使用教师模型GPT‑4对推理链中的错误或不完整部分进行纠正，随后进行监督微调，进一步稳定模型性能，最终形成增强的多模态链式推理模型。本发明专利技术的方法，能够在推理复杂问题时，保持较高的稳定性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于链式推理，具体涉及基于强化反馈的链式推理方法、系统、设备及介质。

技术介绍

1、随着人工智的飞速发展，多模态数据(如文本和图像)处理已成为智能系统的重要研究方向。在许多应用中，如科学问答、知识图谱构建等，需要模型能够同时处理来自多种模态的信息，并通过链式推理生成逻辑连贯的推理步骤。然而，由于多模态数据的复杂性和信息的不对称性，现有模型在推理过程中往往难以有效整合多模态信息，也因此未能生成高质量的推理链。

2、目前，处理多模态链式推理的常用方法主要依赖于预训练的深度学习模型，通过直接生成推理步骤来推导最终的答案。这些方法虽然在一定程度上能够解决多模态信息的融合问题，但仍存在以下明显不足：首先，现有模型往往缺乏对推理过程的精细监督，容易在推理链中生成逻辑不连贯或错误的步骤；其次，模型缺乏有效的纠错机制，导致一旦出现推理错误，后续步骤难以纠正，最终影响整体推理的准确性和可靠性。此外，多模态特征之间的关联性在现有模型中未得到充分利用，这进一步限制了模型在复杂任务中的表现。

技术实现思路

1、本专利技术针对现有融合多模态信息的链式推理模型的准确性和可靠性不佳的不足，提供一种基于强化反馈的链式推理方法，提升链式推理模型在处理多模态信息时的准确性和可靠性。本专利技术同时提供一种基于强化反馈的系统、计算机设备及计算机可读存储介质。

2、为实现上述目的，本专利技术采用如下技术方案：基于教师模型强化反馈的链式推理方法，所述基于教师模型强化反馈的链式推理方法包括：</p>

3、步骤s1、获取用于模型训练的多模态数据集，所述多模态数据集包括多个样本问题，每个样本问题配有文本模态信息、图像模态信息和多个答案选项，并定义算法目标；

4、步骤s2、对所述多模态数据集中每个样本问题的链式推理过程进行建模，使用链式推理模型对问题进行推理，得到样本问题的初始推理链，链式推理过程包括基于文本和图像特征生成的推理步骤；

5、步骤s3、通过教师模型gpt-4优化链式推理模型的推理能力，使其更倾向于生成高评分的推理步骤；

6、步骤s4、在强化学习优化后的模型基础上，使用教师模型gpt-4对推理链中的错误或不完整部分进行纠正，随后进行监督微调，进一步稳定模型性能，最终形成增强的多模态链式推理模型。

7、本专利技术的基于教师模型强化反馈的链式推理方法，结合了多模态特征表示与教师模型评分机制，能够有效提升推理链的生成质量；强化学习与监督微调的结合，使得模型能够在推理复杂问题时，保持较高的稳定性和准确性。本专利技术的方法在智能问答、复杂推理等多模态任务中具有良好的应用前景。

8、作为改进，定义算法目标为：当给定样本问题q、对应的多模态信息c＝{ctext,cimage}和答案选项集合o＝{o1,o2,…,ok}，生成链式推理步骤r＝{r1,r2,…,rp}，并最终选择答案选项集合中的最优答案作为模型输出。

9、作为改进，步骤s2中，

10、将样本问题的文本ctext输入预训练的文本编码器，提取该文本的特征表示ftext＝{ftext1,ftext2,…,ftextm}；

11、将样本问题的图像cimage输入预训练的图像编码器，得到图像特征表示fimage＝{fimage1,fimage2,…,fimagem}；

12、将提取的多模态特征ftext和fimage输入链式推理生成模型，链式推理生成模型基于这些特征生成初始推理链r＝{r1,r2,…,rp}。

13、作为改进，步骤s3包括：

14、步骤s31、根据当前生成的推理链步骤rt＝{r1,r2,…,rt}，使用教师模型gpt-4对每个推理步骤进行评分，评分结果表示为st＝{s1,s2,…,st}；

15、步骤s32、根据得到的评分结果st，通过强化学习算法优化模型的策略；

16、步骤s33、在优化过程中，使用近端策略优化算法更新模型参数，使得生成的推理链步骤更加倾向于获得高评分。

17、作为改进，步骤s32中，定义奖励函数为每个步骤的累计评分：

18、

19、优化目标是最大化这个累计评分rt，对应的损失函数为：

20、

21、其中，πθ是模型的策略函数，θ是模型的参数，表示在策略πθ下的期望值。

22、作为改进，步骤s33中，近端策略优化算法的优化过程表示为：

23、

24、其中，是优势函数，用于衡量当前策略相对于基准策略的改进效果，为使最大的参数θ；

25、通过迭代优化，使链式推理模型逐渐生成更符合评分标准的推理链，最终选择得分最高的推理步骤进行答案推导。

26、作为改进，步骤s4包括：

27、步骤s41、在强化学习优化后的模型基础上，通过教师模型gpt-4对生成的推理链中的每个步骤进行检查，识别出错误或不完整的部分，并生成相应的纠正建议c＝{c1,c2,…,cp}；

28、步骤s42、将得到的纠正建议cp与初始推理链结合，生成修正后的推理链r′＝r′1,r′2,…,r′p；

29、步骤s43、对修正后的推理链r′进行监督微调，定义损失函数lsft为修正前后推理链的差异：

30、

31、其中，θ为模型的参数，

32、步骤s44、通过反向传播算法最小化损失函数lsft，更新模型参数：

33、

34、其中，η为学习率，θ表示当前模型的参数，θnew表示更新后的参数，表示当前参数θ下损失函数lsft对θ的梯度；

35、步骤s45、经过若干次迭代训练，最终形成增强的多模态链式推理模型，使其在处理复杂多模态任务时具备更强的推理能力和稳定性。

36、基于教师模型强化反馈的链式推理系统，所述基于教师模型强化反馈的链式推理系统包括：

37、数据获取模块，用于获取用于模型训练的多模态数据集，所述多模态数据集包括多个样本问题，每个样本问题配有文本模态信息、图像模态信息和多个答案选项；

38、算法目标模块，用于定义算法目标；

39、初始推理模块，用于对所述多模态数据集中每个样本问题的链式推理过程进行建模，使用链式推理模型对问题进行推理，得到样本问题的初始推理链，链式推理过程包括基于文本和图像特征生成的推理步骤；

40、优化模块，用于通过教师模型gpt-4优化链式推理模型的推理能力，使其更倾向于生成高评分的推理步骤；

41、纠正模块，用于在强化学习优化后的模型基础上，使用教师模型gpt-4对推理链中的错误或不完整部分进行纠正；

42、监督微调模块，用于进行监督微调，进一步稳定模型性能，最终形成增强的多模态链式推理模型。

43、计算机设备，包括处理器和存储介质，存储介质中存储有计算机程序，计算机程序被处理器执行时实现前述的基于教师模型强化反馈本文档来自技高网...

【技术保护点】

1.基于教师模型强化反馈的链式推理方法，其特征在于：所述基于教师模型强化反馈的链式推理方法包括：

2.根据权利要求1所述的基于教师模型强化反馈的链式推理方法，其特征在于：定义算法目标为：当给定样本问题q、对应的多模态信息c＝{ctext,cimage}和答案选项集合o＝{o1,o2,…,oK}，生成链式推理步骤r＝{r1,r2,…,rP}，并最终选择答案选项集合中的最优答案作为模型输出，ctext表示文本模态信息，cimage表示图像模态信息。

3.根据权利要求2所述的基于教师模型强化反馈的链式推理方法，其特征在于：步骤S2中，将样本问题的文本ctext输入预训练的文本编码器，提取该文本的特征表示Ftext＝{ftext1,ftext2,…,ftextM}；

4.根据权利要求3所述的基于教师模型强化反馈的链式推理方法，其特征在于：步骤S3包括：

5.根据权利要求4所述的基于教师模型强化反馈的链式推理方法，其特征在于：步骤S32中，定义奖励函数为每个步骤的累计评分：

6.根据权利要求5所述的基于教师模型强化反馈的链式推理方

7.根据权利要求6所述的基于教师模型强化反馈的链式推理方法，其特征在于：步骤S4包括：

8.基于教师模型强化反馈的链式推理系统，其特征在于：所述基于教师模型强化反馈的链式推理系统包括：

9.计算机设备，包括处理器和存储介质，存储介质中存储有计算机程序，其特征在于：计算机程序被处理器执行时实现权利要求1至7中任一所述的基于教师模型强化反馈的链式推理方法。

10.计算机可读存储介质，其特征在于：其上存储有计算机程序，当计算机程序被执行时，实现权利要求1至7中任一所述的基于教师模型强化反馈的链式推理方法。

...

【技术特征摘要】

1.基于教师模型强化反馈的链式推理方法，其特征在于：所述基于教师模型强化反馈的链式推理方法包括：

2.根据权利要求1所述的基于教师模型强化反馈的链式推理方法，其特征在于：定义算法目标为：当给定样本问题q、对应的多模态信息c＝{ctext,cimage}和答案选项集合o＝{o1,o2,…,ok}，生成链式推理步骤r＝{r1,r2,…,rp}，并最终选择答案选项集合中的最优答案作为模型输出，ctext表示文本模态信息，cimage表示图像模态信息。

3.根据权利要求2所述的基于教师模型强化反馈的链式推理方法，其特征在于：步骤s2中，将样本问题的文本ctext输入预训练的文本编码器，提取该文本的特征表示ftext＝{ftext1,ftext2,…,ftextm}；

4.根据权利要求3所述的基于教师模型强化反馈的链式推理方法，其特征在于：步骤s3包括：

5...

【专利技术属性】
技术研发人员：张彩，杨涛，赵洲，韩嘉佳，孙翔，张瑞敏，李思雯，金涛，童凯，严伟才，陈建梅，徐珂，
申请(专利权)人：国网浙江省电力有限公司电力科学研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人