System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及生成式智能体领域,尤其涉及一种基于长短期反馈强化学习的生成式智能体环境交互方法。
技术介绍
1、大语言模型(llm)已经越来越多地用于与外部环境(例如,游戏,编译器,api)进行交互,作为目标驱动的代理。llm在复杂的推理任务自然语言处理领域中表现出了巨大的潜力,自然而然地,llm出现后也被用于语言游戏。但仅仅只利用llm的语言理解能力来进行语言游戏的交互,暴露出一些llm在长回合推理能力上的不足。
2、现有中国专利cn117056519b涉及一种面向跨领域的立法意见综合报告自动生成方法, 其生成式智能体的反思能力基于人类干预,依旧采取传统的强化学习方法,普适性较差。由于llm参数量通常在数亿到数千亿之间,模型规模非常庞大,需要大量高性能计算资源进行训练和推理,普适性较差。
技术实现思路
1、本专利技术的目的在于:为了解决现有的基于强化学习的生成式智能体环境交互方法存在普适性差的问题,提供一种基于长短期反馈强化学习的生成式智能体环境交互方法。
2、本申请的上述目的是通过以下技术方案得以实现的:
3、s1:构建生成式智能体;通过生成式智能体观察环境,得到短时反馈;
4、s2:评估模块接收短时反馈,输出奖励信号;
5、s3:反思模块接收短时反馈和奖励信号,输出长期反馈;
6、s4:生成式智能体结合短时反馈和长期反馈进行动作决策,输出动作;
7、s5:环境接收动作,做出动作决策后,进入下一状态,
8、可选的,步骤s1包括:采用小语言模型slm构建生成式智能体。
9、可选的,所述短时反馈为长度l和维度n的序列数据,表示短时反馈有l个字符串,每个字符串都由一个长度为n的向量表示,即:
10、其中,表示短时反馈。
11、可选的,步骤s2包括:
12、奖励信号是评估智能体当前动作的质量的标准,通常用数字表示,定义-1、0、+1作为奖励信号的取值。通俗来说,评估者e的作用是对智能体执行当前动作打分:
13、
14、其中,表示短时反馈,表示评估模块,即评估者e;表示奖励信号。
15、可选的,步骤s3包括:
16、
17、其中,表示反思模块;表示长期反馈;表示短时反馈;表示奖励信号。
18、可选的,采用qlora微调方法,对生成式智能体进行微调,具体如下:
19、生成式智能体的微调目标与强化学习优化目标一致,即最大化累计奖励,按照强化学习方法计算目标函数:
20、
21、其中,是状态空间,是所有状态s的集合;是状态价值函数,代表在当前状态下累计奖励的期望;
22、状态价值函数不仅依赖于评估者e(评估模块)给定奖励,也依赖于用于决策的slm的参数,采用qlora微调,故
23、
24、其中,是原始的生成式智能体参数,需要冻结,是qlora微调方法额外加入的用于微调的参数量;
25、微调的目标为:
26、
27、在更新生成式智能体时,采用梯度上升算法以达到累计奖励最大化。
28、一种电子设备,包括处理器、存储器、用户接口及网络接口,所述存储器用于存储指令,所述用户接口和网络接口用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行一种基于长短期反馈强化学习的生成式智能体环境交互方法。
29、一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行一种基于长短期反馈强化学习的生成式智能体环境交互方法。
30、本申请提供的技术方案带来的有益效果是:
31、1.将强化学习训练范式引入生成式智能体进行环境交互中,增强了生成式智能体在互动中的决策能力和规划能力。在强化学习传统范式中加入长短期反馈的反思机制,先预先微调slm增强其反思总结能力,再用slm实现长期记忆的生成。不同于以往的传统强化学习思路,本专利技术将长期记忆和反思引入强化学习范式中,提高了生成式智能体交互的连贯性。
32、2.在传统的生成式智能体直接调用预训练的大模型实现具体功能的基础上,引入大模型微调技术,相比于直接搬用语言模型的参数,可以根据每个环境的具体情况优化智能体的决策,提高了算法普适性。
33、3. qlora微调方法将参数均进行了量化,减小了数据的大小,显著减少了内存的占用,降低对硬件存储的要求。
本文档来自技高网...【技术保护点】
1.一种基于长短期反馈强化学习的生成式智能体环境交互方法,其特征在于,方法包括以下步骤:
2.如权利要求1所述的一种基于长短期反馈强化学习的生成式智能体环境交互方法,其特征在于,步骤S1包括:采用小语言模型SLM构建生成式智能体。
3.如权利要求1所述的一种基于长短期反馈强化学习的生成式智能体环境交互方法,其特征在于,所述短时反馈为长度L和维度N的序列数据,表示短时反馈有L个字符串,每个字符串都由一个长度为N的向量表示,即:
4.如权利要求1所述的一种基于长短期反馈强化学习的生成式智能体环境交互方法,其特征在于,步骤S2包括:
5.如权利要求1所述的一种基于长短期反馈强化学习的生成式智能体环境交互方法,其特征在于,步骤S3包括:
6.如权利要求4所述的一种基于长短期反馈强化学习的生成式智能体环境交互方法,其特征在于,采用Qlora微调方法,对生成式智能体进行微调,具体如下:
7.一种电子设备,其特征在于,包括处理器(501)、存储器(505)、用户接口(503)及网络接口(504),所述存储器(505)用于存
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被计算机执行时,执行如权利要求1-6任意一项所述的方法。
...【技术特征摘要】
1.一种基于长短期反馈强化学习的生成式智能体环境交互方法,其特征在于,方法包括以下步骤:
2.如权利要求1所述的一种基于长短期反馈强化学习的生成式智能体环境交互方法,其特征在于,步骤s1包括:采用小语言模型slm构建生成式智能体。
3.如权利要求1所述的一种基于长短期反馈强化学习的生成式智能体环境交互方法,其特征在于,所述短时反馈为长度l和维度n的序列数据,表示短时反馈有l个字符串,每个字符串都由一个长度为n的向量表示,即:
4.如权利要求1所述的一种基于长短期反馈强化学习的生成式智能体环境交互方法,其特征在于,步骤s2包括:
5.如权利要求1所述的一种基于长短期反馈强化学习的生成式智能体环境交互方法,其特征在于...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。