当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于状态引导策略的离线强化学习方法及系统技术方案

技术编号:36252800 阅读:13 留言:0更新日期:2023-01-07 09:46
本发明专利技术提供一种基于状态引导策略的离线强化学习方法及系统,包括:通过离线强化学习数据集进行训练,训练过程中通过指导策略和执行策略以监督和解耦的方式进行学习后,完成策略学习;根据所述策略学习的结果进行测试,所述指导策略根据当前状态信息生成下一步最优的状态信息;所述执行策略根据当前状态信息和所述指导策略生成的最优下一步状态信息,生成执行动作,完成离线强化学习。本发明专利技术缓解了现有离线强化学习数据分布迁移难度大问题,提升算法稳定性,又实现了可靠数据外的泛化。又实现了可靠数据外的泛化。又实现了可靠数据外的泛化。

【技术实现步骤摘要】
一种基于状态引导策略的离线强化学习方法及系统


[0001]本专利技术涉及离线强化学习
,尤其涉及一种基于状态引导策略的离线强化学习方法及系统。

技术介绍

[0002]强化学习主要研究智能体如何获得最大回报,即给定任务下学习解决该问题最优的策略。因为其可以较为直观地建模序贯决策问题,强化学习受到了广泛的关注。近年来,随着深度学习和大规模数据集的兴起,由于深度神经网络作为函数近似拥有很强的泛化能力,强化学习借助神经网络来应对更加复杂的场景。深度强化学习在视频游戏、围棋、推荐系统和机器人领域上取得了较快的发展。与一般的强化学习相比,离线强化学习只提供了数据集而没有提供可以交互的环境,这在现实场景中有很多应用。首先,一般的强化学习即在线强化学习中的试错过程很容易产生危险的动作,比如造价昂贵的仿人机器人在学习行走过程中容易摔倒,这可能造成很大的损失;离线强化学习只使用数据集提供的样本进行学习,而不会在训练中试错,这为智能体提供了安全性保障。其次,在线强化学习需要数量庞大的样本,比如在线强化学习算法需要超过百万样本才能收敛,但很多场景中,生成大量的样本非常困难,比如一条机械臂生成一条轨迹可能需要超过10分钟,一个病人的诊断过程需要长达数月,因此,在线强化学习难以在这类场景下应用;相反,离线强化学习可以利用大量已有的数据,这些数据可以是通过强化学习生成的,可以是其他非强化学习方法生成的。由于更好的安全性和样本利用率,离线强化学习可以应用在医疗、自动驾驶、广告和推荐系统等领域。虽然离线强化学习仅仅比在线强化学习少了可以交互的环境,但是离线强化学习仍然充满了挑战和问题。例如离线强化学习只被提供了离线的数据集,智能体没有机会进行探索进而获得数据集之外更优秀的动作,更重要的,离线强化学习有动作分布漂移的问题,而动作分布漂移导致了在离线数据集上训练获得的策略可能产生数据分布之外的动作,进而使得算法性能受到影响。
[0003]离线强化学习(offline RL)也被称为批处理强化学习Batch RL,允许从以前收集的数据中学习策略,而不需要在线互动,实现对RL进行实际应用,如机器人、医疗和工业控制。在这种情况下,用未经训练的策略进行任意探索是成本极高,但有足够的先验数据可用。虽然大多数非策略RL算法通过用离线数据填充重放缓冲区适用于离线设置,但改进策略超过行为策略的水平需要查询价值函数(即Q函数),了解在数据集中没有看到的行动的价值。但是由于价值函数没有见过分布之外的行为,这将导致Q函数无法被准确估计,甚至带来灾难性后果。该误差将由致命三要素累积,通过迭代动态规划在状态动作空间中传播,并且由于无法获取新的样本,所以Q函数的推断误差并不能被消除。
[0004]为了解决这个问题,先前的无模型离线RL方法通常会在策略改进步骤中加入一个行为正则化项,以限制其偏离行为策略的程度。这可以通过计算一些发散指标来明确实现,或者通过对所学的价值函数进行正则化来隐含地将低值分配给数据分布之外的动作。然而,这在准确的价值估计(更多的行为规范化)和最大的策略改进(更少的行为规范化)之间
难以准确权衡得失。为了避免这样的问题,另外一种尝试解决离线强化学习的路径是通过Q函数的某种形式的权重进行模仿学习。虽然该训练方式继承了监督学习的优点:训练稳定性,对超参数不敏感,但是该方法不会采取数据分布之外的动作从而无法获得超越数据的表现。但它们只允许来自数据集的行动组合性,失去了通过分布外泛化超越数据集的能力,这只出现在基于RL的方法中。最终导致离线强化学习成本高、难度大、花费时间长,达不到理想的效果。

技术实现思路

[0005]本专利技术提供一种基于状态引导策略的离线强化学习方法及系统,本专利技术解决了现有离线强化学习数据分布迁移难度大问题,提升算法稳定性,又实现了可靠数据外的泛化。
[0006]本专利技术提供一种基于状态引导策略的离线强化学习方法,包括:
[0007]通过离线强化学习数据集进行训练,训练过程中通过指导策略和执行策略以监督和解耦的方式进行学习后,完成策略学习;
[0008]根据所述策略学习的结果进行测试,所述指导策略根据当前状态信息生成下一步最优的状态信息;
[0009]所述执行策略根据当前状态信息和所述指导策略生成的最优下一步状态信息,生成执行动作,完成离线强化学习。
[0010]根据本专利技术提供的一种基于状态引导策略的离线强化学习方法,所述通过离线强化学习数据集进行训练,训练过程中通过指导策略和执行策略以监督和解耦的方式进行学习后,完成策略学习,具体包括:
[0011]在训练学习过程中,通过分位数回归,确定最优的下一步状态信息;
[0012]所述执行策略能够通过给定任意的当前状态和目标状态信息指导如何执行动作,完成策略学习。
[0013]根据本专利技术提供的一种基于状态引导策略的离线强化学习方法,所述执行策略能够通过给定任意的当前状态和目标状态信息指导如何执行动作,完成策略学习,具体包括:
[0014]训练一个价值函数,通过离线强化数据集中的样本进行学习;
[0015]通过期望回归法得到非对称损失,实现近似最佳价值函数,完成指导策略的学习。
[0016]根据本专利技术提供的一种基于状态引导策略的离线强化学习方法,所述价值函数进行训练时,在指导策略的学习学习过程中加入一个行为克隆项,进行行为约束,完成价值函数的训练。
[0017]根据本专利技术提供的一种基于状态引导策略的离线强化学习方法,根据所述策略学习的结果进行测试,所述指导策略根据当前状态信息生成下一步最优的状态信息,具体包括:
[0018]在测试过程中,获取策略学习的结果,基于所述策略学习的结果,通过指导策略根据当前状态信息生成下一步最优状态信息;
[0019]通过执行策略根据当前状态信息和所述指导策略生成的最优下一步状态信息,生成执行动作。
[0020]根据本专利技术提供的一种基于状态引导策略的离线强化学习方法,所述方法还包括:
[0021]通过解耦指导策略和执行策略的学习,补充次优数据集增强指导策略;
[0022]或者重新学习指导策略以适应具有不同奖励函数的任务,而无需改变执行策略。
[0023]本专利技术还提供一种基于状态引导策略的离线强化学习系统,所述系统包括:
[0024]策略学习模块,用于通过离线强化学习数据集进行训练,训练过程中通过指导策略和执行策略以监督和解耦的方式进行学习后,完成策略学习;
[0025]指导模块,用于根据所述策略学习的结果进行测试,所述指导策略根据当前状态信息生成下一步最优的状态信息;
[0026]执行模块,用于执行策略根据当前状态信息和所述指导策略生成的最优下一步状态信息,生成执行动作,完成离线强化学习。
[0027]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于状态引导策略的离线强化学习方法。
[0028]本专利技术还提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于状态引导策略的离线强化学习方法,其特征在于,包括:通过离线强化学习数据集进行训练,训练过程中通过指导策略和执行策略以监督和解耦的方式进行学习后,完成策略学习;根据所述策略学习的结果进行测试,所述指导策略根据当前状态信息生成下一步最优的状态信息;所述执行策略根据当前状态信息和所述指导策略生成的最优下一步状态信息,生成执行动作,完成离线强化学习。2.根据权利要求1所述的基于状态引导策略的离线强化学习方法,其特征在于,所述通过离线强化学习数据集进行训练,训练过程中通过指导策略和执行策略以监督和解耦的方式进行学习后,完成策略学习,具体包括:在训练学习过程中,通过分位数回归,确定最优的下一步状态信息;所述执行策略能够通过给定任意的当前状态和目标状态信息指导如何执行动作,完成策略学习。3.根据权利要求2所述的基于状态引导策略的离线强化学习方法,其特征在于,所述执行策略能够通过给定任意的当前状态和目标状态信息指导如何执行动作,完成策略学习,具体包括:训练一个价值函数,通过离线强化数据集中的样本进行学习;通过期望回归法得到非对称损失,实现近似最佳价值函数,完成指导策略的学习。4.根据权利要求3所述的基于状态引导策略的离线强化学习方法,其特征在于,所述价值函数进行训练时,在指导策略的学习学习过程中加入一个行为克隆项,进行行为约束,完成价值函数的训练。5.根据权利要求1所述的基于状态引导策略的离线强化学习方法,其特征在于,根据所述策略学习的结果进行测试,所述指导策略根据当前状态信息生成下一步最优的状态信息,具体包括:在测试过程...

【专利技术属性】
技术研发人员:詹仙园
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1