本发明专利技术公开了一种基于记忆检索的强化学习策略增强方法,包括如下步骤:利用深度神经网络抽取原始经验记忆数据的表征信息;在智能体策略的推理过程中从原始的经验记忆数据的表征信息中检索与当前智能体所处的状态相似的数据信息;将检索得到的数据信息作为参考整合到原有强化学习智能体的推理过程中,以对下一个状态进行预测;该强化学习策略增强方法提高了强化学习智能体对样本的利用效率,在训练过程中和训练完成后,保留了智能体与环境交互得到的数据作为经验记忆数据,在智能体策略推理时,从中检索相关的信息,从而为策略推理提供额外的参考信息来源,更充分地利用样本数据。据。据。
【技术实现步骤摘要】
一种基于记忆检索的强化学习策略增强方法
[0001]本专利技术涉及强化学习
,尤其涉及一种基于记忆检索的强化学习策略增强方法。
技术介绍
[0002]强化学习旨在训练适应不同系统的智能体策略,以达到策略性能在给定指标下达到最优的效果。随着技术的发展,强化学习所能够处理和解决的应用场景越来越多,此类技术在诸如围棋、机器人控制、自动驾驶等领域的应用潜力已经得到了大量验证。受此影响,近些年来,强化学习技术受到越来越多的研究者的关注和看好。
[0003]常见的强化学习策略框架大致可以分为两类,一类是模型无关的强化学习技术框架,另一类是基于模型的强化学习技术框架。
[0004]1)模型无关的强化学习技术框架
[0005]此类技术主要考虑如何从智能体与环境的交互过程中收集有用的数据,并利用这些数据训练智能体的策略,表现为动作价值函数(Q函数)或策略动作分布。在此技术框架下,智能体在策略学习的过程中并不依赖于某一特定的环境建模,也不关心具体的环境动态和状态转移模型(Dynamic Model),而是直接从其与环境交互得到的数据中学习策略。这一特性使得这一计算框架能够灵活地在不同的环境与场景中直接复用,而不需要考虑环境的特性。
[0006]模型无关的强化学习方法主要可以分成两种类型,一类是基于值函数的方法,另一类是基于策略的方法。其中,基于值函数的方法主要考虑如何获取智能体值函数的一个可靠估计,并基于这个值函数估计来决定智能体该采取什么样的动作。这里值函数可以表示为状态值函数(State Value Function)或状态动作值函数(State
‑
Action Value Function,即Q函数),直观意义上代表了智能体采取动作后的期望收益。通过估算不同动作对应的值函数值,智能体就可以挑选出后续期望收益价值最高的动作作为策略。而基于策略的方法与基于值函数的方法不同。基于策略的方法直接学习一个策略函数,也就是当前环境状态到动作的一个映射,通过在与环境交互过程中收集到的奖励,智能体针对性地训练调整这一策略函数,从而最后收敛到收益最高的策略。
[0007]总体来说,模型无关的强化学习技术框架较为简单直接,直接适用一系列不同的实际应用任务场景。然而,此类框架通过与环境交互来提升策略,因此需要大量的样本来收敛,相比于模型相关的方法,在效率上略逊一筹。
[0008]2)模型相关的强化学习技术框架
[0009]此类技术主要考虑从智能体与环境交互得到的数据中学习环境的动态模型,也就是当前环境状态下采取某一动作可能会导致环境状态的变化情况和相应收益。通过这一学习得到的环境动态模型,智能体可以对环境的变化做出预测,并利用预测信息更好地决策。
[0010]在此类技术框架中,环境模型的利用方式主要有两种,一种是用于规划(Planning),另一种是用于探索(Exploration)。其中规划的利用方式主要是指智能体可以
在环境模型中模拟决策过程,通过观察环境模型中的变化,调整相应的策略。此类方式比较有代表性的方法是MuZero,通过在环境模型中的大量模拟,使一个次优的策略趋于最优策略。而探索的利用方式则考虑通过环境模型的模拟来为智能体策略的训练提供更多的数据来源。通过这样的方式,智能体可以在尽量少与实际环境进行真实交互的情况下,仍能收集大量的数据用于策略的改进,从而避免在真实环境中进行代价高昂的试错。
[0011]总体来说,模型相关的强化学习技术框架能够更有效地利用收集得到的样本数据,降低试错成本。然而,此类技术在计算成本上相对模型无关的方法更高,并且环境模型本身的误差可能也会影响智能体策略的提升。
[0012]现有强化学习的缺点:现有的强化学习策略对样本的利用效率不高。在现有的技术框架下,强化学习智能体与环境交互得到的数据,在智能体策略训练完成后就被丢弃,仅仅只有智能体的深度神经策略网络被保留下来用于推理。
[0013]我们希望从一个新的角度出发,用新的方法提高强化学习智能体对样本的利用效率。在训练过程中和训练完成后,我们保留智能体与环境交互得到的数据作为经验记忆,在智能体策略推理时,从中检索相关的信息,从而为策略推理提供额外的参考信息来源,更充分地利用样本数据。
技术实现思路
[0014]基于
技术介绍
存在的技术问题,本专利技术提出了一种基于记忆检索的强化学习策略增强方法,提高强化学习智能体对样本的利用效率,在训练过程中和训练完成后,保留了智能体与环境交互得到的数据作为经验记忆数据,在智能体策略推理时,从中检索相关的信息,从而为策略推理提供额外的参考信息来源,更充分地利用样本数据。
[0015]本专利技术提出的一种基于记忆检索的强化学习策略增强方法,包括如下步骤:
[0016]利用深度神经网络抽取原始经验记忆数据的表征信息;
[0017]在智能体策略的推理过程中从原始的经验记忆数据的表征信息中检索与当前智能体所处的状态相似的数据信息;
[0018]将检索得到的数据信息作为参考整合到原有强化学习智能体的推理过程中,以对下一个状态进行预测。
[0019]进一步地,针对模型无关的强化学习技术框架,在利用深度神经网络抽取原始经验记忆数据的表征信息中,具体包括:使用价值函数深度神经网络的最后一个隐藏层的输出结果作为输入的状态
‑
动作对的表征信息,以抽取原始的经验记忆数据的表征信息。
[0020]进一步地,针对模型相关的强化学习技术框架,在利用深度神经网络抽取原始经验记忆数据的表征信息中,具体包括:使用环境模型深度神经网络的最后一个隐藏层的输出结果作为输入的状态动作对的特征表达。
[0021]进一步地,针对模型无关的强化学习技术框架,在智能体策略的推理过程中从原始的经验记忆数据的表征信息中检索与当前智能体所处的状态相似的数据,具体包括:使用抽取得到的状态
‑
动作对的特征表达数据作为检索的键值,提取相应状态
‑
动作对在原始经验记忆数据中对应的经验累积回报奖励作为检索返回值。
[0022]进一步地,针对模型相关的强化学习技术框架,在智能体策略的推理过程中从原始的经验记忆数据的表征信息中检索与当前智能体所处的状态相似的数据,具体包括:使
用抽取得到的状态
‑
动作对的特征表达数据作为检索的键值,提取状态
‑
动作对在原始经验记忆数据中所对应的下一状态和回报奖励作为检索返回值。
[0023]进一步地,针对模型无关的强化学习技术框架,在将检索得到的数据信息作为参考整合到原有强化学习智能体的推理过程中,以对下一个状态进行预测中,具体包括:
[0024]采样智能体强化学习中一个动作集合其中,n
s
是动作数量,s是当前的环境状态,π(a|s)智能体在当前状态下采取各个动作的概率;
[0025]利用智能体训练过程中的价值网络提取动作数量n
s
由高到低排序的前设定数量的n...
【技术保护点】
【技术特征摘要】
1.一种基于记忆检索的强化学习策略增强方法,其特征在于,包括如下步骤:利用深度神经网络抽取原始经验记忆数据的表征信息;在智能体策略的推理过程中从原始的经验记忆数据的表征信息中检索与当前智能体所处的状态相似的数据信息;将检索得到的数据信息作为参考整合到原有强化学习智能体的推理过程中,以对下一个状态进行预测。2.根据权利要求1所述的基于记忆检索的强化学习策略增强方法,其特征在于,针对模型无关的强化学习技术框架,在利用深度神经网络抽取原始经验记忆数据的表征信息中,具体包括:使用价值函数深度神经网络的最后一个隐藏层的输出结果作为输入的状态
‑
动作对的表征信息,以抽取原始的经验记忆数据的表征信息。3.根据权利要求1所述的基于记忆检索的强化学习策略增强方法,其特征在于,针对模型相关的强化学习技术框架,在利用深度神经网络抽取原始经验记忆数据的表征信息中,具体包括:使用环境模型深度神经网络的最后一个隐藏层的输出结果作为输入的状态动作对的特征表达。4.根据权利要求2所述的基于记忆检索的强化学习策略增强方法,其特征在于,针对模型无关的强化学习技术框架,在智能体策略的推理过程中从原始的经验记忆数据的表征信息中检索与当前智能体所处的状态相似的数据,具体包括:使用抽取得到的状态
‑
动作对的特征表达数据作为检索的键值,提取相应状态
‑
动作对在原始经验记忆数据中对应的经验累积回报奖励作为检索返回值。5.根据权利要求3所述的基于记忆检索的强化学习策略增强方法,其特征在于,针对模型相关的强化学习技术框架,在智能体策略的推理过程中从原始的经验记忆数据的表征信息中检索与当前智能体所处的状态相似的数据,具体包括:使用抽取得到的状态
‑
动作对的特征表达数据作为检索的键值,提取状态
‑
动作对在原始经验记忆数据中所对应的下一状态和回报奖励作为检索返回值。6.根据权利要求4所述的基于记忆检索的强化学习策略增强方法,其特征在于,针对模型无关的强化学习技术框架,在将检索得到的数据信息作为参考整合到原有强化学...
【专利技术属性】
技术研发人员:李厚强,周文罡,张阅,
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。