当前位置: 首页 > 专利查询>合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室专利>正文

一种基于记忆检索的强化学习策略增强方法技术

技术编号：39415958 阅读：19 留言：0更新日期：2023-11-19 16:07

本发明专利技术公开了一种基于记忆检索的强化学习策略增强方法，包括如下步骤：利用深度神经网络抽取原始经验记忆数据的表征信息；在智能体策略的推理过程中从原始的经验记忆数据的表征信息中检索与当前智能体所处的状态相似的数据信息；将检索得到的数据信息作为参考整合到原有强化学习智能体的推理过程中，以对下一个状态进行预测；该强化学习策略增强方法提高了强化学习智能体对样本的利用效率，在训练过程中和训练完成后，保留了智能体与环境交互得到的数据作为经验记忆数据，在智能体策略推理时，从中检索相关的信息，从而为策略推理提供额外的参考信息来源，更充分地利用样本数据。据。据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于记忆检索的强化学习策略增强方法

[0001]本专利技术涉及强化学习
，尤其涉及一种基于记忆检索的强化学习策略增强方法。

技术介绍

[0002]强化学习旨在训练适应不同系统的智能体策略，以达到策略性能在给定指标下达到最优的效果。随着技术的发展，强化学习所能够处理和解决的应用场景越来越多，此类技术在诸如围棋、机器人控制、自动驾驶等领域的应用潜力已经得到了大量验证。受此影响，近些年来，强化学习技术受到越来越多的研究者的关注和看好。
[0003]常见的强化学习策略框架大致可以分为两类，一类是模型无关的强化学习技术框架，另一类是基于模型的强化学习技术框架。
[0004]1)模型无关的强化学习技术框架
[0005]此类技术主要考虑如何从智能体与环境的交互过程中收集有用的数据，并利用这些数据训练智能体的策略，表现为动作价值函数(Q函数)或策略动作分布。在此技术框架下，智能体在策略学习的过程中并不依赖于某一特定的环境建模，也不关心具体的环境动态和状态转移模型(Dynamic Model)，而是直接从其与环境交互得到的数据中学习策略。这一特性使得这一计算框架能够灵活地在不同的环境与场景中直接复用，而不需要考虑环境的特性。
[0006]模型无关的强化学习方法主要可以分成两种类型，一类是基于值函数的方法，另一类是基于策略的方法。其中，基于值函数的方法主要考虑如何获取智能体值函数的一个可靠估计，并基于这个值函数估计来决定智能体该采取什么样的动作。这里值函数可以表示为状态值函数(State Val

【技术保护点】

【技术特征摘要】
1.一种基于记忆检索的强化学习策略增强方法，其特征在于，包括如下步骤：利用深度神经网络抽取原始经验记忆数据的表征信息；在智能体策略的推理过程中从原始的经验记忆数据的表征信息中检索与当前智能体所处的状态相似的数据信息；将检索得到的数据信息作为参考整合到原有强化学习智能体的推理过程中，以对下一个状态进行预测。2.根据权利要求1所述的基于记忆检索的强化学习策略增强方法，其特征在于，针对模型无关的强化学习技术框架，在利用深度神经网络抽取原始经验记忆数据的表征信息中，具体包括：使用价值函数深度神经网络的最后一个隐藏层的输出结果作为输入的状态
‑
动作对的表征信息，以抽取原始的经验记忆数据的表征信息。3.根据权利要求1所述的基于记忆检索的强化学习策略增强方法，其特征在于，针对模型相关的强化学习技术框架，在利用深度神经网络抽取原始经验记忆数据的表征信息中，具体包括：使用环境模型深度神经网络的最后一个隐藏层的输出结果作为输入的状态动作对的特征表达。4.根据权利要求2所述的基于记忆检索的强化学习策略增强方法，其特征在于，针对模型无关的强化学习技术框架，在智能体策略的推理过程中从原始的经验记忆数据的表征信息中检索与当前智能体所处的状态相似的数据，具体包括：使用抽取得到的状态
‑
动作对的特征表达数据作为检索的键值，提取相应状态
‑
动作对在原始经验记忆数据中对应的经验累积回报奖励作为检索返回值。5.根据权利要求3所述的基于记忆检索的强化学习策略增强方法，其特征在于，针对模型相关的强化学习技术框架，在智能体策略的推理过程中从原始的经验记忆数据的表征信息中检索与当前智能体所处的状态相似的数据，具体包括：使用抽取得到的状态
‑
动作对的特征表达数据作为检索的键值，提取状态
‑
动作对在原始经验记忆数据中所对应的下一状态和回报奖励作为检索返回值。6.根据权利要求4所述的基于记忆检索的强化学习策略增强方法，其特征在于，针对模型无关的强化学习技术框架，在将检索得到的数据信息作为参考整合到原有强化学...

【专利技术属性】
技术研发人员：李厚强，周文罡，张阅，
申请(专利权)人：合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人