一种基于值函数的参数化深度强化学习算法制造技术

技术编号：30537994 阅读：20 留言：0更新日期：2021-10-30 13:13

本发明专利技术属于深度强化学习技术领域，具体为一种基于值函数的参数化深度强化学习算法。本发明专利技术是将强化学习中的状态动作值函数(Q值)分解为状态值函数(V值)和优势函数(A值)之和，V值用于估计各离散动作下的期望累计奖励，A值用于估计各连续动作带来的累计奖励偏差；通过构建单个神经网络，同时输出最优离散动作和连续动作选择。本发明专利技术算法同时解决了Q值过估计问题，在动作决策时离散动作V值仅取决于其对应的连续动作，在神经网络训练过程中连续动作更新仅与其对应的离散动作有关。仿真实验结果表明，相比于其余参数化强化学习算法，本发明专利技术具有更快的收敛速度和更好的收敛效果。具有更快的收敛速度和更好的收敛效果。具有更快的收敛速度和更好的收敛效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于值函数的参数化深度强化学习算法

[0001]本专利技术属于深度强化学习
，具体涉及基于值函数的参数化深度强化学习算法。

技术介绍

[0002]近几年来，深度强化学习为复杂序贯决策问题提供了新的解决方案，其中之一是为电脑游戏设计AI(Artificial Intelligence)智能体(agent)。基于深度强化学习算法，AlphaGo和AlphaZero在围棋领域中击败了各路世界冠军[1]。此外，游戏AI在Atari游戏[2]、Robot Soccer足球游戏[3]、Torcs赛车模拟游戏中[4]均取得近乎甚至超越人类的表现。
[0003]传统的深度强化学习算法要求动作空间为离散或者连续之一：其中离散动作空间下的深度强化学习算法包含DQN[3]、Double DQN[5]和A3C[6]等；连续动作空间下的深度强化学习算法包含DPG[7]、DDPG[4]等。智能体在进行决策时，需要从有限的离散动作集中选择某个离散动作，或者从连续动作区间中选取特定的连续参数。
[0004]然而，对于现实生活中的具体任务，动作空间往往具有更复杂的参数化结构，即离散连续混合动作空间。智能体获取到环境状态信息后，需要先从离散动作空间[K]中选取一个高层级离散动作k，接着需要从动作k对应的连续动作空间中选定低层级连续动作x
k
。
[0005]若要利用传统深度强化学习处理离散连续动作混合动作空间，常见的做法为：
[0006](1)将连续动作离散化：即将连续动作空间近似为离散动作子集...

【技术保护点】

【技术特征摘要】
1.一种基于值函数的参数化深度强化学习算法，其特征在于，具体步骤如下：(一)对参数化动作空间进行数学建模，具体包括：参数化动作空间包含离散动作集和相应的连续动作集其中K表示离散动作个数，m
k
表示离散动作k下的连续动作维度；于是，参数化动作空间定义为：参数化动作空间下的马尔可夫决策过程定义为PAMDP；对于PAMDP模型参数化动作空间下的马尔可夫决策过程定义为PAMDP；对于PAMDP模型为状态空间，为参数化动作空间，P(s
′
|s，k，x
k
)为状态转移概率函数，R(s，k，x
k
，s
′
)为奖励函数，γ∈[0，1]为奖励折扣因子；则状态值函数定义为Q(s，a)＝Q(s，k，x
k
)，策略完成状态空间和动作空间的映射；定义k
t
为t时刻选定的离散动作，为相应额连续动作，则参数化动作空间下的贝尔曼方程为：为了得到最优Q值，需要对各离散动作k∈[K]求解得出最优连续动作选择：然后比较各离散动作下的Q值，并得到最大Q值(二)构建神经网络结构，具体包括：构建的神经网络结构由输入层、隐含层和三部分输出层组成；神经网络将状态动作值函数Q值Q(s，k，x
k
)分解为状态值函数V值V(s，k)和优势函数A值A(s，k，x
k
)之和：Q(s，k，x
k
；θ)＝V(s，k；θ)+A(s，k，x
k
；θ)，其中，V值V(s，k)代表离散动作k下的期望累计奖励，A值A(s，k，x
k
)代表x
k
带来的期望累计奖励和V(s，k)的偏差，θ代表神经网络的参数；为了确保求取最优连续动作有确切解，同时确保带来最大A值的连续动作为最优，限制A值A(s，k，x
k
)为连续动作x
k
的二次函数，即：其中，x
k
(s；θ)为神经网络的预测连续动作，x
′
k
为真实连续动作，P(s；θ)为依赖于环境状态s的对称正定方阵，计算式为：P(s；θ)＝L(s；θ)L(s；θ)
T
，其中，L(s；θ)为下三角矩阵，其元素为神经网络输出值的重新排列，且对角线元素指数化；由乔列斯基分解可知，一个对称正定方阵可以表示为主对角元素均为正数的下三角矩阵和它的转置的乘积；因此，通过构造下三角矩阵L(s；θ)，可以保证P(s；θ)为对称正定方阵，从而也确保A值A(s，k，x
k
...

【专利技术属性】
技术研发人员：徐跃东，游新宇，戴连贵，邢万勇，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人