当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于值函数的参数化深度强化学习算法制造技术

技术编号:30537994 阅读:20 留言:0更新日期:2021-10-30 13:13
本发明专利技术属于深度强化学习技术领域,具体为一种基于值函数的参数化深度强化学习算法。本发明专利技术是将强化学习中的状态动作值函数(Q值)分解为状态值函数(V值)和优势函数(A值)之和,V值用于估计各离散动作下的期望累计奖励,A值用于估计各连续动作带来的累计奖励偏差;通过构建单个神经网络,同时输出最优离散动作和连续动作选择。本发明专利技术算法同时解决了Q值过估计问题,在动作决策时离散动作V值仅取决于其对应的连续动作,在神经网络训练过程中连续动作更新仅与其对应的离散动作有关。仿真实验结果表明,相比于其余参数化强化学习算法,本发明专利技术具有更快的收敛速度和更好的收敛效果。具有更快的收敛速度和更好的收敛效果。具有更快的收敛速度和更好的收敛效果。

【技术实现步骤摘要】
一种基于值函数的参数化深度强化学习算法


[0001]本专利技术属于深度强化学习
,具体涉及基于值函数的参数化深度强化学习算法。

技术介绍

[0002]近几年来,深度强化学习为复杂序贯决策问题提供了新的解决方案,其中之一是为电脑游戏设计AI(Artificial Intelligence)智能体(agent)。基于深度强化学习算法,AlphaGo和AlphaZero在围棋领域中击败了各路世界冠军[1]。此外,游戏AI在Atari游戏[2]、Robot Soccer足球游戏[3]、Torcs赛车模拟游戏中[4]均取得近乎甚至超越人类的表现。
[0003]传统的深度强化学习算法要求动作空间为离散或者连续之一:其中离散动作空间下的深度强化学习算法包含DQN[3]、Double DQN[5]和A3C[6]等;连续动作空间下的深度强化学习算法包含DPG[7]、DDPG[4]等。智能体在进行决策时,需要从有限的离散动作集中选择某个离散动作,或者从连续动作区间中选取特定的连续参数。
[0004]然而,对于现实生活中的具体任务,动作空间往往具有更复杂的参数化结构,即离散连续混合动作空间。智能体获取到环境状态信息后,需要先从离散动作空间[K]中选取一个高层级离散动作k,接着需要从动作k对应的连续动作空间中选定低层级连续动作x
k

[0005]若要利用传统深度强化学习处理离散连续动作混合动作空间,常见的做法为:
[0006](1)将连续动作离散化:即将连续动作空间近似为离散动作子集,并利用离散深度强化学习算法进行训练。但是该方式在近似过程中粗粒度会导致连续动作选择范围缩小,细粒度会导致近似后离散动作空间过于庞大;
[0007](2)将离散动作连续化:即将离散动作集[K]放松至连读动作空间,并利用连续深度强化学习算法进行训练[8]。但是该方式会增大动作空间复杂度,使得算法难以收敛。

技术实现思路

[0008]本专利技术的目的在于提供一种无需改变动作类型即可直接作用于离散连续混合动作空间,从而实现更快的收敛速度和更好的收敛效果的基于值函数的参数化强化学习算法。
[0009]本专利技术提供的基于值函数的参数化强化学习算法,是将强化学习中的状态动作值函数(Q值)分解为状态值函数(V值)和优势函数(A值)之和,其中V值用于估计各离散动作下的期望累计奖励,而A值用于估计各连续动作带来的累计奖励偏差。通过构建单个神经网络,即可同时输出最优离散动作和连续动作选择。本专利技术提出的算法同时解决了Q值过估计问题,在动作决策时离散动作V值仅取决于其对应的连续动作,在神经网络训练过程中连续动作更新仅与其对应的离散动作有关。从仿真实验结果可以得出,相比于其余参数化强化学习算法,本专利技术提出的算法实现了更快的收敛速度和更好的收敛效果。
[0010]本专利技术提供的基于值函数的参数化强化学习算法,具体步骤如下。
[0011](一)首先,对参数化动作空间进行数学建模,具体包括:
[0012]参数化动作空间包含离散动作集和相应的连续动作集其中K表示离散动作个数,m
k
表示离散动作k下的连续动作维度。因此,参数化动作空间可以定义为:
[0013][0014]参数化动作空间下的马尔可夫决策过程定义为PAMDP(Partially Observable Markov Decision Process)[9]。对于PAMDP模型Process)[9]。对于PAMDP模型为状态空间,为参数化动作空间,P(s

|s,k,x
k
)为状态转移概率函数,R(s,k,x
k
,s

)为奖励函数,γ∈[0,1]为奖励折扣因子。则状态值函数可以定义为Q(s,a)=Q(s,k,x
k
),策略完成状态空间和动作空间的映射。定义k
t
为t时刻选定的离散动作,为相应额连续动作,则参数化动作空间下的贝尔曼方程为:
[0015][0016]为了得到最优Q值,需要对各离散动作k∈[K]求解得出最优连续动作选择:
[0017][0018]然后比较各离散动作下的Q值,并得到最大Q值然而,由于神经网络为非凸函数,求取最优连续动作十分困难。
[0019](二)其次,构建神经网络结构,具体包括:
[0020]本专利技术构建的神经网络结构,如图1所示,由输入层、隐含层和三部分输出层构成。神经网络将状态动作值函数Q值Q(s,k,x
k
)分解为状态值函数V值V(s,k)和优势函数A值A(s,k,x
k
)之和:
[0021]Q(s,k,x
k
;θ)=V(s,k;θ)+A(s,k,x
k
;θ),
[0022]其中,V值V(s,k)代表离散动作k下的期望累计奖励,A值A(s,k,x
k
)代表x
k
带来的期望累计奖励和V(s,k)的偏差,θ代表神经网络的参数。
[0023]为了确保求取最优连续动作有确切解,同时确保带来最大A值的连续动作为最优,需要限制A值A(s,k,x
k
)为连续动作x
k
的二次函数,即:
[0024][0025]其中x
k
(s;θ)为神经网络的预测连续动作,x

k
为真实连续动作,P(s;θ)为依赖于环境状态s的对称正定方阵,计算式为:
[0026]P(s;θ)=L(s;θ)L(s;θ)
T

[0027]其中,L(s;θ)为下三角矩阵,其元素为神经网络输出值的重新排列,且对角线元素指数化。由乔列斯基(Cholesky)分解[10]可知,一个对称正定方阵可以表示为主对角元素均为正数的下三角矩阵和它的转置的乘积。因此,通过构造下三角矩阵L(s;θ),可以保证P(s;θ)为对称正定方阵,从而也确保A值A(s,k,x
k
)恒小于等于0,且当A(s,k,x
k
)=0时,此刻的连续动作x
k
为最优动作。
[0028](三)最后,设计算法流程,具体包括:
[0029]首先,初始化策略网络Q(s,k,x
k
;θ)和目标网络Q

(s,k,x
k
;θ

),其中目标网络的参
数θ

与策略网络的参数θ保持一致。同时初始化经验回放池(Replay Buffer)D,以存储状态转移信息。
[0030]为了鼓励智能体(即车载设备)充分探索动作空间以寻找最优动作,离散动作和连续动作的选择分别依照∈

贪婪策略和OU过程。对于离散动作k,智能体将以∈的概率在离散动作空间[K]中随机选取,以1

∈的概率选取V值最高的离散动作,即:
[0031][003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于值函数的参数化深度强化学习算法,其特征在于,具体步骤如下:(一)对参数化动作空间进行数学建模,具体包括:参数化动作空间包含离散动作集和相应的连续动作集其中K表示离散动作个数,m
k
表示离散动作k下的连续动作维度;于是,参数化动作空间定义为:参数化动作空间下的马尔可夫决策过程定义为PAMDP;对于PAMDP模型参数化动作空间下的马尔可夫决策过程定义为PAMDP;对于PAMDP模型为状态空间,为参数化动作空间,P(s

|s,k,x
k
)为状态转移概率函数,R(s,k,x
k
,s

)为奖励函数,γ∈[0,1]为奖励折扣因子;则状态值函数定义为Q(s,a)=Q(s,k,x
k
),策略完成状态空间和动作空间的映射;定义k
t
为t时刻选定的离散动作,为相应额连续动作,则参数化动作空间下的贝尔曼方程为:为了得到最优Q值,需要对各离散动作k∈[K]求解得出最优连续动作选择:然后比较各离散动作下的Q值,并得到最大Q值(二)构建神经网络结构,具体包括:构建的神经网络结构由输入层、隐含层和三部分输出层组成;神经网络将状态动作值函数Q值Q(s,k,x
k
)分解为状态值函数V值V(s,k)和优势函数A值A(s,k,x
k
)之和:Q(s,k,x
k
;θ)=V(s,k;θ)+A(s,k,x
k
;θ),其中,V值V(s,k)代表离散动作k下的期望累计奖励,A值A(s,k,x
k
)代表x
k
带来的期望累计奖励和V(s,k)的偏差,θ代表神经网络的参数;为了确保求取最优连续动作有确切解,同时确保带来最大A值的连续动作为最优,限制A值A(s,k,x
k
)为连续动作x
k
的二次函数,即:其中,x
k
(s;θ)为神经网络的预测连续动作,x

k
为真实连续动作,P(s;θ)为依赖于环境状态s的对称正定方阵,计算式为:P(s;θ)=L(s;θ)L(s;θ)
T
,其中,L(s;θ)为下三角矩阵,其元素为神经网络输出值的重新排列,且对角线元素指数化;由乔列斯基分解可知,一个对称正定方阵可以表示为主对角元素均为正数的下三角矩阵和它的转置的乘积;因此,通过构造下三角矩阵L(s;θ),可以保证P(s;θ)为对称正定方阵,从而也确保A值A(s,k,x
k
...

【专利技术属性】
技术研发人员:徐跃东游新宇戴连贵邢万勇
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1