一种深度强化学习模型的训练方法、装置及存储介质制造方法及图纸

技术编号:32352657 阅读:21 留言:0更新日期:2022-02-20 02:24
本申请提供了一种深度强化学习模型的训练方法、装置及存储介质。该方法包括如下步骤:(1)构建强化学习智能体(2)初始化网络参数,分配大小为N的经验缓冲池;(3)在线演员网络根据当前状态s

【技术实现步骤摘要】
一种深度强化学习模型的训练方法、装置及存储介质


[0001]本申请例涉及机器学习领域,具体而言,涉及一种深度强化学习模型的训练方法、装置及存储介质。

技术介绍

[0002]深度强化学习作为机器学习领域的一个重要分支,已经被广泛用于解决各类复杂的决策问题,例如影像游戏、机器控制,交通信号灯控制等。深度强化学习智能体采用“试错”的方式与环境交互,通过最大化从环境中获得的累计奖励来学习最优策略,往往需要数以万计次的尝试才可能收敛。如何加快强化学习的收敛速度和样本的利用率是近年来的关注焦点。
[0003]经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式集中于如何从经验缓冲池中采样可以加快神经网络的速度,例如以TD

error、 Reward为标准进行经验样本的选取。但这类采样会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优。

技术实现思路

[0004]本申请提供一种深度强化学习模型的训练方法、装置及存储介质,旨在解决由于现有优先经验回放方法无法提供一种有效的采样方式,忽略采样样本的探索效用以及利用效用,导致的训练易收敛至局部最优的问题。
[0005]本申请的第一方面提供了一种深度强化学习模型的训练方法,所述方法包括以下步骤:构建强化学习智能体,包括一个在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络;初始化网络参数,根据环境复杂度计算初步探索系数,分配空间大小为N的经验缓冲池;在线演员网络根据当前智能体所处状态s
t
输出相应动作a
t
,智能体执行动作a
t
使环境进入下一状态s
t+1
,并获取<s
t
,a
t
>对应的环境奖励反馈值r
t
,将交互信息元组<s
t
,a
t
,s
t+1
,r
t
>存储到经验缓冲池;从经验缓冲池中采样效用最大的交互信息元组作为批处理样本;使用上一步骤的采样批处理样本更新在线评论家网络和在线演员网络;使用在线评论家网络软更新目标评论家网络,在线演员网络软更新目标演员网络;当损失函数收敛或者训练次数达到预设训练次数,结束训练并获取当前网络模型参数。
[0006]可选地,根据环境状态空间复杂度和动作空间复杂度计算探索系数,对于连续状态空间和连续动作空间,采用维度来表示复杂度,对于离散状态空间和离散动作空间,采用个数来表示复杂度。根据环境的状态空间复杂度和动作空间复杂度与预设阈值之间的比例关系计算初步探索系数。
[0007]可选地,从经验缓冲池中采样效用最大的交互信息元组批处理样本,采样的步骤包括:第一次采样,从经验缓冲池中采样λ*k个交互信息元组样本,其中,k为批处理样本大小,λ≥1决定优先经验回放的比例,λ=1对应于均匀采样,λ=N/k对应选取所有样本中的优
先级最高的k个样本;第二次采样,计算从第一次采样的交互信息元组中的样本优先级加权和,从中选取k个样本;样本优先级加权和由两部分组成,一部分是交互信息元组中的状态s
t
和智能体当前所处的状态s
cur
之间的相似度,另一部分是交互信息元组的动作a
t
和当前智能体面对s
t
时所采取的动作φ(s
t
)之间的相似度。
[0008]计算交互信息元组中的样本优先级加权和,包括以下步骤:计算交互信息元组中的状态和当前智能体所处的状态之间的相似度,对于图像表示的状态,将图像经过与在线评论家网络相同参数的卷积神经网络处理,得到状态的特征表示;计算交互信息元组的动作a
t
和当前智能体面对交互信息元组中的状态时所采取的动作θ(s
t
)之间的相似度;计算样本优先级加权和;其中,加权和与状态相似度成正相关,与动作相似度成负相关。
[0009]交互信息元组中的状态和当前智能体所处的状态之间的相似度为:
[0010][0011]其中,f(s)表示状态s的状态表征,对于状态为图像的情况,f(s)=(s,θ
s
),θ
s
表示与在线评论家网络参数相同的特征提取神经网络;对于状态为特征的情况,f(s)=s。
[0012]交互信息元组的动作a
t
和当前智能体在状态s
t
所采取的动作θ(s
t
)之间的相似度为:
[0013][0014]样本的优先级加权和计算公式如下:
[0015]priority=α
s
·
simility(f(s
t
),f(s
cur
))+α
a
·
simility(a
t
,φ(s
t
))
[0016]其中,α
s
>0表示状态相似度权重,α
a
<0表示动作相似度。
[0017]将交互信息元组用于在线评论家网络和在线演员网络的更新,包括:
[0018]在线评论家网络的梯度更新,公式如下:
[0019][0020]其中,Q
θ
为在线评论家网络的输出,Q
θ
(s
t
,a
t
)表示<s
t
,a
t
>对应的Q值,为目标评论家网络的输出。
[0021]在线评论家网络的梯度更新,公式如下:
[0022][0023]其中,π
φ
为在线演员网络的输出,π
φ
(a
t
∣s
t
)表示智能体在s
t
状态下会采取动作a
t

[0024]可选的,每隔固定迭代周期更新两个目标网络:可选的,每隔固定迭代周期更新两个目标网络:
[0025]其中,为目标演员网络参数,为目标评论家网络参数,τ为软更新系数。
[0026]本申请提供的一种深度强化学习模型的训练方法具有以下多种技术效果:
[0027]一、通过初步探索系数在探索和利用之前进行权衡,保证经验缓冲池样本多样性的同时降低冗余性。
[0028]二、通过状态相似度和动作相似度的加权,可以综合考虑样本的探索效用和利用效用,并随着训练进程的推进而自动调整,可以有效提高样本利用率,并在提高训练速度的同时避免陷入局部最优。
[0029]本申请的第二方面提供了一种深度强化学习模型的训练装置,所述装置包括:构建模块,用于构建强化学习智能体,包括一个在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络;初始化模块,用于初始化网络参数,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度强化学习模型的训练方法,其特征在于,所述方法包括下述步骤:步骤1:构建强化学习智能体,包括一个在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络;步骤2:初始化网络参数,根据环境复杂度计算初步探索系数,分配空间大小为N的经验缓冲池;步骤3:在线演员网络根据当前智能体所处状态s
t
输出相应动作a
t
,智能体执行动作a
t
使环境进入下一状态s
t+1
,并获取<s
t
,a
t
>对应的环境奖励反馈值r
t
,将交互信息元组<s
t
,a
t
,s
t+1
,r
t
>存储到经验缓冲池;步骤4:从经验缓冲池中采样效用最大的交互信息元组;步骤5:使用上一步骤的采样批处理样本更新在线评论家网络和在线演员网络;步骤6:使用在线演员网络软更新目标演员网络,在线评论家网络软更新目标评论家网络;步骤7:当损失函数收敛或者达到预设训练次数,结束训练并获取当前获取网络模型参数。2.如权利1所述训练方法,其特征在于,步骤4中,从经验缓冲池中采样效用最大的交互信息元组样本,效用是指样本对于训练过程的有利程度,即后文所述的样本优先级加权和。采样的步骤包括:第一次采样,从经验缓冲池中采样λ*k个交互信息元组样本;其中,k为批处理样本大小,λ≥1决定优先经验回放的比例,λ=1对应均匀采样,λ=N/k对应选取所有样本中的优先级最高的k个样本。第二次采样,计算从第一次采样的交互信息元组中的样本优先级加权和,从中选取k个样本;样本优先级加权和由两部分组成,一部分是交互信息元组中的状态s
t
和智能体当前所处的状态s
cur
之间的相似度,另一部分是交互信息元组的动作a
t
和当前智能体面对s
t
时所采取的动作φ(s
t
)之间的相似度。交互信息元组中的状态和当前智能体所处的状态之间的相似度为:其中,f(s)表示状态s下对应的状态表征,对于状态为图像的情况,f(s)=(s,θ
s
),θ
s
表示与在线评论家网络参数相同的特征提取神经网络;对于状态为特征的情况,f(s)=s。交互信息元组的动作a
t
和当前智能体在状态s
t
所采取的动...

【专利技术属性】
技术研发人员:张佳能李辉周俊成
申请(专利权)人:成都蓉奥科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1