【技术实现步骤摘要】
一种深度强化学习模型的训练方法、装置及存储介质
[0001]本申请例涉及机器学习领域,具体而言,涉及一种深度强化学习模型的训练方法、装置及存储介质。
技术介绍
[0002]深度强化学习作为机器学习领域的一个重要分支,已经被广泛用于解决各类复杂的决策问题,例如影像游戏、机器控制,交通信号灯控制等。深度强化学习智能体采用“试错”的方式与环境交互,通过最大化从环境中获得的累计奖励来学习最优策略,往往需要数以万计次的尝试才可能收敛。如何加快强化学习的收敛速度和样本的利用率是近年来的关注焦点。
[0003]经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式集中于如何从经验缓冲池中采样可以加快神经网络的速度,例如以TD
‑
error、 Reward为标准进行经验样本的选取。但这类采样会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优。
技术实现思路
[0004]本申请提供一种深度强化学习模型的训练方法、装置及存储介质,旨在解决由于现有优先经验回放方法无法提供一种有效的采样方式,忽略采样样本的探索效用以及利用效用,导致的训练易收敛至局部最优的问题。
[0005]本申请的第一方面提供了一种深度强化学习模型的训练方法,所述方法包括以下步骤:构建强化学习智能体,包括一个在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络; ...
【技术保护点】
【技术特征摘要】
1.一种深度强化学习模型的训练方法,其特征在于,所述方法包括下述步骤:步骤1:构建强化学习智能体,包括一个在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络;步骤2:初始化网络参数,根据环境复杂度计算初步探索系数,分配空间大小为N的经验缓冲池;步骤3:在线演员网络根据当前智能体所处状态s
t
输出相应动作a
t
,智能体执行动作a
t
使环境进入下一状态s
t+1
,并获取<s
t
,a
t
>对应的环境奖励反馈值r
t
,将交互信息元组<s
t
,a
t
,s
t+1
,r
t
>存储到经验缓冲池;步骤4:从经验缓冲池中采样效用最大的交互信息元组;步骤5:使用上一步骤的采样批处理样本更新在线评论家网络和在线演员网络;步骤6:使用在线演员网络软更新目标演员网络,在线评论家网络软更新目标评论家网络;步骤7:当损失函数收敛或者达到预设训练次数,结束训练并获取当前获取网络模型参数。2.如权利1所述训练方法,其特征在于,步骤4中,从经验缓冲池中采样效用最大的交互信息元组样本,效用是指样本对于训练过程的有利程度,即后文所述的样本优先级加权和。采样的步骤包括:第一次采样,从经验缓冲池中采样λ*k个交互信息元组样本;其中,k为批处理样本大小,λ≥1决定优先经验回放的比例,λ=1对应均匀采样,λ=N/k对应选取所有样本中的优先级最高的k个样本。第二次采样,计算从第一次采样的交互信息元组中的样本优先级加权和,从中选取k个样本;样本优先级加权和由两部分组成,一部分是交互信息元组中的状态s
t
和智能体当前所处的状态s
cur
之间的相似度,另一部分是交互信息元组的动作a
t
和当前智能体面对s
t
时所采取的动作φ(s
t
)之间的相似度。交互信息元组中的状态和当前智能体所处的状态之间的相似度为:其中,f(s)表示状态s下对应的状态表征,对于状态为图像的情况,f(s)=(s,θ
s
),θ
s
表示与在线评论家网络参数相同的特征提取神经网络;对于状态为特征的情况,f(s)=s。交互信息元组的动作a
t
和当前智能体在状态s
t
所采取的动...
【专利技术属性】
技术研发人员:张佳能,李辉,周俊成,
申请(专利权)人:成都蓉奥科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。