本发明专利技术公开了一种基于最大置信度上界的交替深度Q网络方法,包括:初始化多个各自独立的深度Q网络,公共历史经验回放池,网络选择次数;初始化环境状态;根据Q
【技术实现步骤摘要】
一种基于最大置信度上界的交替深度Q网络方法
[0001]本专利技术属于机器学习领域,具体涉及一种基于最大置信度上界的交替深度Q网络方法。
技术介绍
[0002]在强化学习问题中,智能体与环境进行交互,并学习如何在当前状态下采取最好的动作以最大化未来累计奖励。传统的强化学习算法都已经在简单强化学习问题上取得了不错的效果。而将强化学习与深度学习相结合的深度强化学习在许多复杂高维的领域都取得了巨大的成功。例如通过将深度学习与Q学习算法相结合得到了深度Q网络算法。即通过参数为的神经网络函数来近似状态动作价值函数。在与环境进行交互时,深度Q网络采取的是离策略,即在与环境交互时采取
‑
贪心策略进行交互;在估计最优动作状态价值函数时采取的是贪心策略。
[0003]在现实场景中,强化学习需要与环境进行交互以获取知识与信息。而智能体需要很好地平衡利用与探索。现有的利用与探索策略如epsilon贪心策略在探索的时候没有很好地考虑到历史的经验信息,因此会有探索效率低下等问题,因此无法去完成一些需要很强探索性的任务场景。
[0004]在实际环境中,智能体常常面对的是未知的环境,所能获取的关于环境的信息很少,只能通过之前的交互经验来学习。并且还常常面对着探索与利用的难题,智能体需要去探索不同的环境以提升未来的奖励,会牺牲一些眼前的一些奖励,以使得最终获得的奖励最大化。并且智能体需要进行有效的探索,以使得样本采样有效性最大化,从而使得智能体训练效率提升。而如何进行有效的探索一直是一个尚未解决的难题。
专利
技术实现思路
[0005]专利技术目的:为了克服现有技术中存在的强化学习任务中样本效率与算法效率低下的问题,提供一种基于最大置信度上界的交替深度Q网络方法,能够利用多个网络协作共同探索,以提升探索效率。
[0006]技术方案:为实现上述目的,本专利技术提供一种基于最大置信度上界的交替深度Q网络方法,包括如下步骤:
[0007]S1:初始化k个各自独立的深度Q网络公共历史经验回放池B,网络选择次数N
i
;
[0008]S2:初始化环境状态s0;
[0009]S3:根据Q
‑
UCB策略选择Q网络;
[0010]S4:根据步骤S3获取的Q网络,选择并执行动作,获得新环境状态s
t+1
和奖励r
t
;
[0011]S5:将步骤S4获取的信息存储进公共历史经验回放池中;
[0012]S6:更新网络选择次数;
[0013]S7:从公共历史经验回放池中独立随机采样更新深度Q网络;
[0014]S8:重复步骤S2~S7直到网络收敛。
[0015]进一步地,所述步骤S3具体为:
[0016]计算每个网络的Q
‑
UCB值,选择Q
‑
UCB值最大的Q网络。
[0017]进一步地,所述Q
‑
UCB值的计算方法为:
[0018][0019]其中,为网络的最优状态动作价值,即在使用贪心策略时,智能体会选择的最优动作的状态动作价值,为Q
i
的历史选择次数比,代表了该网络的不确定性。
[0020]进一步地,所述步骤S4中执行的动作具体为:
[0021]a
t
=argmax
a Q
i
(s
t
,a)。
[0022]进一步地,所述步骤S5中获取的信息包括(s
t
,a
t
,r
t
,s
t+1
)。
[0023]进一步地,所述步骤S7中采用自动微分技术对深度Q网络进行更新,具体为:
[0024][0025]其中,为目标值,Q(s,a|θ
‑
)为参数固定为θ
‑
的目标Q网络,其初始化参数与策略Q网络参数一致,每过一段时间就会将策略Q网络的参数赋予目标Q网络,θ
‑
←
θ。
[0026]本专利技术通过使用多个不同初始化的深度Q网络进行加速探索,并且基于最大置信度上界算法提出了一种交替深度Q网络的策略算法,即在当前状态下根据UCB值来确定该使用哪个深度Q网络进行交互,目的是能够利用多个网络协作共同探索,以提升探索效率。
[0027]不同与以往的深度Q网络算法,本专利技术解决的是强化学习任务中样本效率与算法效率低下的问题,传统的深度Q网络只使用单个智能体与环境进行交互以获得经验,且其探索能力只能依靠
‑
贪心策略,所获取到的经验样本单一,从而使得网络样本效率低下。本专利技术将一个强化学习问题,即马尔克夫决策过程,转换为让多个智能体轮流进行单独决策,共同完成目标的决策问题。
[0028]本专利技术采取(k≥2)多个不同初始化的深度Q网络Q(s,a|θ
i
)(i=1,
…
,k),简记为Q
i
。并使用一个公共的历史经验回放池B,所有的历史交互经验样本全都存于B当中。所研究的环境为单智能体的环境,因此每个时刻只会选择一个深度Q网络与环境进行交互。而本方面采用基于UCB的策略来选择交互的深度Q网络,并且每个网络在交互时只使用贪心策略进行探索。因此在每个step的状态s时,会选择一个最佳的Q网络;每个episode会交替着选择多个不同的Q网络。所有的交互经验信息都会存放到B中。在每次更新网络时,每个网络都会从B中各自采样一批样本来训练。
[0029]有益效果:本专利技术与现有技术相比,基于神经网络自身初始化的探索性能结合最大置信度上界策略进行交替探索,使用多个Q网络进行协作决策,提升了探索效率,解决了强化学习任务中样本效率与算法效率低下的问题,提升了Q网络的性能。如图2和图3所示,本专利技术能够更快地收敛到更优的策略。
附图说明
[0030]图1为本专利技术方法的流程示意图;
[0031]图2为平衡摆车(CartPole)强化学习实验环境下的网络性能对比图;
[0032]图3为打砖块(MinAtar
‑
Breakout)强化学习实验环境下的网络性能对比图。
具体实施方式
[0033]下面结合附图和具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0034]如图1所示,本专利技术提供一种基于最大置信度上界的交替深度Q网络方法,用于智能体高效地进行利用与探索以进行正确地决策,其包括如下步骤:
[0035]S1:初始化环境以及参数以用于后续训练:
[0036]初始化k个各自独立的深度Q网络公共历史经验回放池B,网络选择次数N
i
。
[0037]S2:获取任务环境的初始状态以让智能体开始进行决策:
[0038本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于最大置信度上界的交替深度Q网络方法,其特征在于,包括如下步骤:S1:初始化k个各自独立的深度Q网络公共历史经验回放池B,网络选择次数N
i
;S2:初始化环境状态s0;S3:根据Q
‑
UCB策略选择Q网络;S4:根据步骤S3获取的Q网络,选择并执行动作,获得新环境状态s
t+1
和奖励r
t
;S5:将步骤S4获取的信息存储进公共历史经验回放池中;S6:更新网络选择次数;S7:从公共历史经验回放池中独立随机采样更新深度Q网络;S8:重复步骤S2~S7直到网络收敛。2.根据权利要求1所述的一种基于最大置信度上界的交替深度Q网络方法,其特征在于,所述步骤S3具体为:计算每个网络的Q
‑
UCB值,选择Q
‑
UCB值最大的Q网络。3.根据权利要求2所述的一种基于最大置信度上界的交替深度Q网络方法,其特征在于,所述Q
‑
UCB值的计算方法为:其中,为网络的最优状态动作价值,为Q
i
的历史选择次数比,代表了该网络的不确定性。4.根据权利要求1所述的一种基于最大...
【专利技术属性】
技术研发人员:谭晓阳,吴卿源,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。