一种基于最大置信度上界的交替深度Q网络方法技术

技术编号：30761629 阅读：30 留言：0更新日期：2021-11-10 12:15

本发明专利技术公开了一种基于最大置信度上界的交替深度Q网络方法，包括：初始化多个各自独立的深度Q网络，公共历史经验回放池，网络选择次数；初始化环境状态；根据Q

全部详细技术资料下载

【技术实现步骤摘要】
一种基于最大置信度上界的交替深度Q网络方法

[0001]本专利技术属于机器学习领域，具体涉及一种基于最大置信度上界的交替深度Q网络方法。

技术介绍

[0002]在强化学习问题中，智能体与环境进行交互，并学习如何在当前状态下采取最好的动作以最大化未来累计奖励。传统的强化学习算法都已经在简单强化学习问题上取得了不错的效果。而将强化学习与深度学习相结合的深度强化学习在许多复杂高维的领域都取得了巨大的成功。例如通过将深度学习与Q学习算法相结合得到了深度Q网络算法。即通过参数为的神经网络函数来近似状态动作价值函数。在与环境进行交互时，深度Q网络采取的是离策略，即在与环境交互时采取
‑
贪心策略进行交互；在估计最优动作状态价值函数时采取的是贪心策略。
[0003]在现实场景中，强化学习需要与环境进行交互以获取知识与信息。而智能体需要很好地平衡利用与探索。现有的利用与探索策略如epsilon贪心策略在探索的时候没有很好地考虑到历史的经验信息，因此会有探索效率低下等问题，因此无法去完成一些需要很强探索性的任务场景。
[0004]在实际环境中，智能体常常面对的是未知的环境，所能获取的关于环境的信息很少，只能通过之前的交互经验来学习。并且还常常面对着探索与利用的难题，智能体需要去探索不同的环境以提升未来的奖励，会牺牲一些眼前的一些奖励，以使得最终获得的奖励最大化。并且智能体需要进行有效的探索，以使得样本采样有效性最大化，从而使得智能体训练效率提升。而如何进行有效的探索一直是一个尚未解决的难题。
专...

【技术保护点】

【技术特征摘要】
1.一种基于最大置信度上界的交替深度Q网络方法，其特征在于，包括如下步骤：S1：初始化k个各自独立的深度Q网络公共历史经验回放池B，网络选择次数N
i
；S2：初始化环境状态s0；S3：根据Q
‑
UCB策略选择Q网络；S4：根据步骤S3获取的Q网络，选择并执行动作，获得新环境状态s
t+1
和奖励r
t
；S5：将步骤S4获取的信息存储进公共历史经验回放池中；S6：更新网络选择次数；S7：从公共历史经验回放池中独立随机采样更新深度Q网络；S8：重复步骤S2～S7直到网络收敛。2.根据权利要求1所述的一种基于最大置信度上界的交替深度Q网络方法，其特征在于，所述步骤S3具体为：计算每个网络的Q
‑
UCB值，选择Q
‑
UCB值最大的Q网络。3.根据权利要求2所述的一种基于最大置信度上界的交替深度Q网络方法，其特征在于，所述Q
‑
UCB值的计算方法为：其中，为网络的最优状态动作价值，为Q
i
的历史选择次数比，代表了该网络的不确定性。4.根据权利要求1所述的一种基于最大...

【专利技术属性】
技术研发人员：谭晓阳，吴卿源，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人