当前位置: 首页 > 专利查询>中国人民解放军军事科学院国防科技创新研究院专利>正文

一种双评价器单执行器的强化学习方法及系统技术方案

技术编号：29703937 阅读：18 留言：0更新日期：2021-08-17 14:32

本发明专利技术公开了一种双评价器单执行器的强化学习方法及系统，包括：S1初始化双评价器单执行器中的参数，并设置策略网络的损失函数中各评价器的比例系数；S2根据初始化噪声函数在初始化环境中得到一个状态；S3根据当前状态、当前策略和噪声函数计算动作，执行所述动作观察奖励和下一个状态，将当前状态、动作、奖励和下一状态作为经验存到缓冲区；S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数；根据设定的迭代条件重复上述步骤训练双评价器单执行器的强化学习；其中，所述评价器包括基于奖励的评价器和基于人工势场的评价器。本发明专利技术解决了无模型强化学习中，样本利用率不高、训练收敛速度慢等问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种双评价器单执行器的强化学习方法及系统
本专利技术涉及智能体路径规划领域，具体涉及一种双评价器单执行器的强化学习方法及系统。
技术介绍
目前大多数无模型强化学习算法都采用了在策略评估和策略改进之间迭代的广义策略迭代，策略评估方法是对行为价值函数进行估计，而策略改进方法则是根据行为价值函数对策略进行更新。基于广义策略迭代和策略梯度定理，Actor-Critic(AC，强化学习)已经成为一种广泛使用的架构。确定性策略梯度算法(Deterministicpolicygradient，DPG)在AC框架的基础上进一步考虑了确定性策略梯度算法用于连续动作，与随机策略相比，DPG在策略评估时降低了方差。深度确定策略梯度(DeepDeterministicPolicyGradient，DDPG)进一步将Deepneuralnetworks与DPG结合，提高建模能力。然而，无模型AC算法和DDPG算法都是通过直接与环境交互产生样本，存在采样效率低、收敛速度慢等的问题。基于模型的规划方法，通过使用学习得到的模型进行模拟推演来加速学习或者获得更好的动作状态的价值估计。虽然计算效率更高，收敛速度也更快，但是规划的准确性与环境的动力学模型的精度是息息相关的。现实情况中，环境受空气温度、摩擦阻力、通信时延、材料特性等各种随机因素影响大。规划所需要的环境的动力学模型现实中往往无法得到。此外，规划方法对环境模型的依赖性太强，对新环境的泛化能力较弱，环境一旦发生变化，就需要重新规划。然而环境往往随时间的变化而变化，想要获得完全模拟...

【技术保护点】
1.一种双评价器单执行器的强化学习方法，其特征在于，包括：/nS1初始化双评价器单执行器中的参数，并设置策略网络的损失函数中各评价器的比例系数；/nS2根据初始化噪声函数在初始化环境中得到一个状态；/nS3根据当前状态、当前策略和噪声函数计算动作，执行所述动作观察奖励和下一个状态，将当前状态、动作、奖励和下一状态作为经验存到缓冲区；/nS4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数；/nS5判断训练步数是否达到一幕的最大步数，若是，则更新幕数并执行S6，否则更新步数并执行S3；/nS6判断所述幕数是否达到设定的最大幕数，若是，则训练结束，否则初始化步数执行S2；/n其中，所述评价器包括基于奖励的评价器和基于人工势场的评价器。/n

【技术特征摘要】
1.一种双评价器单执行器的强化学习方法，其特征在于，包括：
S1初始化双评价器单执行器中的参数，并设置策略网络的损失函数中各评价器的比例系数；
S2根据初始化噪声函数在初始化环境中得到一个状态；
S3根据当前状态、当前策略和噪声函数计算动作，执行所述动作观察奖励和下一个状态，将当前状态、动作、奖励和下一状态作为经验存到缓冲区；
S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数；
S5判断训练步数是否达到一幕的最大步数，若是，则更新幕数并执行S6，否则更新步数并执行S3；
S6判断所述幕数是否达到设定的最大幕数，若是，则训练结束，否则初始化步数执行S2；
其中，所述评价器包括基于奖励的评价器和基于人工势场的评价器。

2.如权利要求1所述的强化学习方法，其特征在于，所述S1初始化双评价器单执行器中的参数，并设置策略网络的损失函数中各评价器的比例系数，包括：
S101随机初始化基于奖励的评价器的值函数网络和执行器的策略网络；
S102初始化目标网络的权重；
S103初始化经验回放缓存区；
S104设置策略网络的损失函数中各评价器的比例系数。

3.如权利要求1所述的强化学习方法，其特征在于，所述策略网络的损失函数，如下式所示：

式中：J(μθ)为策略网络的损失函数；θ为执行器的策略网络参数；为状态空间；ρμ(s，γ1)为在折扣γ1下的状态分布；s为当前状态；γ1为奖励折扣系数；μθ(s)为策略函数；r(s，μθ(s))为在状态s时采取策略μθ能获得的奖励；β为双评价器的比例系数；ρμ(s，γ2)为在折扣γ2下的状态分布；γ2为势场值的折扣系数；qPF(s，μθ(s))为在状态s执行策略μθ时基于势场的状态-动作函数。

4.如权利要求1所述的强化学习方法，其特征在于，根据当前状态、当前策略和噪声函数按下式计算动作：
at＝μ(s|θ)+Nt
式中：at为t时刻的动作；μ(s|θ)为当前状态s在当前策略下的结果；s为当前状态；θ为执行器的策略网络参数；Nt为根据噪声函数得到t时刻的噪声。

5.如权利要求1所述的强化学习方法，其特征在于，所述S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数，包括：
S401根据从所述缓冲区中采集的N个样本，以及值函数网络更新公式更新基于奖励的评价器的值函数网络；
S402根据从所述缓冲区中采集的N个样本和预设的人工势场的状态-动作值函数，计算基于人工势场的评价器的状态-动作值函数的值；
S403根据从所述缓冲区中采集的N个样本和所述损失函数，以及策略网络参数更新公式更新执行器的策略网络；
S404根据策略网络参数θ和策略网络μ更新目标网络。

6.如权利要求5所述的强化学习方法，其特征在于，所述人工势场的状态-动作值函数，如下式所示：

式中：QPF(s，a)为人工势场的状态-动作值函数；s是当前状态；a为动作；U(s)为状态s下的势场值；γ2...

【专利技术属性】
技术研发人员：任维雅，周仕扬，任小广，王彦臻，易晓东，
申请(专利权)人：中国人民解放军军事科学院国防科技创新研究院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人