基于对抗架构的强化学习方法技术

技术编号:35072532 阅读:22 留言:0更新日期:2022-09-28 11:35
本发明专利技术公开了一种基于对抗架构的强化学习方法,本发明专利技术相比传统的离散强化学习算法,我们的方法引入对抗架构和目标神经网络。对抗架构使得算法无须直接对动作价值函数Q进行预测,而是可以将该价值函数分解为状态价值函数V(s)和优势函数A(s,a)之和。这种架构可以增强价值函数预测的准确性,并且对于动作选择造成的价值函数变化更加敏感,可以加速算法的收敛。而使用目标网络作为目标价值函数的评估网络,有效降低了对于动作价值函数预测过的估计风险,使得价值函数的预测更加准确,提升了算法的鲁棒性。法的鲁棒性。法的鲁棒性。

【技术实现步骤摘要】
基于对抗架构的强化学习方法


[0001]本专利技术涉及强化学习
,特别涉及一种基于对抗架构的强化学习方法。

技术介绍

[0002]当前针对离散状态动作空间任务的强化学习方法,大多采用DQN(Deep Q

learning)算法。而该算法由于继承了Q学习在动作选择阶段对于最优动作的选择方法,所以在状态价值函数预测上存在过估计的情况,同时,由于算法整体架构直接对动作价值函数进行预测,所以存在预测值不稳定的情况,甚至会产生较大偏差。状态价值函数预测偏差过大,会使得模型训练效率下降,算法收敛不稳定,算法性能不佳等情况。
[0003]
技术实现思路

[0004]根据本专利技术实施例,提供了一种基于对抗架构的强化学习方法,包含如下步骤:创建若干worker模块,若干worker模块与模拟环境交互,每个时隙收集一组经验数据;创建优先级数据缓冲器,当若干worker模块采集到预设数量的经验数据后,将预设数量的经验数据存入优先级数据缓冲器,优先级数据缓冲器对预设数量的经验数据进行优先级排序;创建learner模块,优先级数据缓冲器将高优先级的经验数据送至learner模块进行训练;在learner模块中,会将接收到的高优先级的经验数据分别送至预测神经网络和目标神经网络;预测神经网络对接收到的高优先级的经验数据进行预测,获得动作价值函数;目标神经网络对接收到的高优先级的经验数据进行预测,获得目标动作价值函数;利用动作价值函数和目标动作价值函数的差值作为损失函数,从而反向传播更新预测神经网络的参数信息,在经过预设轮次的更新后,将预测神经网络的参数同步至目标神经网络。
[0005]进一步,经验数据包含:从模拟环境中感知获得的当前状态、当前状态的动作、新的状态信息、标志符以及环境奖励值。
[0006]进一步,预测神经网络和目标神经网络内部均包含:状态价值函数预测网络和优势函数预测网络。
[0007]进一步,预测神经网络对接收到的高优先级的经验数据进行预测,获得动作价值函数包含如下子步骤:预测神经网络内的状态价值函数预测网络对接收到的高优先级的经验数据的当前状态进行预测,获得状态价值函数;
预测神经网络内的优势函数预测网络对接收到的高优先级的经验数据的当前状态和当前状态的动作进行预测,获得优势价值函数;将状态价值函数和优势价值函数相加,获得动作价值函数。
[0008]进一步,目标神经网络利用时序差分的方法,对接收到的高优先级的经验数据进行预测,使用目标神经网络计算获得目标动作价值函数。
[0009]进一步,优先级数据缓冲器是根据经验数据的预期价值函数值的高低来进行优先级排序的。
[0010]进一步,预设轮次为10轮。
[0011]根据本专利技术实施例的基于对抗架构的强化学习方法,相比传统的离散强化学习算法,我们的方法引入对抗架构和目标神经网络。对抗架构使得算法无须直接对动作价值函数Q进行预测,而是可以将该价值函数分解为状态价值函数V(s)和优势函数A(s,a)之和。这种架构可以增强价值函数预测的准确性,并且对于动作选择造成的价值函数变化更加敏感,可以加速算法的收敛。而使用目标网络作为目标价值函数的评估网络,有效降低了对于动作价值函数预测过的估计风险,使得价值函数的预测更加准确,提升了算法的鲁棒性。
[0012]要理解的是,前面的一般描述和下面的详细描述两者都是示例性的,并 且意图在于提供要求保护的技术的进一步说明。
附图说明
[0013]图1为根据本专利技术实施例基于对抗架构的强化学习方法的架构图。
[0014]图2为根据本专利技术实施例基于对抗架构的强化学习方法的流程图。
[0015]图3为根据本专利技术实施例基于对抗架构的强化学习方法的子步骤流程图。
[0016]具体实施方式
[0017]以下将结合附图,详细描述本专利技术的优选实施例,对本专利技术做进一步阐述。
[0018]首先,将结合图1~3描述根据本专利技术实施例的基于对抗架构的强化学习方法,用于进行强化学习,其应用场景很广。
[0019]如图1~2所示,本专利技术实施例的基于对抗架构的强化学习方法,具有如下步骤:在S1中,如图2所示,创建若干worker模块,若干worker模块与模拟环境交互,每个时隙收集一组经验数据。在本实施例中,每个worker,在一个时隙中,首先会根据从模拟环境中感知得到的当前状态st,利用预测神经网络选择可以最大化当前状态的动作价值函数的动作at。智能体在模拟环境中执行动作at,模拟环境根据智能体做出的动作,对状态进行迭代,得到新的状态st+1,并判断此时任务是否触发终止条件,如果触发终止条件则令标志符done为TRUE,并终止任务,反之令标志符done为FALSE,并继续执行任务。环境通过预置的奖励函数得到智能体在时隙t得到的环境奖励值r
t
。由上述可得,将上述五元组数据(st,at,rt,st+1,done)作为一个时隙的经验数据。其中模拟环境可以是任何有强化学习接口的决策任务环境,可以自行建立或利用已有的环境,如OpenAI gym。
[0020]在S2中,如图2所示,创建优先级数据缓冲器,当若干worker模块采集到预设数量的经验数据后,将预设数量的经验数据存入优先级数据缓冲器,优先级数据缓冲器对预设
数量的经验数据进行优先级排序。进一步,优先级数据缓冲器是根据经验数据的预期价值函数值的高低来进行优先级排序的,将价值函数较高的、出现较少的经验数据标定为高优先级的经验数据。
[0021]在S3中,如图2所示,创建learner模块,优先级数据缓冲器将高优先级的经验数据送至learner模块进行训练。
[0022]在S4中,如图2所示,在learner模块中,会将接收到的高优先级的经验数据分别送至预测神经网络和目标神经网络。在本实施例中,进一步,预测神经网络和目标神经网络内部均包含:状态价值函数预测网络和优势函数预测网络。预测神经网络为待训练的网络,需要通过大量的经验数据进行参数训练。而目标神经网络则是为了减少训练偏差造成的影响而设置的,会在固定时隙步后同步预测神经网络的参数。
[0023]在S5中,如图2所示,预测神经网络对接收到的高优先级的经验数据进行预测,获得动作价值函数。
[0024]进一步,预测神经网络对接收到的高优先级的经验数据进行预测,获得动作价值函数包含如下子步骤:在S51中,如图3所示,预测神经网络内的状态价值函数预测网络对接收到的高优先级的经验数据的当前状态st进行预测,获得状态价值函数V(st);在S52中,如图3所示,预测神经网络内的优势函数预测网络对接收到的高优先级的经验数据的当前状态st和当前状态的动作at进行预测,获得优势价值函数A(st,at);在S53中,如图3所示,将状态价值函数和优势价值函数相加,获得动作价值函数Q(st,at;)。其中θ是状态价值函数预测网络的参数,w是优势函数预测网络的参数。
[0025]在S6中,如图2所示,目标神经网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对抗架构的强化学习方法,其特征在于,包含如下步骤:创建若干worker模块,所述若干worker模块与模拟环境交互,每个时隙收集一组经验数据;创建优先级数据缓冲器,当所述若干worker模块采集到预设数量的经验数据后,将预设数量的所述经验数据存入所述优先级数据缓冲器,所述优先级数据缓冲器对预设数量的所述经验数据进行优先级排序;创建learner模块,所述优先级数据缓冲器将高优先级的所述经验数据送至所述learner模块进行训练;在所述learner模块中,会将接收到的高优先级的所述经验数据分别送至预测神经网络和目标神经网络;所述预测神经网络对接收到的高优先级的所述经验数据进行预测,获得动作价值函数;所述目标神经网络对接收到的高优先级的所述经验数据进行预测,获得目标动作价值函数;利用所述动作价值函数和所述目标动作价值函数的差值作为损失函数,从而反向传播更新所述预测神经网络的参数信息,在经过预设轮次的更新后,将所述预测神经网络的参数同步至所述目标神经网络。2.如权利要求1所述基于对抗架构的强化学习方法,其特征在于,所述经验数据包含:从模拟环境中感知获得的当前状态、当前状态的动作、新的状态信息、标志...

【专利技术属性】
技术研发人员:曹江杨思明高原郭洋王平王景王晓楠
申请(专利权)人:中国人民解放军军事科学院战争研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1