基于强化学习的机器人回报函数的自适应方法技术

技术编号:36886650 阅读:12 留言:0更新日期:2023-03-15 21:36
本发明专利技术公开了基于强化学习的机器人回报函数的自适应方法,可以根据机器人与环境的交互轨迹学习到回报值,从而指导强化学习算法优化控制策略,避免了回报模型的人工设计干预,能够通过自适应的回报模型提高强化学习在不同场景下的行走控制更加高效。同场景下的行走控制更加高效。同场景下的行走控制更加高效。

【技术实现步骤摘要】
基于强化学习的机器人回报函数的自适应方法


[0001]本专利技术涉及一种机器学习
,具体涉及基于强化学习的机器人回报函数的自适应方法。

技术介绍

[0002]目前机器人行走的控制主要基于传统控制技术开展,但传统控制技术对于机器人行走线路的规划单一,存在线路规划不灵活、复杂场景缺乏应对策略等问题。随着深度学习技术和强化学习的迅猛发展,利用深度神经网络强大的特征学习能力,能够从机器人与外部环境的交互数据中学习到大量行走控制相关的特征,结合强化学习对机器人行走问题的建模,能够实现机器人行走过程中规避障碍物,但是仍然存在需要人工设计交互过程中的回报问题。

技术实现思路

[0003]为了至少克服现有技术中的上述不足,本申请的目的在于提供基于强化学习的机器人回报函数的自适应方法。
[0004]本申请实施例提供了基于强化学习的机器人回报函数的自适应方法,包括:
[0005]使用Actor

Critic网络中的Actor策略控制机器人与外部环境交互获取轨迹数据,并将所述轨迹数据存入环境缓冲池中;
[0006]通过所述环境缓冲池中的数据对回报模型和所述Actor

Critic网络进行更新;所述回报模型基于所述机器人与外部环境交互时发生的状态转移时产生的信息量构建;
[0007]根据更新后的所述Actor

Critic网络控制所述机器人与外部环境交互并获取新的轨迹数据更新所述回报模型和所述Actor

Critic网络。
[0008]现有技术中,通过强化学习对机器人进行行走避障等行走问题的建模高度依赖对机器人行走策略的评价方案,其主要体现在对机器人执行策略进行行走时的回报值计算;目前的机器人执行策略的回报值往往需要人工设计,这需要大量的人力物力来调整回报值设计方案。本申请实施例实施时,回报模型是独立于进行决策的Actor

Critic网络运行的,而Actor

Critic网络本质是用于提供策略的模型,回报模型的目的是为了对策略的优化提供指导。在实际运行时,机器人通过Actor策略与外部环境交互时会产生一定的信息数据,即轨迹数据;而环境缓冲池中的数据会随着轨迹数据的更新而更新,此时可以通过神经网络训练回报模型进行回报模型的更新,使得回报模型可以根据机器人与环境的交互轨迹学习到回报值,从而指导强化学习算法优化控制策略,值得注意的是本专利技术中设计的回报模型不需要人工设计的回报值作为监督学习时的信号,仅使用状态转移存在的信息即可完成对回报的学习与计算,在使用强化学习算法控制机器人完成实际任务时进行指导。
[0009]在一种可能的实现方式中,所述回报函数包括编码器和解码器;
[0010]通过所述环境缓冲池中的数据对回报模型进行更新包括:
[0011]将所述环境缓冲池中当前的状态和动作作为第一输入数据输入所述编码器,并通
过被配置于所述回报模型的神经网络的全连接层和激活层对所述第一输入数据中的信息进行确保信息完整性的压缩,并由所述编码器的最后一层网络输出多维度高斯分布的均值和方差作为第一输出数据;
[0012]通过重参数方法从所述第一输出数据中采样出第二输入数据输入所述解码器,并由所述解码器的最后的全连接层输出下一时刻状态的均值和方差作为第二输出数据;
[0013]使用从所述环境缓冲池中采样到的下一时刻状态和所述第二输出数据对所述解码器和所述编码器进行监督学习训练。
[0014]在一种可能的实现方式中,通过被配置于所述回报模型的神经网络的全连接层和激活层对所述第一输入数据中的信息进行确保信息完整性的压缩采用下式进行:
[0015][0016][0017]式中,z为压缩后的信息,KL为KL散度,q(z)为压缩之后信息的先验概率,s为状态值,a为动作值,p(z∣s,a)为通过s和a压缩到z时的后验概率,μ1为编码器输出的均值,σ1为编码器输出的方差。
[0018]在一种可能的实现方式中,由所述解码器的最后的全连接层输出下一时刻状态的均值和方差作为第二输出数据采用下式进行:
[0019][0020]式中,s

为下一时刻状态,s

i
为从缓冲池中采样出来的下一时刻状态,μ2为解码器中最后一层全连接网络输出的均值,σ2为解码器中最后一层全连接网络输出的方差。
[0021]在一种可能的实现方式中,所述回报模型的优化函数基于所述编码器和所述解码器实现,且所述优化函数采用下式:
[0022][0023]式中,μ1为编码器输出的均值,σ1为编码器输出的方差;μ2为所述解码器输出的下一时刻状态的均值,σ2为所述解码器输出的下一时刻状态的方差。
[0024]在一种可能的实现方式中,使用Actor

Critic网络中的Actor策略控制机器人与外部环境交互获取轨迹数据,并将所述轨迹数据存入环境缓冲池中包括:
[0025]将机器人所在的真实环境中面对的当前状态传输到所述Actor

Critic网络,通过所述Actor

Critic网络计算之后输出动作的均值与方差;所述均值与方差为多维高斯分布;
[0026]从多维高斯分布中采样出动作值送到机器人中,进行相关参数调整,机器人执行相应指令后到一个新的环境状态下;
[0027]将当前状态、当前动作和下一时刻状态同时输入到所述回报模型中,计算得到发生当前状态转移时对应的回报值;
[0028]将当前的状态、当前动作、计算得到回报值以及下一时刻的状态作为所述轨迹数据存储到所述环境缓冲池中。
[0029]在一种可能的实现方式中,计算得到发生当前状态转移时对应的回报值采用下式进行:
[0030][0031]式中,s为输入编码器的状态值,a为输入编码器的动作值,μ1为编码器输出的均值,σ1为编码器输出的方差,z为从编码器的输出中采样出的值且为解码器的输入,z=μ1+∈σ1,μ2为所述解码器输出的下一时刻状态的均值,σ2为所述解码器输出的下一时刻状态的方差,∈是从均值为0和方差为1中采样的值。
[0032]在一种可能的实现方式中,所述Actor

Critic网络的Critic网络包括一个目标Q函数网络和至少两个当前Q函数网络;
[0033]通过所述环境缓冲池中的数据对所述Actor

Critic网络进行更新包括:
[0034]在对当前状态下选择的动作进行评价时,使用所有的当前Q函数网络进行计算,并从计算结果中选取当前Q函数值最小的当前Q函数网络对所述Actor

Critic网络中的Actor网络进行更新;
[0035]将所述计算结果中的当前Q函数值与所述目标Q函数网络组成MSE损失函数对所述当前Q函数网络进行更新;
[0036]对所述目标Q函数网络更新本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于强化学习的机器人回报函数的自适应方法,其特征在于,包括:使用Actor

Critic网络中的Actor策略控制机器人与外部环境交互获取轨迹数据,并将所述轨迹数据存入环境缓冲池中;通过所述环境缓冲池中的数据对回报模型和所述Actor

Critic网络进行更新;所述回报模型基于所述机器人与外部环境交互时发生的状态转移时产生的信息量构建;根据更新后的所述Actor

Critic网络控制所述机器人与外部环境交互并获取新的轨迹数据更新所述回报模型和所述Actor

Critic网络。2.根据权利要求1所述的基于强化学习的机器人回报函数的自适应方法,其特征在于,所述回报函数包括编码器和解码器;通过所述环境缓冲池中的数据对回报模型进行更新包括:将所述环境缓冲池中当前的状态和动作作为第一输入数据输入所述编码器,并通过被配置于所述回报模型的神经网络的全连接层和激活层对所述第一输入数据中的信息进行确保信息完整性的压缩,并由所述编码器的最后一层网络输出多维度高斯分布的均值和方差作为第一输出数据;通过重参数方法从所述第一输出数据中采样出第二输入数据输入所述解码器,并由所述解码器的最后的全连接层输出下一时刻状态的均值和方差作为第二输出数据;使用从所述环境缓冲池中采样到的下一时刻状态和所述第二输出数据对所述解码器和所述编码器进行监督学习训练。3.根据权利要求2所述的基于强化学习的机器人回报函数的自适应方法,其特征在于,通过被配置于所述回报模型的神经网络的全连接层和激活层对所述第一输入数据中的信息进行确保信息完整性的压缩采用下式进行:息进行确保信息完整性的压缩采用下式进行:式中,z为压缩后的信息,KL为KL散度,q(z)为压缩之后信息的先验概率,s为状态值,a为动作值,p(z∣s,a)为通过s和a压缩到z时的后验概率,μ1为编码器输出的均值,σ1为编码器输出的方差。4.根据权利要求3所述的基于强化学习的机器人回报函数的自适应方法,其特征在于,由所述解码器的最后的全连接层输出下一时刻状态的均值和方差作为第二输出数据采用下式进行:式中,s

为下一时刻状态,s

i
为从缓冲池中采样出来的下一时刻状态,μ2为解码器中最后一层全连接网络输出的均值,σ2为解码器中最后一层全连接网络输出的方差。5.根据权利要求4所述的基于强化学习的机器人回报函数的自适应方法,其特征在于,所述回报模型的优化函数基于所述编码器和所述解码器实现,且所述优化函数采用下式:
式中,μ1为编码器输出的均值,σ1为编码器输出的方差;μ2为所述解码器输出的下一时刻状态的均值,σ...

【专利技术属性】
技术研发人员:杨智友符明晟张帆屈鸿
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1