本发明专利技术公开的一种基于离线环境交互的机器人控制方法,包括通过摄像头采集环境信息,生成目标行动者网络,通过离线数据集建立目标评论家网络,将目标行动者网络输入目标评论家网络进行更新;采集当前评论家网络,将目标评论家网络与当前评论家网络进行比较,得到偏差率;判断所述偏差率是否大于预设偏差率阈值,若大于,则生成损失函数,通过损失函数对当前评论家网络进行更新,得到更新后的当前评论家网络;根据更新后的当前评论家网络生成截断固定原子数量;通过截断固定原子数量生成目标值输入当前行动者网络;通过当前行动者网络控制机器人执行相应的动作。机器人执行相应的动作。机器人执行相应的动作。
A robot control method based on off-line environment interaction
【技术实现步骤摘要】
一种基于离线环境交互的机器人控制方法
[0001]本专利技术涉及机器人控制领域,更具体的,涉及一种基于离线环境交互的机器人控制方法。
技术介绍
[0002]人工智能在互联网、智能云计算、自动驾驶等领域有着强大的产能推动力。机器学习的一个重要研究领域是强化学习。强化学习研究的是智能体如何感知环境并能够采取最优的行动,通常采用最新的策略与环境进行交互并收集经验,其目标是最大化累计回报来探索当前环境的最优策略。但传统强化学习无法感知高维状态动作空间,难以在复杂现实环境应用。随着硬件计算能力的指数提升,深度学习取得了重大的突破,拥有组合多个非线性网络层来提取高维度数据特征的能力。因此深度强化学习将深度学习的高维特征提取能力和强化学习的序贯决策能力相结合,是目前解决高维环境最优策略任务的主要方法。
[0003]深度强化学习算法的智能体与在线环境进行交互,通过收集在线交互经验样本来训练得到最优的策略。但随着DRL算法逐渐应用到现实工业技术上,发现算法很难落地在机器人技术以及自动驾驶技术等问题。因为与现实环境在线交互收集大量样本的方式,可能会极大地降低采集样本的效率,并且容易导致意想不到的行为。同时,在仿真环境中运行在线强化学习算法,则需要具有高保真度的仿真环境,而这种环境建造成本极其昂贵且难度巨大。对于现实中存在的大量已收集的在线交互数据,离线强化学习也称批处理强化学习,其目标是探索如何利用收集得到的交互数据(即用某个在线策略与环境交互保留后的经验样本)中学习最优策略,在没有任何其他在线交互的情况下,仅利用先前收集到的数据集来学习策略,如同监督学习的机器学习方法,利用已有的数据集有效地训练出强大模式识别器(图像分类器、语音识别引擎等)。深度强化学习自身也拥有强大的函数逼近能力,利用足够大的数据集样本改进智能体的决策网络,使得智能体的策略逐步接近数据集分布上的最优策略。
[0004]离线强化学习问题可以定义为强化学习如何有效利用离线样本数据问题。算法最终目标依然是最优化策略从而达到最终状态,但是智能体在离线训练过程中无法再与环境直接交互,只能使用其他行为策略收集到的离线信息进行训练。离线信息将会组合成一个静态的状态转移数据集,算法须利用该数据集并学习到所能学习的最佳策略。本质上,离线强化学习算法需要具备如何从一个固定的数据集中获得对马尔科夫决策过程充分理解的功能。因为离线算法学习必须完全依赖静态数据集,没有探索新样本实时地进行策略改进的功能。所以在利用离线数据过程中往往容易出现探索离线数据集中未出现的状态动作对的区域,使得学习到的离线值分布和真实的值分布存在较大的偏差从而高估了未出现的状态动作值,算法出现分布外样本动作误差现象。
技术实现思路
[0005]为了解决上述至少一个技术问题,本专利技术提出了一种基于离线环境交互的机器人
控制方法。
[0006]本专利技术第一方面提供了一种基于离线环境交互的机器人控制方法,其特征在于,包括如下步骤:
[0007]S1,通过摄像头采集环境信息,生成目标行动者网络,
[0008]S2,通过离线数据集建立目标评论家网络,将目标行动者网络输入目标评论家网络进行更新;
[0009]S3,采集当前评论家网络,将目标评论家网络与当前评论家网络进行比较,得到偏差率;
[0010]S4,判断所述偏差率是否大于预设偏差率阈值,
[0011]S5,若大于,则生成损失函数,通过损失函数对当前评论家网络进行更新,得到更新后的当前评论家网络;
[0012]S6,根据更新后的当前评论家网络生成截断固定原子数量;
[0013]S7,通过截断固定原子数量生成目标值输入当前行动者网络;
[0014]S8,通过当前行动者网络控制机器人执行相应的动作。
[0015]本专利技术一个较佳实施例中,目标评论家网络为两个,通过两个评论家神经网络来更新Q(s,a),两个网络的参数记为θ1,θ2,目标函数的更新公式为
[0016][0017]缓解高估问题的同时,为目标动作添加截断噪声:
[0018][0019]本专利技术一个较佳实施例中,使用已收集未知策略交互样本的离线数据集Β;
[0020]初始化总迭代次数T,折扣因子γ,τ=0.0001,c=0.5,e
max
,e
min
,e;
[0021]VEA模型参数
[0022]循环针对情节中每一时间步;
[0023]从数据集Β中取随机批量样本(s,a,r,s
′
);
[0024]根据编码输入s,a,解码输出计算值函数:
[0025][0026]更新VEA模型参数:
[0027][0028]本专利技术一个较佳实施例中,VAE是一个生成模型,实现最大化边际对数似然对数计算X={x1,x2,x3,x4......,x
n
}边际对数似然对数通过优化变分下界计算:
[0029]logp(X)≥
[0030]E
q(X|z)
[logp(X|z)]+D
KL
(q(z|X)||p(z))
[0031]其中p(z)为多元正态分布N(0,1),定义后验q(z|X)=N(z|u(X),σ2(X)I)为编码器,p(X|z)为解码器,给定样本通过解码器产生一个随机潜在变量z,给编码器重建原始样
本X,VAE模型根据重建损失函数进行训练,重新参数化对变分下界进行梯度下降,公式为:
[0032]E
z~N(μ,σ)
[f(z)]=E
ε~N(0,1)
[f(μ+σε)]。
[0033]本专利技术一个较佳实施例中,
[0034]根据所得权重来截断Q原子数量,衡量公式为:
[0035][0036]通过KL散度计算当前策略和预测策略的距离,计算变量值。
[0037]本专利技术一个较佳实施例中,根据最小化损失函数来更新评论家网络参数w:
[0038]w
←
argmin
w
∑(Y
‑
Q
w
(s,a))2[0039]最大化目标函数来更新行动者网络参数θ:
[0040][0041]本专利技术一个较佳实施例中,目标评论家网络的更新方式为
[0042]y
i
=r+γ(z
(i)
(s
′
,a
′
))i∈[1...KN][0043][0044]y
i
是网络i的状态动作值,Y(s,a)是使用截断控制高估偏差方法后输出更真实的状态动作值。
[0045]本专利技术的上述技术方案相比现有技术具有以下优点:
[0046]本专利在选取最大状态动作值(Q值)对应的动作时,只考虑实际在离线数据中出现的动作,不必要考虑动作空间所有的动作以及约束算法的状态分布转移,使分布转移有界,从而要求学习到的策略分布与行为策略分布接近,则不会出现很大的动本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于离线环境交互的机器人控制方法,其特征在于,包括如下步骤:S1,通过摄像头采集环境信息,生成目标行动者网络,S2,通过离线数据集建立目标评论家网络,将目标行动者网络输入目标评论家网络进行更新;S3,采集当前评论家网络,将目标评论家网络与当前评论家网络进行比较,得到偏差率;S4,判断所述偏差率是否大于预设偏差率阈值,S5,若大于,则生成损失函数,通过损失函数对当前评论家网络进行更新,得到更新后的当前评论家网络;S6,根据更新后的当前评论家网络生成截断固定原子数量;S7,通过截断固定原子数量生成目标值输入当前行动者网络;S8,通过当前行动者网络控制机器人执行相应的动作。2.根据权利要求1所述的一种基于离线环境交互的机器人控制方法,其特征在于,目标评论家网络为两个,通过两个评论家神经网络来更新Q(s,a),两个网络的参数记为θ1,θ2,目标函数的更新公式为:r为样本记录的离线环境回报值,γ是回报衰减度,通过计算更新公式,来更新现在的目标值y;缓解高估问题的同时,为目标动作添加截断噪声:通过μ(s
′
,θ
′
)评论家获取动作值,并且加入ε截断噪声,获取到下一步动作3.根据权利要求1所述的一种基于离线环境交互的机器人控制方法,其特征在于,使用已收集未知策略交互样本的离线数据集Β;初始化总迭代次数T,折扣因子γ,偏移量τ=0.0001,c=0.5,训练过程控制头最大范围e
max
,已经记录的最小范围e
min
,当前值e;VEA模型参数循环针对情节中每一时间步;从数据集Β中取随机批量样本(s,a,r,s
′
);根据编码输入s,a,解码输出计算值函数:z~N(μ,σ)更新VEA模型参数:4.根据权利要求3所述的一种基于离线环境交互的机器人控制方法,其特征在于...
【专利技术属性】
技术研发人员:刘全,欧阳震,朱斐,
申请(专利权)人:苏州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。