【技术实现步骤摘要】
一种基于机械臂姿态活动自由度的强化学习方法
[0001]本专利技术涉及机械臂智能控制领域,具体为一种基于机械臂姿态活动自由度的强化学习方法
。
技术介绍
[0002]2021
年,
Zehong
等人针对强化学习方法训练机械臂任务过程中收敛速度慢,收敛难度高的问题,提出了使用人类经验进行辅助评估的方法
。
通过采集一定量的人类控制下机械臂完成特定任务的操作数据,以监督学习的方式训练获得一个能够判断操作合理性的评判智能体,之后在强化学习的训练阶段,通过参考评判智能体的反馈,以引导智能体做出类似人类操控过程的决策过程
。
[0003]2021
年,
Ali
等人通过将机械臂任务按照处理流程进行拆分,并以人类关于处理过程的先验知识建立起行为树,充分简化了智能体的决策空间,从而完成简单的人机协作任务
。
[0004]空间探索方面,在
2016
年的
ICLR
会议上,
Tom
等人提出借助
TD
‑
error
的方式,调整经验数据池中数据重放的采样频率,以更高的概率采样
TD
‑
error
较大的数据,即估计与实际计算差别较大的一部分数据
。
[0005]2017
年,
Andrychowicz
提出
HER
算法,在环境中设定一个短期的实现目标,通过对 ...
【技术保护点】
【技术特征摘要】
1.
一种基于机械臂姿态活动自由度的强化学习方法,其特征在于,包括:
S1
:构建机械臂的三维仿真模型;
S2
:在机械臂各关节的中心位置设置锚点,调整控制锚点旋转,实时查看机械臂动态变化,以建立机械臂的运动模型与控制模型;
S3
:在仿真场景中设置支撑平台和需抓取的目标物块;
S4
:搭建强化学习环境:
S41
:建立观测空间
[
Δ
x
target
,
Δ
y
target
,
Δ
z
target
,
angles]
,式中,
Δ
x
target
,
Δ
y
target
,
Δ
z
target
分别表示机械臂末端与目标物块的相对位置,
angles
表示机械臂各个关节的夹角;
S42
:基于观测空间观测机械臂与目标物块的相对位置和机械臂各关节的夹角;
S43
:通过控制机械臂各关节逆时针旋转
、
保持当前位置和顺时针旋转,建立机械臂的动作空间;所述逆时针旋转
、
保持当前位置和顺时针旋转的范围为
S44
:设置基础奖励函数
R
T
,
R
T
=
‑
e
Distance
,式中,
Distance
为机械臂末端与目标物块的直线距离;
S5
:基于
SAC
算法搭建强化学习算法:
S51
:引入中心关节夹角正弦值
λ
,将观测空间拓展为
[
Δ
x
target
,
Δ
y
target
,
Δ
z
target
,
angles
,
λ
]
;
S52
:将
λ
引入
R
T
得到扩展奖励函数
R
,
R
=
ωλ
+(1
‑
...
【专利技术属性】
技术研发人员:杨红雨,王进林,季玉龙,朱珑涛,王一,何扬,周文涛,
申请(专利权)人:四川大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。