当前位置: 首页 > 专利查询>浙江大学专利>正文

基于多智能体深度强化学习的移动物体机械臂抓取方法技术

技术编号:39720028 阅读:8 留言:0更新日期:2023-12-17 23:26
本发明专利技术公开了一种基于多智能体深度强化学习的移动物体机械臂抓取方法

【技术实现步骤摘要】
基于多智能体深度强化学习的移动物体机械臂抓取方法


[0001]本专利技术属于机械臂控制领域的一种机械臂抓取物体的方法,尤其涉及一种基于多智能体深度强化学习的移动物体机械臂抓取方法


技术介绍

[0002]如今,服务型机器人在医疗

运输

机械制造等各领域都有很广泛的应用

在装配领域中,机械臂帮助工人抓取零件

工具,可以大幅度提升装配效率

目前,机械臂抓取问题作为一个经典问题,已经在近些年有了广泛的研究内容

然而,大多数研究只停留在对静态物体的抓取,在无规则环境下对任意移动物体的抓取的研究却很少

[0003]机械臂抓取方法分为分析方法和数据驱动方法

早期研究人员采用分析方法来执行机械臂物体抓取任务

由于分析方法需要大量对移动抓取物体和环境的精确先备知识,近些年出现了越来越多数据驱动方法

数据驱动方法通过建立关于机械臂抓取的数据集,训练得到控制模型完成抓取任务

为了避免深度学习的缺点,如:需要耗费大量精力建立有标注的数据集,模型的抓取表现由于无法很好地将抓取姿势表示为输出量而受限,模型容易受到环境影响等,用强化学习做移动物体抓取开始成为一种新的方法

经典的强化学习模型以试错的方式学习,通过与环境交互获得的奖励指导接下来的行为,目标是使智能体获得最大的奖励

于强化学习的移动物体抓取模型在不断尝试抓取物体的过程中寻找更高的奖励,最终训练为成功抓取物体并获得最高的奖励

例如,一种方法
(
专利申请公开号:
CN112975977A)
用深度相机识别目标物体和机械臂夹爪的位置并传输给计算机,计算机将机械臂末端执行器相对于物体的移动距离

机械臂移动步数

机械臂每个自由度舵机转动角度之和以及是否成功抓取目标物体的加权和作为
DDPG
深度确定性策略梯度网络的奖励机制,但是这种方法会使得强化学习模型容易陷入局部最优点

探索能力差

另一种方法
(
专利申请公开号:
CN113752255A)
用双目相机采集操作台上物体的图像后用
YOLO
算法做目标检测,再通过强化学习模型对机械臂训练,使得机械臂完成抓取动作

该方法易于实现,但没有考虑样本对模型的训练价值,容易降低训练速度,且有可能无法收敛

[0004]综上,基于强化学习的移动物体抓取的研究仍然存在很多的挑战,例如控制模型实时性低

适用性差,仿真结果难以部署到现实环境,训练时间长


技术实现思路

[0005]为了解决
技术介绍
中存在的问题和需求,本专利技术提供了一种基于多智能体深度强化学习的移动物体机械臂抓取方法,该方法通过
RGBD
相机收集物体信息,通过视觉检测算法和图像处理技术寻找目标在图像中的位置,再计算目标在机械臂基座坐标系中的三维位置,最后通过
MA

TD3H
模型输出末端的三维移动速度完成移动物体抓取任务;
[0006]本专利技术的技术方案如下:
[0007]步骤
S1
:构建移动物体抓取平台,利用
RGBD
相机实时捕捉移动物体抓取平台上的移动物体图像,再对移动物体图像进行目标状态提取后,获得实时目标位姿;
[0008]步骤
S2
:建立机械臂抓取移动物体的深度强化学习模型
MA

TD3H

[0009]步骤
S3
:深度强化学习模型
MA

TD3H
根据实时目标位姿不断地控制机械臂不断尝试抓取目标物体,深度强化学习模型
MA

TD3H
根据抓取结果对模型参数进行更新,从而提高抓取成功率,直至完成模型训练;
[0010]步骤
S4
:将待抓取的移动物体的实时目标位姿发送给训练完成的深度强化学习模型
MA

TD3H
,进而控制机械臂夹爪靠近移动物体并完成抓取任务

[0011]所述步骤
S1
中,对移动物体图像进行目标状态提取后,获得实时目标位姿,具体为:
[0012]S11
:移动物体图像包括
RGB
物体图像和深度图像,对
RGB
图像进行目标区域和轮廓提取,获得目标轮廓图;
[0013]S12
:根据目标轮廓图计算获得移动物体的抓取中心在相机坐标系下的二维坐标以及机械臂夹爪的抓取角度;
[0014]S13
:根据相机到机械臂基座的坐标转换矩阵对抓取中心在相机坐标系下的二维坐标进行坐标转换后,再结合深度图像,获得抓取中心在基座坐标系下的三维坐标并记为移动物体的三维位置,由移动物体的三维位置以及机械臂夹爪的抓取角度组成实时目标位姿

[0015]所述
S11
中,利用
YOLOv3
算法提取
RGB
图像中的目标图像区域,再利用
canny
算子对目标图像区域进行轮廓提取后,得到目标轮廓图

[0016]所述
S12
具体为:
[0017]S121
:利用霍夫变换提取目标轮廓图中的直线,统计各直线对应的斜率在各角度区间中的数目,根据直线对应的斜率所在数目最多的角度区间确定机械臂夹爪的抓取角度;
[0018]S122
:计算目标轮廓图内的各点分别沿着抓取角度和垂直于抓取角度的角度到轮廓边缘的长度,进而分别计算各点的抓取置信度
T
,将抓取置信度
T
最大的点作为抓取中心,其中各点的抓取置信度
T
的计算公式如下:
[0019][0020]其中,
l1和
l2分别为每个点沿同一角度到轮廓两个边缘的长度,
l3和
l4为每个点沿另一个同一角度到轮廓两个边缘的长度,满足
l1+l2>l3+l4;所述角度为抓取角度或垂直于抓取角度的角度

[0021]所述步骤
S2
中,机械臂抓取移动物体的深度强化学习模型
MA

TD3H
的状态
s
包括机械臂夹爪的三维位置和速度以及移动物体的三维位置和速度,动作
a
为机械臂夹爪的三维速度,奖励为单步总奖励值
r
,经验回放池包括普通经验回放池和高质量经本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多智能体深度强化学习的移动物体机械臂抓取方法,其特征在于,包括以下步骤:步骤
S1
:构建移动物体抓取平台,利用
RGBD
相机实时捕捉移动物体抓取平台上的移动物体图像,再对移动物体图像进行目标状态提取后,获得实时目标位姿;步骤
S2
:建立机械臂抓取移动物体的深度强化学习模型
MA

TD3H
;步骤
S3
:深度强化学习模型
MA

TD3H
根据实时目标位姿不断地控制机械臂不断尝试抓取目标物体,深度强化学习模型
MA

TD3H
根据抓取结果对模型参数进行更新,从而提高抓取成功率,直至完成模型训练;步骤
S4
:将待抓取的移动物体的实时目标位姿发送给训练完成的深度强化学习模型
MA

TD3H
,进而控制机械臂夹爪靠近移动物体并完成抓取任务
。2.
根据权利要求1所述的一种基于多智能体深度强化学习的移动物体机械臂抓取方法,其特征在于,所述步骤
S1
中,对移动物体图像进行目标状态提取后,获得实时目标位姿,具体为:
S11
:移动物体图像包括
RGB
物体图像和深度图像,对
RGB
图像进行目标区域和轮廓提取,获得目标轮廓图;
S12
:根据目标轮廓图计算获得移动物体的抓取中心在相机坐标系下的二维坐标以及机械臂夹爪的抓取角度;
S13
:根据相机到机械臂基座的坐标转换矩阵对抓取中心在相机坐标系下的二维坐标进行坐标转换后,再结合深度图像,获得抓取中心在基座坐标系下的三维坐标并记为移动物体的三维位置,由移动物体的三维位置以及机械臂夹爪的抓取角度组成实时目标位姿
。3.
根据权利要求2所述的一种基于多智能体深度强化学习的移动物体机械臂抓取方法,其特征在于,所述
S11
中,利用
YOLOv3
算法提取
RGB
图像中的目标图像区域,再利用
canny
算子对目标图像区域进行轮廓提取后,得到目标轮廓图
。4.
根据权利要求2所述的一种基于多智能体深度强化学习的移动物体机械臂抓取方法,其特征在于,所述
S12
具体为:
S121
:利用霍夫变换提取目标轮廓图中的直线,统计各直线对应的斜率在各角度区间中的数目,根据直线对应的斜率所在数目最多的角度区间确定机械臂夹爪的抓取角度;
S122
:计算目标轮廓图内的各点分别沿着抓取角度和垂直于抓取角度的角度到轮廓边缘的长度,进而分别计算各点的抓取置信度
T
,将抓取置信度
T
最大的点作为抓取中心,其中各点的抓取置信度
T
的计算公式如下:其中,
l1和
l2分别为每个点沿同一角度到轮廓两个边缘的长度,
l3和
l4为每个点沿另一个同一角度到轮廓两个边缘的长度,满足
l1+l2>l3+l4;所述角度为抓取角度或垂直于抓取角度的角度
。5.
根据权利要求1所述的一种基于多智能体深度强化学习的移动物体机械臂抓取方法,其特征在于,所述步骤
S2
中,机械臂抓取移动物体的深度强化学习模型
MA

TD3H
的状态
s
包括机械臂夹爪的三维位置和速度以及移动物体的三维位置和速度,动作
a
为机械臂夹爪
的三维速度,奖励为单步总奖励值
r
,经验回放池包括普通经验回放池和高质量经验回放池
。6.
根据权利要求5所述的一种基于多智能体深度强化学习的移动物体机械臂抓取方法,其特征在于,所述单步总奖励值
r
的公式为:
r

r
dens...

【专利技术属性】
技术研发人员:刘达新黄宇刘振宇谭建荣
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1