一种基于强化学习的流水线双机械臂协同抓取方法技术

技术编号：39743740 阅读：31 留言：0更新日期：2023-12-17 23:43

本发明专利技术提供一种基于强化学习的流水线双机械臂协同抓取方法，涉及机械臂控制技术领域

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的流水线双机械臂协同抓取方法

[0001]本专利技术属于机械臂控制
，涉及一种基于强化学习的流水线双机械臂协同抓取方法
。

技术介绍

[0002]机器人自问世以来，在全球范围内发展迅速，且机器人的应用范围也在不断扩大
。
在工业生产流程中，工业机器人代替人工进行生产活动，特别是流水线生产的作业模式，逐渐成为工业生产制造的主要发展趋势
。
与单臂空间机器人相比，双臂机器人明显具有更多优势，不仅可以让两个机械臂单独工作，也可以同时使用两个机械臂完成一些比较有难度的协同任务；双臂机器人不仅能够操作更大的目标载荷，还可以满足多任务协同操作的灵活性要求
。
但在具有诸多优势的同时，双臂机器人也存在研究难点，在双臂协同中主要涉及运动协同规划和控制方法的研究，其中，运动协同规划基本上由运动中的约束条件分析
、
协同工作中臂间的干涉情况
、
以及运动路径规划策略研究等方面构成；控制方法则包括位置控制
、
力位混合控制等方法
。
[0003]双臂机器人协同控制技术是一个不断发展和完善的过程
。
早期的双臂机器人协同操作主要是基于运动学模型的主从控制方法，将两个单臂系统简单组合在一起，认定其中一条机械臂为主臂，依据任务设计主机械臂的控制器；另一条机械臂为从臂，根据主机械臂的运动轨迹使用约束方程计算出从机械臂的运动轨迹，因此两条机械臂之间的控制命令存在耦合关系，不利于操作的稳定性r/>。
同时，传统的协调操作方法多基于精确的数学模型，在静态的结构化环境中能够快速
、
平稳地实现机器人控制
。
但当环境发生变化时，机器人的动作依然保持固有模式，自适应性较差
。
[0004]多智能体深度强化学习算法为解决上述问题提供了思路，利用多智能体深度强化算法解决双机械臂的协同控制问题，具体表现为通过在环境信息和机械臂的观测信息
、
动作信息之间建立映射关系，建立环境与机械臂之间的交互，并根据环境与机械臂的交互获得反馈信息，利用反馈信息调整机械臂的动作，逐渐获得较为成熟的动作策略，提升双机械臂之间的协作能力
。
目前主流的多智能体强化学习算法多数是基于
Actor
‑
Critic
算法延伸和扩展而来，
Lowe
等在传统的深度强化学习算法
DDPG
算法的基础上提出了通过中心化训练和去中心化执行框架为每个智能体学习一个独立的集中的
Critic
，并应用于具有连续动作空间的合作
、
对抗和混合环境的
MADDPG
算法
(Multi
‑
agent Deeep Deterministic Policy Gradient)。
但将上述算法应用到流水线双机械臂的协同控制的实际场景中仍存在以下问题：
(1)
利用深度强化学习算法训练出的双臂机器人协同控制模型的稳定性差；
(2)
当一个智能体获得可行策略后，其他的智能体将不再进行学习，从而降低了双机械臂之间的协作效率
。

技术实现思路

[0005]针对上述现有技术的不足，本专利技术方法提供了一种基于强化学习的流水线双机械
臂协同抓取方法，可提高流水线双臂机器人中双机械臂之间的协作效率
。
[0006]一种基于强化学习的流水线双机械臂协同抓取方法，包括如下步骤：
[0007]步骤1：搭建流水线双臂机器人的双机械臂协同操作模型，并为模型中的每一条机械臂分配一个智能体代表该机械臂，从而将该双机械臂协同操作模型视为一个双智能体协同操作模型；获取该双机械臂协同操作模型中机械臂的观测信息，并根据获取到的观测信息设计机械臂的状态空间和机械臂的动作空间；
[0008]步骤2：对于双机械臂协同操作模型中的每一个机械臂，构建机械臂的奖励函数；
[0009]步骤3：采用
MADDPG
算法训练双机械臂协同操作模型，得到训练好的双机械臂协同操作模型；
[0010]步骤4：采用经验回放算法
HER
对训练好的双机械臂协同操作模型进行优化，得到最终的双机械臂协同操作模型；
[0011]步骤5：对于下一次待完成的抓取过程，直接调用步骤4中得到的双机械臂协同操作模型获得所需的结果；
[0012]进一步的，所述观测信息包括：机械臂末端夹爪的空间三维坐标
、
目标物体的空间三维坐标
、
机械臂末端夹爪与目标物体的相对坐标
、
目标物体的空间姿态
、
机械臂末端夹爪的开合状态；目标物体的移动速度
、
目标物体的旋转速度
、
机械臂末端夹爪的移动速度
、
夹爪手指的移动速度；
[0013]进一步的，所述状态空间包括：机械臂末端夹爪的空间三维坐标
、
目标物体的空间三维坐标
、
机械臂末端夹爪与目标物体的相对坐标
、
目标物体的空间姿态
、
机械臂末端夹爪的开合状态；所述动作空间包括：目标物体的移动速度
、
目标物体的旋转速度
、
机械臂末端夹爪的移动速度
、
夹爪手指的移动速度；
[0014]进一步的，所述步骤2中构建所述机械臂的奖励函数的方法为：设定距离阈值
T
，根据所述机械臂的状态空间利用公式
(1)
计算双机械臂协同操作模型中的机械臂与目标物体之间的距离
d
，当
d<T
时，机械臂获得奖励，否则，机械臂不会获得奖励；结合公式
(1)
和公式
(2)
构建机械臂的奖励函数为：
[0015][0016][0017]其中，
(x,y,z)
是机械臂末端夹爪的空间三维坐标；
(x0,y0,z0)
是目标物体的空间三维坐标；
r
是奖励值；
[0018]进一步的，所述步骤3包括：
[0019]步骤
3.1
：获取机械臂
i
在当前时刻的动作策略为
μ
it
，其中，
t
表示当前时刻；利用当前时刻下机械臂
i
的状态空间得到机械臂
i
在当前时刻的观测值
o
it
，其中
i
＝
1,2
；
[0020]步骤
3.2
：根据当前时刻下机械臂
i
的动作策略
μ
it
和观测值
o
it
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于强化学习的流水线双机械臂协同抓取方法，其特征在于，该方法包括如下步骤：步骤1：搭建流水线双臂机器人的双机械臂协同操作模型，并为模型中的每一条机械臂分配一个智能体代表该机械臂，从而将该双机械臂协同操作模型视为一个双智能体协同操作模型；获取该双机械臂协同操作模型中机械臂的观测信息，并根据获取到的观测信息设计机械臂的状态空间和机械臂的动作空间；步骤2：对于双机械臂协同操作模型中的每一个机械臂，构建机械臂的奖励函数；步骤3：采用
MADDPG
算法训练双机械臂协同操作模型，得到训练好的双机械臂协同操作模型；步骤4：采用经验回放算法
HER
对训练好的双机械臂协同操作模型进行优化，得到最终的双机械臂协同操作模型；步骤5：对于下一次待完成的抓取过程，直接调用步骤4中得到的双机械臂协同操作模型获得所需的结果
。2.
根据权利要求1中所述一种基于强化学习的流水线双机械臂协同抓取方法，其特征在于，所述观测信息包括：机械臂末端夹爪的空间三维坐标
、
目标物体的空间三维坐标
、
机械臂末端夹爪与目标物体的相对坐标
、
目标物体的空间姿态
、
机械臂末端夹爪的开合状态；目标物体的移动速度
、
目标物体的旋转速度
、
机械臂末端夹爪的移动速度
、
夹爪手指的移动速度
。3.
根据权利要求2中所述一种基于强化学习的流水线双机械臂协同抓取方法，其特征在于，所述状态空间包括：机械臂末端夹爪的空间三维坐标
、
目标物体的空间三维坐标
、
机械臂末端夹爪与目标物体的相对坐标
、
目标物体的空间姿态
、
机械臂末端夹爪的开合状态；所述动作空间包括：目标物体的移动速度
、
目标物体的旋转速度
、
机械臂末端夹爪的移动速度
、
夹爪手指的移动速度
。4.
根据权利要求3中所述一种基于强化学习的流水线双机械臂协同抓取方法，其特征在于，所述步骤2中构建所述机械臂的奖励函数的方法为：设定距离阈值
T
，根据所述机械臂的状态空间利用公式
(1)
计算双机械臂协同操作模型中的机械臂与目标物体之间的距离
d
，当
d<T
时，机械臂获得奖励，否则，机械臂不会获得奖励；结合公式
(1)
和公式
(2)
构建机械臂的奖励函数为：的奖励函数为：其中，
(x,y,z)
是机械臂末端夹爪的空间三维坐标；
(x0,y0,z0)
是目标物体的空间三维坐标；
r
是奖励值
。5.
根据权利要求4中所述一种基于强化学习的流水线双机械臂协同抓取方法，其特征在于，所述步骤3包括：步骤
3.1
：获取机械臂
i
在当前时刻的动作策略为
μ
it
，其中，
t
表示当前时刻；利用当前时刻下机械臂
i
的状态空间得到机械臂
i
在当前时刻的观测值
o
it
，其中
i
＝
1,2
；步骤
3.2
：根据当前时刻下机械臂
i
的动作策略
μ
it
和观测值
o
it
得到机械臂
i
在当前状态
下执行的动作
a
it
＝
μ
it
(o
it
)
，并得到完成该动作后机械臂
i
在下一时刻的观测信息，根据得到的机械臂
i
在下一时刻的观测信息得到机械臂
i
在下一时刻的观测值
o
it+1
；步骤
3.3
：利用机械臂的奖励函数构建双机械臂协同操作模型的奖励函数，并获取机械臂
i
在当前时刻的奖励值
r
it
；步骤
3.4
：根据机械臂
i
在当前时刻的观测值
o
i
、
机械臂
i
在当前状态下执行的动作
a
it
、
机械臂
i
在下一时刻的观测值
o
it+1
以及机械臂
i
在当前时刻的奖励值
r
it
得到所有机械臂的当前状态
、
在当前状态下的动作
、
在下一时刻的状态以及在当前时刻的奖励，并将上述数据存储到经验池中；步骤
3.5
：重复上述步骤
3.1
至步骤
3.4
，当模型符合终止条件时，完成一轮模型训练；步骤
3.6
：重复上述步骤
3.1
至步骤
3.5
进行若干次迭代，并计算每次迭代后得到的模型的准确率，当模型的准确率达到设置的准确率时或者当迭代次数超过预设的轮次后，完成模型训练，得到训练好的双机械臂协同操作模型
。6.
根据权利要求5中所述一种基于强化学习的流水线双机械臂协同抓取方法，其特征在于，构建所述双机械臂协同操作模型的奖励函数的方法为：根据所述步骤2中构建的机械臂的奖励函数计算当前时刻下机械臂与目标物体之间的距离
d
it
，并将
d
it
与设置的距离阈值
T
进行比较，当
d
it
<T
时，智能体获得奖励，奖励值为1；设置双机械臂之间的距离阈值为
T
b
，计算当前时刻下双机械臂之间的距离
d
bt
，并将
d
bt
与
T
b
进行比较，当
d
bt
<T
b
时，奖励值为
‑1；结合公式
(3)、
公式
(4)
和公式
(5)
构建双机械臂协同操作模型的奖励函数为：构建双机械臂协同操作模型的奖...

【专利技术属性】
技术研发人员：任涛，周思齐，罗悉梦，沈蓉，
申请(专利权)人：东北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人