当前位置: 首页 > 专利查询>山东大学专利>正文

基于强化学习的免手眼标定的机械臂抓取方法及系统技术方案

技术编号:38013860 阅读:10 留言:0更新日期:2023-06-30 10:37
本公开提供了一种基于强化学习的免手眼标定的机械臂抓取方法及系统,涉及强化学习技术领域,方法包括构建智能体交互仿真环境,定义仿真环境的状态值;获取所述智能体的状态数据、待抓取目标物体的姿态,识别抓取点的坐标;采用最优闭环抓取策略,智能体感知当前环境的信息,根据环境信息计算最优的抓取动作,执行动作之后并再次感知,获取新的环境信息,不断重复,直至成功抓取目标物体;同时识别所述智能体抓取目标物体的行为,并对抓取过程产生的行为定义奖励机制,监督智能体抓取行为。本公开能够省去手眼标定的繁琐步骤。开能够省去手眼标定的繁琐步骤。开能够省去手眼标定的繁琐步骤。

【技术实现步骤摘要】
基于强化学习的免手眼标定的机械臂抓取方法及系统


[0001]本公开涉及强化学习
,具体涉及基于强化学习的免手眼标定的机械臂抓取方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
[0003]随着当今物流、无人工厂等产业的发展,工业界对机械臂抓取算法的实用化、智能化提出了更高的要求。机械臂的自主抓取是在以传统的示教控制、固定路径移动能力的基础上,发展出通过视觉传感器和计算模块进行目标检测、环境感知、路径规划和执行的智能化能力。在需要和视觉传感器配合进行抓取的场景下,机械臂的“手眼”标定是非常重要的环节,通过采样、计算得到机械臂和视觉传感器的空间坐标转换关系,从而实现从世界坐标系到图像坐标系的映射。传统的手眼标定的一般步骤是:首先获得手眼关系的模型,明确基础坐标系、末端坐标系、标定板坐标系和相机坐标系;第二步是求的各个坐标系之间的转换关系;最后获得标定好的手眼模型。但是传统的手眼标定方法存在一些问题,即需要复杂的步骤、采样过程中需要较多的人工干预、带来了较多的误差以及随着系统的使用,累积误差也会变大。无论是何种手眼标定的方法,都无法像人类手和眼的配合一样准确。
[0004]专利技术人发现,手眼标定有以下的缺点:
[0005]1)手眼标定的精度受到操作者的技术水平的限制,操作者的技术水平越高,标定精度越高。
[0006]2)手眼标定的过程较为繁琐,需要操作者按照一定的步骤进行,耗时较长。
[0007]3)手眼标定的精度受到环境影响较大,如光照、温度等。
[0008]4)手眼标定的精度受到机器人本身的精度影响较大,如机器人的精度、稳定性等。
[0009]5)手眼标定的精度受到标定物体的影响较大,如标定物体的精度、稳定性等。

技术实现思路

[0010]本公开为了解决上述问题,提出了基于强化学习的免手眼标定的机械臂抓取方法及系统,借助深度强化学习算法,设计了一个端到端的机器学习模型,仿照人类手眼配合的逻辑,让智能体在不断变换的视角下可以自主的抓取目标物体,从而可以实现无需手眼标定的机械臂抓取。
[0011]根据一些实施例,本公开采用如下技术方案:
[0012]基于强化学习的免手眼标定的机械臂抓取方法,其特征在于,包括:
[0013]构建智能体交互仿真环境,定义仿真环境的状态值,用于表示智能体和环境的状态信息;
[0014]获取所述智能体的状态数据、待抓取目标物体的姿态,识别抓取点的坐标;
[0015]采用最优闭环抓取策略,智能体感知当前环境的信息,根据环境信息计算最优的
抓取动作,执行动作之后并再次感知,获取新的环境信息,不断重复,直至成功抓取目标物体;同时识别所述智能体抓取目标物体的行为,并对抓取过程产生的行为定义奖励机制,监督智能体抓取行为。
[0016]根据一些实施例,本公开采用如下技术方案:
[0017]基于强化学习的免手眼标定的机械臂抓取系统,包括智能体本体和智能体仿真平台,所述智能体本体包括执行任务所需的机械臂;所述智能体仿真平台包括:
[0018]模型构建模块,用于构建智能体交互仿真环境,定义仿真环境的状态值,用于表示智能体和环境的状态信息;
[0019]初始化模块,用于获取所述智能体的状态数据、待抓取目标物体的姿态,识别抓取点的坐标;
[0020]动作执行模块,用于采用最优闭环抓取策略,智能体感知当前环境的信息,根据环境信息计算最优的抓取动作,执行动作之后并再次感知,获取新的环境信息,不断重复,直至成功抓取目标物体;同时识别所述智能体抓取目标物体的行为,并对抓取过程产生的行为定义奖励机制,监督智能体抓取行为。
[0021]与现有技术相比,本公开的有益效果为:
[0022]本公开的方法基于PPO算法,使用Proximal的策略优化方法,基于策略梯度和重要性采样的线学习策略,通过输入“状态”来预测动作,在与环境的迭代中获得训练,从而可以学到一定的能力。与传统的机器人控制方法相对比,强化学习对参数的敏感程度低于传统控制方法;强化学习对于难以建模的系统控制具有优势;强化学习学到的是一种策略,而不是简单的参数调整,因此可以学到超出人类的预设的能力。使用强化学习可以帮助机械臂完成特定任务,而不需要复杂的人工编程。强化学习无需训练数据,通过与环境交互进行学习,节约了采集训练样本的成本。
[0023]本公开提出的这种端到端的方法可以一次训练,多次部署,从而省去了手眼标定的繁琐步骤;新的思路在手眼关系之间形成闭环,从而也解决了累积产生的误差。通过设计对应的输入层,也可以兼容不同的传感器情况,从而实现一种部署方便,成功率可靠的抓取策略,可以应用在物流、装配等场景里的机械臂上。同时也是对强化学习的应用的一次探索,证明了强化学习在具体的应用中也是具有可行性的。
附图说明
[0024]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
[0025]图1为本公开实施例的仿真的强化学习环境;
[0026]图2为本公开实施例的对比学习的结构示意图;
[0027]图3为本公开实施例的教师以及学生网络的结构示意图;
[0028]图4为本公开实施例的教师网络流程图;
[0029]图5为本公开实施例的学生网络流程图。
具体实施方式:
[0030]下面结合附图与实施例对本公开作进一步说明。
[0031]应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。
[0032]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0033]实施例1
[0034]本公开的一种实施例中提供了一种基于强化学习的免手眼标定的机械臂抓取方法,包括:
[0035]步骤一:构建智能体交互仿真环境,定义仿真环境的状态值,用于表示智能体和环境的状态信息;
[0036]步骤二:获取所述智能体的状态数据、待抓取目标物体的姿态,识别抓取点的坐标;
[0037]步骤三:采用最优闭环抓取策略,智能体感知当前环境的信息,根据环境信息计算最优的抓取动作,执行动作之后并再次感知,获取新的环境信息,不断重复,直至成功抓取目标物体;同时识别所述智能体抓取目标物体的行为,并对抓取过程产生的行为定义奖励机制,监督智能体抓取行为。
[0038]作为一种实施例,机械臂抓取使用了强化学习进行训练,任务的目的是让智能体在不断变换的视角下可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于强化学习的免手眼标定的机械臂抓取方法,其特征在于,包括:构建智能体交互仿真环境,定义仿真环境的状态值;获取所述智能体的状态数据、待抓取目标物体的姿态,识别抓取点的坐标;采用最优闭环抓取策略,智能体感知当前环境的信息,根据环境信息计算最优的抓取动作,执行动作之后并再次感知,获取新的环境信息,不断重复,直至成功抓取目标物体;同时识别所述智能体抓取目标物体的行为,并对抓取过程产生的行为定义奖励机制,监督智能体抓取行为。2.如权利要求1所述的基于强化学习的免手眼标定的机械臂抓取方法,其特征在于,所述智能体的状态数据为机械臂的末端姿态、机械臂的各关节数据、待抓取目标物体的姿态和抓取点的坐标以及传感器的数据。3.如权利要求1所述的基于强化学习的免手眼标定的机械臂抓取方法,其特征在于,所述奖励机制为当智能体机械臂产生碰撞、超出运行范围或者超出最大限定步长的情况下认为是抓取任务失败,本次执行将会被终止。4.如权利要求3所述的基于强化学习的免手眼标定的机械臂抓取方法,其特征在于,当智能体长时间未能完成抓取任务,则会产生负责奖励,督促智能体快速完成抓取任务。5.如权利要求1所述的基于强化学习的免手眼标定的机械臂抓取方法,其特征在于,当智能体成功抓取到目标物体,则本次抓取任务终止。6.如权利要求1所述的基于强化学习的免手眼标定的机械臂抓取方法,其特征在于,闭环抓取策略采用近端策略进行优化,包含策略更新和约束优化,包括通过使用策略梯度的一个近似来更新策略,设置一个约束来限制策略的变化幅度。7.如权利要求6所述的基于强化学习的免手眼标定的机械臂抓取方法,其特征在于,在对闭环抓取策略进行优化训练的同...

【专利技术属性】
技术研发人员:张伟褚石磊杨硕宋然李大猷魏鹏坤赵晨琨
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1