当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于模仿学习的服务机器人指定物体抓取算法制造技术

技术编号:38864526 阅读:17 留言:0更新日期:2023-09-17 10:05
本发明专利技术公开了一种基于模仿学习的服务机器人指定物体抓取算法,包括:通过一个动作识别网络来判断机器人所做的动作是否是专家示范的抓取动作;一个物体识别网络,用来分辨机器人抓取的物体是否是指定目标物体。此方法的输入为RGB图像与抓取目标,无需再将机械臂关节角,待抓取物体的位置等信息从图像中提取出来,输出为机械臂控制动作。此方法首先从专家提供的序列抓取图像中学习一个抓取动作识别网络,该网络可以辨别机器人当前的序列动作是否是在抓取物体。此外还有一个物体识别网络,用来分辨机器人抓取的物体是否是指定目标物体。根据本发明专利技术,服务机器人可以更加快速和鲁棒地学会在复杂非结构化场景中抓取指定物体。棒地学会在复杂非结构化场景中抓取指定物体。棒地学会在复杂非结构化场景中抓取指定物体。

【技术实现步骤摘要】
一种基于模仿学习的服务机器人指定物体抓取算法


[0001]本专利技术涉及机器人模仿学习的
,特别涉及一种基于模仿学习的服务机器人指定物体抓取算法。

技术介绍

[0002]抓取是人类最普遍的日常活动之一,让服务机器人学会如何在复杂非结构化场景中鲁棒的抓取指定物体具有极高的应用价值。目前很多机械臂抓取应用都是基于编程或者拖动示教等方法实现的。基于编程的方法对于没有专业知识的普通用户而言十分不友好,不利于服务机器人的推广;基于拖动示教的方法泛化性能弱,只能不断重复之前示范的轨迹。上述方法均无法便捷、高效地赋予服务机器人在复杂非结构化场景中抓取指定物体的能力。

技术实现思路

[0003]针对现有技术中存在的不足之处,本专利技术的目的是提供一种基于模仿学习的服务机器人指定物体抓取算法,服务机器人可以更加快速和鲁棒地学会在复杂非结构化场景中抓取指定物体。为了实现根据本专利技术的上述目的和其他优点,提供了一种基于模仿学习的服务机器人指定物体抓取算法,包括:
[0004]S1、收集人类专家抓取指定物体的示范数据;
[0005]S2、通过收集到人类专家示范数据训练动作识别网络和物体识别网;
[0006]S3、在复杂非结构化环境中进行强化学习训练。
[0007]优选的,步骤S1中示范数据收集过程中在初始场景的RGB图像上,指定目标物体,人类专家依次抓取场景中的所有物体,收集轨迹,作为训练动作识别网络的正例,同时收集一些人类专家在场景中随意挥动手臂的轨迹作为负例。
[0008]优选的,将动作识别网络的正例的轨迹作为物体识别网络的训练数据,同一场景下,人类专家抓取物体与目标物体一致的轨迹为正例,不一致的轨迹为负例。
[0009]优选的,步骤S2中对于动作识别网络,网络的输入中的序列轨迹图像为D1,其中人类专家抓取物体的轨迹为正例,人类专家随意挥动手臂的轨迹为负例,动作识别网络的输出为离散值,0表示当前输入的序列中没有抓取动作,1表示当前输入的序列中有抓取动作。
[0010]优选的,对于物体识别网络,网络的输入中的序列轨迹图像为D2,其中,同一场景下,人类专家抓取物体与目标物体一致的轨迹为正例,不一致的轨迹为负例;物体识别网络的输出为离散值,0表示当前输入的序列抓取的物体不是目标物体,1表示当前输入的序列中抓取的物体是目标物体。
[0011]优选的,步骤S3中通过PPO(Proximal Policy Optimization Algorithms)算法进行强化学习,在训练过程中为保证模型在复杂非结构化环境下的鲁棒性和泛化能力,在数据收集时,需要不断改变机械臂所处环境的初始状态包括,物体数量、物体形状、物体颜色、空间位置、桌布纹理以及光照条件,每次的目标物体为随机选择,通过一段时间的训练之
后,模型可以实现鲁棒地在非结构化复杂环境中,抓取指定的物体。
[0012]本专利技术与现有技术相比,其有益效果是:通过一个动作识别网络来判断机器人所做的动作是否是专家示范的抓取动作;一个物体识别网络,用来分辨机器人抓取的物体是否是指定目标物体。此方法的输入为RGB图像与抓取目标,无需再将机械臂关节角,待抓取物体的位置等信息从图像中提取出来,输出为机械臂控制动作,从专家提供的序列抓取图像中学习一个抓取动作识别网络,使用的专家示范数据仅包含RGB图像,且无需手动对图像进行复杂的标记,极大提高了模仿学习算法的普适性,该网络可以辨别机器人当前的序列动作是否是在抓取物体。此外还有一个物体识别网络,用来分辨机器人抓取的物体是否是指定目标物体。服务机器人直接在真实环境中进行强化学习,学习过程中,服务机器人所面对的初始环境与需要抓取的目标物体都不断变化,从而使得服务机器人可以快速、鲁棒得学会在复杂非结构化场景中抓取指定物体任务。
附图说明
[0013]图1为根据本专利技术的基于模仿学习的服务机器人指定物体抓取算法的硬件结构示意图;
[0014]图2为根据本专利技术的基于模仿学习的服务机器人指定物体抓取算法的流程图;
[0015]图3为根据本专利技术的基于模仿学习的服务机器人指定物体抓取算法的动作识别网络R1和物体识别网络R2深度卷积神经网络结构图。
具体实施方式
[0016]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]本示例中的各环节计算方法与一般通用方法一致。本示例中以优傲UR5机械臂为例;其控制工作站安装Ubuntu 16.04系统,搭载Intel Core i7

10700K,8核16线程,睿频5.1GHz;GPU为NVIDIA GTX1080*2;内存为32G DDR4内存;本专利还需一个通用RGB摄像头观察操作台整体场。
[0018]图1是根据一示例性实施例抽象出的基于动作识别的服务机器人抓取算法部署环境示意图。包括一个工作台、一台机械臂、一台工作站、若干不同形状颜色的物体、一个RGB相机。用户在初始场景的RGB图像中,利用红色矩形框框出想要机械臂抓取的目标物体,机械臂更具用户指示通过二指夹抓住目标物体,作为目标的物体可以任意出现在工作台面的任意位置;相机从上往下垂直拍摄,本专利技术中强化学习中每一时刻的状态为相机拍摄的RGB图像。
[0019]参照图1

3,一种基于模仿学习的服务机器人指定物体抓取算法,包括:
[0020]步骤1:收集人类专家抓取指定物体的示范数据。专家为人类,首先在某一初始场景s
i
的RGB图像上,指定目标物体(利用红色方框在图像上框出目标物体),人类专家依次抓取s
i
场景中的所有物体,收集这些轨迹(轨迹由RGB图像组成)作为训练动作识别网络R1的正例,同时收集一些人类专家在场景中随意挥动手臂的轨迹作为负例,这些示范组成示范数
据D1。将动作识别网络R1的正例的轨迹作为物体识别网络R2的训练数据D2。其中,同一场景下,人类专家抓取物体与目标物体一致的轨迹为正例,不一致的轨迹为负例。
[0021]步骤2:利用收集到人类专家示范数据D1和D2训练动作识别网络R1和物体识别网络R2。对于动作识别网络R1,网络的输入为D1中的序列轨迹图像,其中人类专家抓取物体的轨迹为正例,人类专家随意挥动手臂的轨迹为负例,网络R1的输出为离散值,0表示当前输入的序列中没有抓取动作,1表示当前输入的序列中有抓取动作。
[0022]对于物体识别网络R2,网络的输入为D2中的序列轨迹图像,其中,同一场景下,人类专家抓取物体与目标物体一致的轨迹为正例,不一致的轨迹为负例。网络R2的输出为离散值,0表示当前输入的序列抓取的物体不是目标物体,1表示当前输入的序列中抓取的物体是目标物体。
[0023]步骤3:强化学习,在本示例性实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模仿学习的服务机器人指定物体抓取算法,其特征在于,包括以下步骤:S1、收集人类专家抓取指定物体的示范数据;S2、通过收集到人类专家示范数据训练动作识别网络和物体识别网;S3、在复杂非结构化环境中进行强化学习训练。2.如权利要求1所述的一种基于模仿学习的服务机器人指定物体抓取算法,其特征在于,步骤S1中示范数据收集过程中在初始场景的RGB图像上,指定目标物体,人类专家依次抓取场景中的所有物体,收集轨迹,作为训练动作识别网络的正例,同时收集一些人类专家在场景中随意挥动手臂的轨迹作为负例。3.如权利要求2所述的一种基于模仿学习的服务机器人指定物体抓取算法,其特征在于,将动作识别网络的正例的轨迹作为物体识别网络的训练数据,同一场景下,人类专家抓取物体与目标物体一致的轨迹为正例,不一致的轨迹为负例。4.如权利要求3所述的一种基于模仿学习的服务机器人指定物体抓取算法,其特征在于,步骤S2中对于动作识别网络,网络的输入中的序列轨迹图像为D1,其中人类专家抓取物体的轨迹为正例,人类专家随意挥动手臂的轨迹为负例,动作...

【专利技术属性】
技术研发人员:尤鸣宇徐炫辉
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1