【技术实现步骤摘要】
一种基于视觉反馈的可变形物体操纵方法及系统
[0001]本专利技术涉及机械臂操纵
,具体而言,涉及一种基于视觉反馈的可变形物体操纵方法及系统。
技术介绍
[0002]机械臂操纵的大部分工作集中在处理刚性物体,这些物体要么在被抓住时不变形,要么变形可以忽略不计。然而,可变形对象操纵在现实世界中有许多重要的应用。比较受大家关注领域有家庭辅助机器人:比如折叠织物、铺床、利用机器人穿衣等。还有应用在医学方面的,比如:利用机器人进行手术。利用机器人操纵可变形物体却面临着一些挑战性问题:相较于刚体,它没有明显的状态表示;同时,它具有复杂和非线性的动力学。由于物体中的微观相互作用,即使看起来很简单的物体也可能表现出复杂和不可预测的行为。因此用传统的方法来进行建模和执行会变得比较困难。
[0003]运动规划是解决可变形物体的一个流行的方法,早期的工作主要专注对于线性物体,如绳索等物体的运动规划。规划可变形物体的难点是规划时涉及的大自由度和大配置空间。这些难点再加上复杂的动态运动空间,促使人们使用更好的方法来解决这一问题。
[0004]随着计算机水平的进步,人工智能已经慢慢进入了人们的生活。当前利用人工智能解决机械臂操纵问题的方法有两种:模仿学习和强化学习。而在处理可变形物体的时候,大多数的前沿工作都是使用了模仿学习的办法,它们利用专家演示,通过模仿学习对这些专家的行为进行学习,训练出一套策略。有许多工作是使用了专家演示来指导织物等可变形物体的学习,也有一些工作是使用状态信息的模拟仿真环境来代替真实环境来获得专家 ...
【技术保护点】
【技术特征摘要】
1.一种基于视觉反馈的可变形物体操纵方法,其特征在于,包括:对输入的图像进行二值化分割;从所述二值化分割后的随机分布中采样,以获得采样点;根据输入的状态训练神经网络模型;利用训练好的所述神经网络模型输出抓取点和放置点;操纵可变形物体从所述抓取点运动至所述放置点;其中,所述图像包含可变形物体的信息;所述状态包括所述图像和所述采样点。2.根据权利要求1所述的基于视觉反馈的可变形物体操纵方法,其特征在于,所述采样点包括采样抓取点和采样放置点;所述神经网络模型包括抓取点网络和放置点网络,所述抓取点网络用于输出所述抓取点,所述放置点网络用于输出所述放置点。3.根据权利要求2所述的基于视觉反馈的可变形物体操纵方法,其特征在于,所述利用训练好的所述神经网络模型输出抓取点和放置点的步骤包括:所述抓取点网络根据输入的状态获得多个所述采样抓取点,并根据以下公式确定并输出所述抓取点:所述放置点网络根据输入的状态获得多个所述采样放置点,并根据以下公式确定并输出所述放置点:其中,π代表策略,V代表输出的一组概率值,O代表图像,o
pick
代表采样抓取点,O
place
代表采样放置点。4.根据权利要求1所述的基于视觉反馈的可变形物体操纵方法,其特征在于,所述对包含可变形物体的信息的图像进行二值化分割的步骤包括:将所述图像转化为灰度图像:设置用来进行二值化分割的阈值;遍历所述灰度图像的每个像素点,若一像素点的灰度值大于等于所述阈值,则将所述像素点的灰度值设置为第一预设值,若一像素点的灰度值小于所述阈值,则将所述像素点的灰度值设置为第二预设值。5.根据权利要求1所述的基于视觉反馈的可变形物体操纵方法,其特征在于,所述根据输入的状态训练获得神经网络模型的步骤包括:初始化目标网络参数θ
Q
′
和θ
π
′
,赋值θ
Q
′
←
θ
Q
,θ
π
′
←
θ
π
;根据状态S
t
执行动作A
t
=π(S
t
∣θ
π
)+N
t
;执行动作A
t
后得到奖励R
t
,转移到下一状态S
t+1
;存储状态转移数据对(S
t
,A
t
,R
t
,S
t+1
)到...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。