一种基于视觉反馈的可变形物体操纵方法及系统技术方案

技术编号:36214312 阅读:32 留言:0更新日期:2023-01-04 12:11
本发明专利技术提供了一种基于视觉反馈的可变形物体操纵方法及系统,涉及机械臂操纵技术领域。本发明专利技术的实施例提供的基于视觉反馈的可变形物体操纵方法,其包括:对输入的图像进行二值化分割;从二值化分割后的随机分布中采样,以获得采样点;根据输入的状态训练神经网络模型;利用训练好的神经网络模型输出抓取点和放置点;操纵可变形物体从抓取点运动至放置点;其中,图像包含可变形物体的信息,状态包括图像和采样点。本发明专利技术提供的方法脱离了以高自由度的状态为输入,转而以视觉图像以及采样到的采样点作为输入,解决了状态难以表达的问题,进而有助于提高操纵成功率,同时避免了模仿学习中协变量漂移和克服状态表示的高自由度等问题。问题。问题。

【技术实现步骤摘要】
一种基于视觉反馈的可变形物体操纵方法及系统


[0001]本专利技术涉及机械臂操纵
,具体而言,涉及一种基于视觉反馈的可变形物体操纵方法及系统。

技术介绍

[0002]机械臂操纵的大部分工作集中在处理刚性物体,这些物体要么在被抓住时不变形,要么变形可以忽略不计。然而,可变形对象操纵在现实世界中有许多重要的应用。比较受大家关注领域有家庭辅助机器人:比如折叠织物、铺床、利用机器人穿衣等。还有应用在医学方面的,比如:利用机器人进行手术。利用机器人操纵可变形物体却面临着一些挑战性问题:相较于刚体,它没有明显的状态表示;同时,它具有复杂和非线性的动力学。由于物体中的微观相互作用,即使看起来很简单的物体也可能表现出复杂和不可预测的行为。因此用传统的方法来进行建模和执行会变得比较困难。
[0003]运动规划是解决可变形物体的一个流行的方法,早期的工作主要专注对于线性物体,如绳索等物体的运动规划。规划可变形物体的难点是规划时涉及的大自由度和大配置空间。这些难点再加上复杂的动态运动空间,促使人们使用更好的方法来解决这一问题。
[0004]随着计算机水平的进步,人工智能已经慢慢进入了人们的生活。当前利用人工智能解决机械臂操纵问题的方法有两种:模仿学习和强化学习。而在处理可变形物体的时候,大多数的前沿工作都是使用了模仿学习的办法,它们利用专家演示,通过模仿学习对这些专家的行为进行学习,训练出一套策略。有许多工作是使用了专家演示来指导织物等可变形物体的学习,也有一些工作是使用状态信息的模拟仿真环境来代替真实环境来获得专家演示。但是使用模仿学习的方法会遇到协变量漂移的问题,尽管模仿学习可以对与示范数据集(用于训练策略)相似的样本有较好的表现,对它在训练过程中未见过的样本可能会有较差的泛化表现,因为示范数据集中只能包含有限的样本。虽然也有出现了一些使用强化学习的方法,但是在使用状态进行输入的情况下,可变形物体的状态难以进行表达。

技术实现思路

[0005]本专利技术的目的包括,提供一种基于视觉反馈的可变形物体操纵方法,其能够改善可变形物体在状态表示方面高自由度导致操纵成功率低的问题。
[0006]本专利技术的目的还包括,提供一种基于视觉反馈的可变形物体操纵系统,其能够改善可变形物体在状态表示方面高自由度导致操纵成功率低的问题。
[0007]本专利技术的实施例提供的基于视觉反馈的可变形物体操纵方法及系统可以通过以下方式实现:
[0008]一种基于视觉反馈的可变形物体操纵方法,其包括:对输入的图像进行二值化分割;
[0009]从所述二值化分割后的随机分布中采样,以获得采样点;
[0010]根据输入的状态训练神经网络模型;
[0011]利用训练好的所述神经网络模型输出抓取点和放置点;
[0012]操纵可变形物体从所述抓取点运动至所述放置点;
[0013]其中,所述图像包含可变形物体的信息;所述状态包括所述图像和所述采样点。
[0014]可选地,所述采样点包括采样抓取点和采样放置点;所述神经网络模型包括抓取点网络和放置点网络,所述抓取点网络用于输出所述抓取点,所述放置点网络用于输出所述放置点。
[0015]可选地,所述利用训练好的所述神经网络模型输出抓取点和放置点的步骤包括:
[0016]所述抓取点网络根据输入的状态获得多个所述采样抓取点,并根据以下公式确定并输出所述抓取点:
[0017][0018]所述放置点网络根据输入的状态获得多个所述采样放置点,并根据以下公式确定并输出所述放置点:
[0019][0020]其中,π代表策略,V代表输出的一组概率值,O代表图像,o
pick
代表采样抓取点,O
place
代表采样放置点。
[0021]可选地,所述对包含可变形物体的信息的图像进行二值化分割的步骤包括:
[0022]将所述图像转化为灰度图像:
[0023]设置用来进行二值化分割的阈值;
[0024]遍历所述灰度图像的每个像素点,若一像素点的灰度值大于等于所述阈值,则将所述像素点的灰度值设置为第一预设值,若一像素点的灰度值小于所述阈值,则将所述像素点的灰度值设置为第二预设值
[0025]可选地,所述根据输入的状态训练获得神经网络模型的步骤包括:
[0026]初始化目标网络参数θ
Q

和θ
π

,赋值θ
Q


θ
Q

π


θ
π

[0027]根据状态S
t
执行动作A
t
=π(S
t
∣θ
π
)+N
t

[0028]执行动作A
t
后得到奖励R
t
,转移到下一状态S
t+1

[0029]存储状态转移数据对(S
t
,A
t
,R
t
,S
t+1
)到D;
[0030]令Y
t
=R
t
+γQ

(S
t+1


(S
t+1
∣θ
π

)∣θ
Q

)通过最小化损失函数更新Critic网络:
[0031]通过策略梯度的方式更新Actor网络:
[0032][0033]更新目标网络:θ
Q

ρθ
Q
+(1

ρ)θ
Q

;θ
π


ρθ
π
+(1

ρ)θ
π


[0034]其中,ρ为软更新因子,γ为奖励折扣因子,D为回放缓存,θ
Q
为初始化critic网络Q(s,a∣θ
Q
)的参数,θ
π
为actor网络π(s∣θ
π
)的参数,Q

和π

为目标网络,t为迭代次数,N为回放缓存区数据的数量;而且对于每一幕的训练要初始化随机过程N以向动作添加探索,并接收
初始状态S1。
[0035]可选地,所述可变形物体操纵方法还包括:
[0036]建立具有所述可变形物体的仿真环境,所述仿真环境用于所述神经网络模型的训练和测试。
[0037]可选地,所述神经网络模型包括五层卷积神经网络,第一层卷积神经网络的输入通道数为3,输出通道数为16;第二层卷积神经网络的输入通道数为16,输出通道数为32;第三层卷积神经网络的输入通道数为32,输出通道数64;第四层卷积神经网络的输入通道数为64本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉反馈的可变形物体操纵方法,其特征在于,包括:对输入的图像进行二值化分割;从所述二值化分割后的随机分布中采样,以获得采样点;根据输入的状态训练神经网络模型;利用训练好的所述神经网络模型输出抓取点和放置点;操纵可变形物体从所述抓取点运动至所述放置点;其中,所述图像包含可变形物体的信息;所述状态包括所述图像和所述采样点。2.根据权利要求1所述的基于视觉反馈的可变形物体操纵方法,其特征在于,所述采样点包括采样抓取点和采样放置点;所述神经网络模型包括抓取点网络和放置点网络,所述抓取点网络用于输出所述抓取点,所述放置点网络用于输出所述放置点。3.根据权利要求2所述的基于视觉反馈的可变形物体操纵方法,其特征在于,所述利用训练好的所述神经网络模型输出抓取点和放置点的步骤包括:所述抓取点网络根据输入的状态获得多个所述采样抓取点,并根据以下公式确定并输出所述抓取点:所述放置点网络根据输入的状态获得多个所述采样放置点,并根据以下公式确定并输出所述放置点:其中,π代表策略,V代表输出的一组概率值,O代表图像,o
pick
代表采样抓取点,O
place
代表采样放置点。4.根据权利要求1所述的基于视觉反馈的可变形物体操纵方法,其特征在于,所述对包含可变形物体的信息的图像进行二值化分割的步骤包括:将所述图像转化为灰度图像:设置用来进行二值化分割的阈值;遍历所述灰度图像的每个像素点,若一像素点的灰度值大于等于所述阈值,则将所述像素点的灰度值设置为第一预设值,若一像素点的灰度值小于所述阈值,则将所述像素点的灰度值设置为第二预设值。5.根据权利要求1所述的基于视觉反馈的可变形物体操纵方法,其特征在于,所述根据输入的状态训练获得神经网络模型的步骤包括:初始化目标网络参数θ
Q

和θ
π

,赋值θ
Q


θ
Q

π


θ
π
;根据状态S
t
执行动作A
t
=π(S
t
∣θ
π
)+N
t
;执行动作A
t
后得到奖励R
t
,转移到下一状态S
t+1
;存储状态转移数据对(S
t
,A
t
,R
t
,S
t+1
)到...

【专利技术属性】
技术研发人员:唐漾杜文莉钱锋
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1