当前位置: 首页 > 专利查询>清华大学专利>正文

单轨双轮机器人的控制方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31310006 阅读:25 留言:0更新日期:2021-12-12 21:38
本申请属于机器人控制技术领域,具体而言,涉及一种单轨双轮机器人的控制方法、装置、电子设备及存储介质。包括:构建一个用于控制器的控制器神经网络和一个用于训练的评论家网络;采集单轨双轮机器人真实数据信息;所述评论家网络利用所述单轨双轮机器人真实数据信息指导所述控制器神经网络在仿真环境中进行训练,得到训练后的控制器神经网络;将训练后的控制器神经网络写入单轨双轮机器人的视觉导航系统和底层控制系统中,实现对单轨双轮机器人的控制。本申请考使用强化学习的控制方法既可以完成复杂任务的控制,又无需对机器人进行动力学建模。进行动力学建模。进行动力学建模。

【技术实现步骤摘要】
单轨双轮机器人的控制方法、装置、电子设备及存储介质


[0001]本申请属于机器人控制
,具体而言,涉及一种单轨双轮机器人的控制方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能、大数据、自动化技术的不断发展,移动机器人逐渐进入人类的生产生活。而单轨双轮机器人作为一种移动机器人,具有速度快、体积小、越野能力强的优点,所以在物流运输、抢险救灾、侦查作战、娱乐表演等方面有着广泛的应用前景。
[0003]目前有基于传统控制方法的单轨双轮机器人,比如:[1]李静.前轮驱动自行车机器人建模与自适应控制策略研究[D].北京邮电大学,2018。上述文献使用的控制方法都是PID、LQR、SMC这一类的传统控制方法。

技术实现思路

[0004]有鉴于此,本公开提出了单轨双轮机器人的控制方法、装置、电子设备及存储介质,以解决相关技术中的相关问题。
[0005]根据本公开的第一方面,提出单轨双轮机器人控制方法,包括:
[0006]构建用于控制器的控制器神经网络和用于训练的评论家网络;
[0007]采集单轨双轮机器人的真实数据信息;
[0008]利用所述评论家网络以所述真实数据信息引导所述控制器神经网络在预设仿真环境中进行训练,生成训练后的控制器神经网络;以及
[0009]将所述训练后的控制器神经网络写入所述单轨双轮机器人的视觉导航系统和底层控制系统中,并将所述单轨双轮机器人的当前数据信息作为输入,利用所述训练后的控制器神经网络控制所述视觉导航系统和底层控制系统执行对应的动作。
[0010]可选地,所述利用所述评论家网络以所述真实数据信息引导所述控制器神经网络在预设仿真环境中进行训练,生成训练后的控制器神经网络,包括:
[0011]初始化所述控制器神经网络和评论家网络,并复制所述控制器神经网络和评论家网络,生成相同结构的目标评论家网络和目标控制器网络,且初始化第一经验池和第二经验池,并将所述真实数据信息导入所述第一经验池;
[0012]初始化所述仿真环境,令循环次数i=1;
[0013]控制所述控制器网络产生一个与当前状态为S的仿真环境相对应的动作值,作用于所述仿真环境后,得到相应的状态数据,其中,所述状态数据包括单轨双轮机器人的图像信息矩阵、信息序列、地形信息矩阵和位姿信息中的一项或多项;
[0014]根据所述状态数据计算与所述动作值相对应的奖励值,
[0015]将所述动作值、奖励值和所述状态数据存放至所述第二经验池;
[0016]根据目标价值计算值设定所述当前状态中单轨双轮机器人到达终点、驶出道路或倾倒时,完成控制器神经网络训练任务;
[0017]对任务完成状态进行判断,直至达到所述目标价值计算值;
[0018]从所述第一经验池抽取多个真实数据样本,对所述评论家网络和所述控制器网络进行训练,从所述第二经验池中抽取多个仿真数据样本,对所述评论家网络和所述控制器网络参数进行更新;
[0019]利用所述评论家网络的参数对所述目标评论家网络的参数进行更新,利用所述控制器网络参数对所述目标控制器网络的参数进行更新,直至生成训练后的控制器神经网络。
[0020]可选地,从所述第一经验池抽取多个真实数据样本,对所述评论家网络和所述控制器网络进行训练,从所述第二经验池中抽取多个仿真数据样本,对所述评论家网络和所述控制器网络参数进行更新,包括:
[0021]利用损失函数计算抽取所述多个真实数据样本和所述多个仿真数据样本的损失值;
[0022]根据所述损失值更新所述评论家网络,使所述评论家网络的参数为并且更新所述控制器网络,使所述控制器网络的参数为
[0023]其中,所述损失函数为:
[0024][0025]其中,各个参数含义。
[0026]根据本公开的第二方面,本公开提出单轨双轮机器人控制装置,包括:
[0027]构建模块,用于构建用于控制器的控制器神经网络和用于训练的评论家网络;
[0028]采集模块,用于采集单轨双轮机器人的真实数据信息;
[0029]训练模块,用于利用所述评论家网络以所述真实数据信息引导所述控制器神经网络在预设仿真环境中进行训练,生成训练后的控制器神经网络;以及
[0030]控制模块,用于将所述训练后的控制器神经网络写入所述单轨双轮机器人的视觉导航系统和底层控制系统中,并将所述单轨双轮机器人的当前数据信息作为输入,利用所述训练后的控制器神经网络控制所述视觉导航系统和底层控制系统执行对应的动作。
[0031]可选地,所述训练模块包括:
[0032]第一计算单元,用于根据所述状态数据计算与所述动作值相对应的奖励值,
[0033]存放单元,用于将所述动作值、奖励值和所述状态数据存放至所述第二经验池;
[0034]第二计算单元,用于根据目标价值计算值设定所述当前状态中单轨双轮机器人到达终点、驶出道路或倾倒时,完成控制器神经网络训练任务;
[0035]判断单元,用于对任务完成状态进行判断,直至达到所述目标价值计算值;
[0036]第一更新单元,用于从所述第一经验池抽取多个真实数据样本,对所述评论家网络和所述控制器网络进行训练,从所述第二经验池中抽取多个仿真数据样本,对所述评论家网络和所述控制器网络参数进行更新;
[0037]第二更新单元,用于利用所述评论家网络的参数对所述目标评论家网络的参数进行更新,利用所述控制器网络参数对所述目标控制器网络的参数进行更新,直至生成训练后的控制器神经网络。
[0038]可选地,所述第一更新单元进一步用于利用损失函数计算抽取所述多个真实数据样本和所述多个仿真数据样本的损失值,并且根据所述损失值更新所述评论家网络,使所述评论家网络的参数为并且更新所述控制器网络,使所述控制器网络的参数为
[0039]可选地,损失函数为:
[0040][0041]其中,i为当前循环序号,y
i
为目标价值计算值,M为真实数据样本数,N为仿真数据样本数,Q为评论家网络的输出结果,即Q(s
i
,A0|θ
Q
)为当评论家网络参数为θ
Q
时,评论家网络的输入为s
i
和A0,评论家网络的输出为Q。
[0042]根据本公开的第三方面,提出一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现:
[0043]构建用于控制器的控制器神经网络和用于训练的评论家网络;
[0044]采集单轨双轮机器人的真实数据信息;
[0045]利用所述评论家网络以所述真实数据信息引导所述控制器神经网络在预设仿真环境中进行训练,生成训练后的控制器神经网络;以及
[0046]将所述训练后的控制器神经网络写入所述单轨双轮机器人的视觉导航系统和底层控制系统中,并将所述单轨双轮机器人的当前数据信息作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单轨双轮机器人控制方法,其特征在于,包括以下步骤:构建用于控制器的控制器神经网络和用于训练的评论家网络;采集单轨双轮机器人的真实数据信息;利用所述评论家网络以所述真实数据信息引导所述控制器神经网络在预设仿真环境中进行训练,生成训练后的控制器神经网络;以及将所述训练后的控制器神经网络写入所述单轨双轮机器人的视觉导航系统和底层控制系统中,并将所述单轨双轮机器人的当前数据信息作为输入,利用所述训练后的控制器神经网络控制所述视觉导航系统和底层控制系统执行对应的动作。2.根据权利要求1所述的方法,其特征在于,所述利用所述评论家网络以所述真实数据信息引导所述控制器神经网络在预设仿真环境中进行训练,生成训练后的控制器神经网络,包括:初始化所述控制器神经网络和评论家网络,并复制所述控制器神经网络和评论家网络,生成相同结构的目标评论家网络和目标控制器网络,且初始化第一经验池和第二经验池,并将所述真实数据信息导入所述第一经验池;初始化所述仿真环境,令循环次数i=1;控制所述控制器网络产生一个与当前状态为S的仿真环境相对应的动作值,作用于所述仿真环境后,得到相应的状态数据,其中,所述状态数据包括单轨双轮机器人的图像信息矩阵、信息序列、地形信息矩阵和位姿信息中的一项或多项;根据所述状态数据计算与所述动作值相对应的奖励值,将所述动作值、奖励值和所述状态数据存放至所述第二经验池;根据目标价值计算值设定所述当前状态中单轨双轮机器人到达终点、驶出道路或倾倒时,完成控制器神经网络训练任务;对任务完成状态进行判断,直至达到所述目标价值计算值;从所述第一经验池抽取多个真实数据样本,对所述评论家网络和所述控制器网络进行训练,从所述第二经验池中抽取多个仿真数据样本,对所述评论家网络和所述控制器网络参数进行更新;利用所述评论家网络的参数对所述目标评论家网络的参数进行更新,利用所述控制器网络参数对所述目标控制器网络的参数进行更新,直至生成训练后的控制器神经网络。3.根据权利要求2所述的方法,其特征在于,所述从第一经验池抽取多个真实数据样本,对所述评论家网络和所述控制器网络进行训练,从所述第二经验池中抽取多个仿真数据样本,对所述评论家网络和所述控制器网络参数进行更新,包括:利用损失函数计算抽取所述多个真实数据样本和所述多个仿真数据样本的损失值;根据所述损失值更新所述评论家网络,使所述评论家网络的参数为θ
Q
=θ
Q

c

θQ
L,并且更新所述控制器网络,使所述控制器网络的参数为θ
μ
=θ
μ

a

θμ
J,其中,α
c
和α
a
分别为常数,

为策略梯度运算符。4.根据权利要求3所述的方法,其特征在于,所述损失函数为:
其中,i为当前循环序号,y
i

【专利技术属性】
技术研发人员:梁斌郑清源陈章杨君芦维宁
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1