单轨双轮机器人的控制方法、装置、电子设备及存储介质制造方法及图纸

技术编号：31310006 阅读：25 留言：0更新日期：2021-12-12 21:38

本申请属于机器人控制技术领域，具体而言，涉及一种单轨双轮机器人的控制方法、装置、电子设备及存储介质。包括：构建一个用于控制器的控制器神经网络和一个用于训练的评论家网络；采集单轨双轮机器人真实数据信息；所述评论家网络利用所述单轨双轮机器人真实数据信息指导所述控制器神经网络在仿真环境中进行训练，得到训练后的控制器神经网络；将训练后的控制器神经网络写入单轨双轮机器人的视觉导航系统和底层控制系统中，实现对单轨双轮机器人的控制。本申请考使用强化学习的控制方法既可以完成复杂任务的控制，又无需对机器人进行动力学建模。进行动力学建模。进行动力学建模。

全部详细技术资料下载

【技术实现步骤摘要】
单轨双轮机器人的控制方法、装置、电子设备及存储介质

[0001]本申请属于机器人控制
，具体而言，涉及一种单轨双轮机器人的控制方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能、大数据、自动化技术的不断发展，移动机器人逐渐进入人类的生产生活。而单轨双轮机器人作为一种移动机器人，具有速度快、体积小、越野能力强的优点，所以在物流运输、抢险救灾、侦查作战、娱乐表演等方面有着广泛的应用前景。
[0003]目前有基于传统控制方法的单轨双轮机器人，比如：[1]李静.前轮驱动自行车机器人建模与自适应控制策略研究[D].北京邮电大学,2018。上述文献使用的控制方法都是PID、LQR、SMC这一类的传统控制方法。

技术实现思路

[0004]有鉴于此，本公开提出了单轨双轮机器人的控制方法、装置、电子设备及存储介质，以解决相关技术中的相关问题。
[0005]根据本公开的第一方面，提出单轨双轮机器人控制方法，包括：
[0006]构建用于控制器的控制器神经网络和用于训练的评论家网络；
[0007]采集单轨双轮机器人的真实数据信息；
[0008]利用所述评论家网络以所述真实数据信息引导所述控制器神经网络在预设仿真环境中进行训练，生成训练后的控制器神经网络；以及
[0009]将所述训练后的控制器神经网络写入所述单轨双轮机器人的视觉导航系统和底层控制系统中，并将所述单轨双轮机器人的当前数据信息作为输入，利用所述训练后的控制器神经网络控制所述视觉导航系统和底层控...

【技术保护点】

【技术特征摘要】
1.一种单轨双轮机器人控制方法，其特征在于，包括以下步骤：构建用于控制器的控制器神经网络和用于训练的评论家网络；采集单轨双轮机器人的真实数据信息；利用所述评论家网络以所述真实数据信息引导所述控制器神经网络在预设仿真环境中进行训练，生成训练后的控制器神经网络；以及将所述训练后的控制器神经网络写入所述单轨双轮机器人的视觉导航系统和底层控制系统中，并将所述单轨双轮机器人的当前数据信息作为输入，利用所述训练后的控制器神经网络控制所述视觉导航系统和底层控制系统执行对应的动作。2.根据权利要求1所述的方法，其特征在于，所述利用所述评论家网络以所述真实数据信息引导所述控制器神经网络在预设仿真环境中进行训练，生成训练后的控制器神经网络，包括：初始化所述控制器神经网络和评论家网络，并复制所述控制器神经网络和评论家网络，生成相同结构的目标评论家网络和目标控制器网络，且初始化第一经验池和第二经验池，并将所述真实数据信息导入所述第一经验池；初始化所述仿真环境，令循环次数i＝1；控制所述控制器网络产生一个与当前状态为S的仿真环境相对应的动作值，作用于所述仿真环境后，得到相应的状态数据，其中，所述状态数据包括单轨双轮机器人的图像信息矩阵、信息序列、地形信息矩阵和位姿信息中的一项或多项；根据所述状态数据计算与所述动作值相对应的奖励值，将所述动作值、奖励值和所述状态数据存放至所述第二经验池；根据目标价值计算值设定所述当前状态中单轨双轮机器人到达终点、驶出道路或倾倒时，完成控制器神经网络训练任务；对任务完成状态进行判断，直至达到所述目标价值计算值；从所述第一经验池抽取多个真实数据样本，对所述评论家网络和所述控制器网络进行训练，从所述第二经验池中抽取多个仿真数据样本，对所述评论家网络和所述控制器网络参数进行更新；利用所述评论家网络的参数对所述目标评论家网络的参数进行更新，利用所述控制器网络参数对所述目标控制器网络的参数进行更新，直至生成训练后的控制器神经网络。3.根据权利要求2所述的方法，其特征在于，所述从第一经验池抽取多个真实数据样本，对所述评论家网络和所述控制器网络进行训练，从所述第二经验池中抽取多个仿真数据样本，对所述评论家网络和所述控制器网络参数进行更新，包括：利用损失函数计算抽取所述多个真实数据样本和所述多个仿真数据样本的损失值；根据所述损失值更新所述评论家网络，使所述评论家网络的参数为θ
Q
＝θ
Q
+α
c
▽
θQ
L，并且更新所述控制器网络，使所述控制器网络的参数为θ
μ
＝θ
μ
+α
a
▽
θμ
J，其中，α
c
和α
a
分别为常数，
▽
为策略梯度运算符。4.根据权利要求3所述的方法，其特征在于，所述损失函数为：
其中，i为当前循环序号，y
i

【专利技术属性】
技术研发人员：梁斌，郑清源，陈章，杨君，芦维宁，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人