移动体控制装置、移动体、学习装置及方法、及存储介质制造方法及图纸

技术编号：37162162 阅读：34 留言：0更新日期：2023-04-06 22:28

本发明专利技术提供能够根据环境的拥挤度来决定恰当的移动方式的移动体控制装置、移动体、学习装置及方法、及存储介质。移动体控制装置具备：路径决定部，其根据在移动体的周边存在的障碍物的个数来决定所述移动体的路径；以及控制部，其使所述移动体沿着由所述路径决定部决定的路径移动。定的路径移动。定的路径移动。

全部详细技术资料下载

【技术实现步骤摘要】
移动体控制装置、移动体、学习装置及方法、及存储介质

[0001]本专利技术涉及移动体控制装置、移动体、学习装置、学习方法及存储介质。

技术介绍

[0002]近年来，利用通过机器学习而生成的AI(人工智能)来决定移动体的移动路径的尝试不断进展。另外，基于观测值来决定行动，计算基于从实际环境、仿真器得到的反馈而获得的报酬而将模型参数最优化的强化学习也不断推进研究及实用化。
[0003]与此相关联，为了针对人的移动采取安全
·
安心的躲避行动，公开了如下路径决定装置的专利技术，该路径决定装置在包括行人的交通参加者存在于到目的地为止的交通环境的条件下决定自主移动型的机器人移动到目的地为止时的路径(参照专利文献1)。该路径决定装置具备：预测路径决定部，其使用规定的预测算法来决定作为机器人的路径的预测值的预测路径，以免机器人与交通参加者干涉；路径决定部，其以使目标函数成为最大值的方式，使用规定的控制算法来决定机器人的路径，所述目标函数是指，在设想机器人从当前位置以预测路径移动时，作为自变量而包括机器人与最近的交通参加者之间的距离及机器人的速度在内的目标函数。
[0004]另外，非专利文献1中记载了：关于高密度动态环境下的分散运动规划，一边使智能体数阶段性地增加一边进行强化学习的多阶段训练。
[0005]另外，非专利文献2中，作为学习能够恰当地决定移动体的动作的策略的方法，记载了多场景
‑
多阶段
‑
训练框架。
[0006]【在先技术文献】
...

【技术保护点】

【技术特征摘要】
1.一种移动体控制装置，其中，所述移动体控制装置具备：路径决定部，其根据在移动体的周边存在的障碍物的个数来决定所述移动体的路径；以及控制部，其使所述移动体沿着由所述路径决定部决定的路径移动。2.根据权利要求1所述的移动体控制装置，其中，所述路径决定部基于由仿真器和学习部学习到的动作的策略来决定移动体的路径，所述动作的策略是指，所述仿真器关于障碍物的数量不同的多个环境同时执行所述移动体及所述障碍物的动作的仿真，所述学习部进行更新以使对所述仿真器的处理结果适用报酬函数而得到的报酬最大化，从而学习到的所述动作的策略。3.根据权利要求2所述的移动体控制装置，其中，基于多个所述仿真器的处理结果来学习所述动作的策略，所述环境内的所述障碍物的数量按多个所述仿真器中的每个仿真器而不同，所述学习部更新所述动作的策略，以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积和最大化，由此学习到所述动作的策略。4.一种移动体，其中，所述移动体具备：权利要求1至3中任一项所述的移动体控制装置；作业部，其用于向利用者提供规定的服务；以及驱动装置，其用于使本移动体移动，所述驱动装置进行驱动，以使所述本移动体以由所述移动体控制装置决定的移动方式移动。5.一种学习装置，其中，所述学习装置具备：多个仿真器，该仿真器执行移动体的动作的仿真，且在所述多个仿真器中，存在的所述移动体或障碍物的数量按每个所述仿真器而不同；以及学习部，其学习所述动作的策略，以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积...

【专利技术属性】
技术研发人员：松崎灿心，长谷川雄二，
申请(专利权)人：本田技研工业株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人