移动体控制装置、移动体、学习装置及方法、及存储介质制造方法及图纸

技术编号:37162162 阅读:22 留言:0更新日期:2023-04-06 22:28
本发明专利技术提供能够根据环境的拥挤度来决定恰当的移动方式的移动体控制装置、移动体、学习装置及方法、及存储介质。移动体控制装置具备:路径决定部,其根据在移动体的周边存在的障碍物的个数来决定所述移动体的路径;以及控制部,其使所述移动体沿着由所述路径决定部决定的路径移动。定的路径移动。定的路径移动。

【技术实现步骤摘要】
移动体控制装置、移动体、学习装置及方法、及存储介质


[0001]本专利技术涉及移动体控制装置、移动体、学习装置、学习方法及存储介质。

技术介绍

[0002]近年来,利用通过机器学习而生成的AI(人工智能)来决定移动体的移动路径的尝试不断进展。另外,基于观测值来决定行动,计算基于从实际环境、仿真器得到的反馈而获得的报酬而将模型参数最优化的强化学习也不断推进研究及实用化。
[0003]与此相关联,为了针对人的移动采取安全
·
安心的躲避行动,公开了如下路径决定装置的专利技术,该路径决定装置在包括行人的交通参加者存在于到目的地为止的交通环境的条件下决定自主移动型的机器人移动到目的地为止时的路径(参照专利文献1)。该路径决定装置具备:预测路径决定部,其使用规定的预测算法来决定作为机器人的路径的预测值的预测路径,以免机器人与交通参加者干涉;路径决定部,其以使目标函数成为最大值的方式,使用规定的控制算法来决定机器人的路径,所述目标函数是指,在设想机器人从当前位置以预测路径移动时,作为自变量而包括机器人与最近的交通参加者之间的距离及机器人的速度在内的目标函数。
[0004]另外,非专利文献1中记载了:关于高密度动态环境下的分散运动规划,一边使智能体数阶段性地增加一边进行强化学习的多阶段训练。
[0005]另外,非专利文献2中,作为学习能够恰当地决定移动体的动作的策略的方法,记载了多场景

多阶段

训练框架。
[0006]【在先技术文献】
[0007]【专利文献】
[0008]【专利文献1】国际公开第2020/136977号
[0009]【非专利文献】
[0010]【非专利文献1】通过深度强化学习对密集和动态环境进行多智能体运动规划。IEEE机器人与自动化快报(Samaneh Hosseini Semnani,Hugh Liu,Michael Everett,Anton de Ruiter,and Jonathan P How.Multi

agent motion planning for dense and dynamic environments via deep reinforcement learning.IEEE Robotics and Automation Letters),5(2):3221

3226,2020.
[0011]【非专利文献2】通过深度强化学习实现最优分散的避免多机器人碰撞。2018年IEEE机器人与自动化国际会议(ICRA)(P.Long,T.Fan,X.Liao,W.Liu,H.Zhang,and J.Pan.Towards optimally decentralized multi

robot collision avoidance via deep reinforcement learning.In 2018IEEE International Conference on Robotics and Automation(ICRA)).

技术实现思路

[0012]专利技术要解决的课题
[0013]然而,在以往的方法中,为了应对复杂的环境而学习了存在较多数量移动体的环境,其结果是,有时成为过学习,在存在的移动体少的环境下决定出不恰当的移动路径。这样,在以往技术中,有时不能根据环境的拥挤度恰当地决定移动路径。
[0014]本专利技术是考虑这样的情况而完成的,其目的之一在于提供能够根据环境的拥挤度决定恰当的移动方式的移动体控制装置、移动体、学习装置、学习方法及存储介质。
[0015]用于解决课题的方案
[0016]本专利技术的移动体控制装置、移动体、学习装置、学习方法及存储介质采用了以下的结构。
[0017](1):本专利技术的一方案的移动体控制装置具备:路径决定部,其根据在移动体的周边存在的障碍物的个数来决定所述移动体的路径;以及控制部,其使所述移动体沿着由所述路径决定部决定的路径移动。
[0018](2):在上述(1)的方案中,所述路径决定部基于由仿真器和学习部学习到的动作的策略来决定移动体的路径,所述动作的策略是指,所述仿真器关于障碍物的数量不同的多个环境同时执行所述移动体及所述障碍物的动作的仿真,通过所述学习部进行更新以使对所述仿真器的处理结果适用报酬函数而得到的报酬最大化,从而学习到的所述动作的策略。
[0019](3):在上述(2)的方案中,基于多个所述仿真器的处理结果来学习所述动作的策略,所述环境内的所述障碍物的数量按多个所述仿真器中的每个仿真器而不同,所述学习部更新所述动作的策略,以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积和最大化,由此学习到所述动作的策略。
[0020](4):本专利技术的一方案的移动体具备:上述任一移动体控制装置;作业部,其用于向利用者提供规定的服务;以及驱动装置,其用于使本移动体移动,所述驱动装置进行驱动,以使所述本移动体以由所述移动体控制装置决定的移动方式移动。
[0021](5):本专利技术的一方案的学习装置具备:多个仿真器,该仿真器执行移动体的动作的仿真,且在所述多个仿真器中,存在的所述移动体或障碍物的数量按每个所述仿真器而不同;以及学习部,其学习所述动作的策略,以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积和最大化。
[0022](6):在上述(5)的方案中,多个所述仿真器由与多个所述仿真器分别建立了对应关系的单独的处理器来执行。
[0023](7):在上述(5)或(6)的方案中,在多个所述仿真器设定有分别不同的所述移动体或所述障碍物的最大数,多个所述仿真器一边从规定的最小数到多个所述仿真器各自的最大数为止而阶段性地增加所述移动体或所述障碍物的数量,一边执行仿真。
[0024](8):在上述(5)至(7)中的任一方案中,多个所述仿真器在各阶段的仿真中,关于所述移动体或所述障碍物的个数相同的多个环境并列地执行仿真。
[0025](9):在上述(5)至(8)中的任一方案中,所述报酬函数作为变量而包括移动体到达目标的到达度、移动体的碰撞次数、移动体的移动速度中的至少一个。
[0026](10):在上述(5)至(9)中的任一方案中,所述报酬函数作为自变量而包括在本移动体的周围存在的所述移动体或所述障碍物的移动向量的变化。
[0027](11):本专利技术的一方案的学习方法使计算机进行如下处理:利用存在的移动体或
障碍物的数量按每个仿真器而不同的多个所述仿真器,来执行移动体的动作的仿真;学习所述动作的策略,以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积和最大化。
[0028](12):本专利技术的一方案的存储介质使计算机进行如下处理:利用存在的移动体或障碍物的数量按每个仿真器而不同的多个所述仿真器,来执行移动体的动作的仿真;学习所述动作的策略,以使对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种移动体控制装置,其中,所述移动体控制装置具备:路径决定部,其根据在移动体的周边存在的障碍物的个数来决定所述移动体的路径;以及控制部,其使所述移动体沿着由所述路径决定部决定的路径移动。2.根据权利要求1所述的移动体控制装置,其中,所述路径决定部基于由仿真器和学习部学习到的动作的策略来决定移动体的路径,所述动作的策略是指,所述仿真器关于障碍物的数量不同的多个环境同时执行所述移动体及所述障碍物的动作的仿真,所述学习部进行更新以使对所述仿真器的处理结果适用报酬函数而得到的报酬最大化,从而学习到的所述动作的策略。3.根据权利要求2所述的移动体控制装置,其中,基于多个所述仿真器的处理结果来学习所述动作的策略,所述环境内的所述障碍物的数量按多个所述仿真器中的每个仿真器而不同,所述学习部更新所述动作的策略,以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积和最大化,由此学习到所述动作的策略。4.一种移动体,其中,所述移动体具备:权利要求1至3中任一项所述的移动体控制装置;作业部,其用于向利用者提供规定的服务;以及驱动装置,其用于使本移动体移动,所述驱动装置进行驱动,以使所述本移动体以由所述移动体控制装置决定的移动方式移动。5.一种学习装置,其中,所述学习装置具备:多个仿真器,该仿真器执行移动体的动作的仿真,且在所述多个仿真器中,存在的所述移动体或障碍物的数量按每个所述仿真器而不同;以及学习部,其学习所述动作的策略,以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积...

【专利技术属性】
技术研发人员:松崎灿心长谷川雄二
申请(专利权)人:本田技研工业株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1