基于深度强化学习的人群感知导航方法及系统技术方案

技术编号:38094005 阅读:21 留言:0更新日期:2023-07-06 09:07
本发明专利技术涉及导航技术领域,提供了基于深度强化学习的人群感知导航方法及系统,包括:获取当前时刻的机器人状态、行人的可观测状态和静态障碍的传感数据;将当前时刻的机器人状态、行人的可观测状态和静态障碍的传感数据,输入局部规划算法,得到下一个时刻的机器人状态、行人的可观测状态和静态障碍的传感数据,将得到的下一个时刻的机器人状态、行人的可观测状态和静态障碍的传感数据,输入值网络模型,得到状态价值,并结合不同动作下当前时刻收到的奖励,选择当前时刻的动作。解决了在有静态障碍的人口环境中安全且符合社会要求的机器人导航问题。机器人导航问题。机器人导航问题。

【技术实现步骤摘要】
基于深度强化学习的人群感知导航方法及系统


[0001]本专利技术属于导航
,尤其涉及基于深度强化学习的人群感知导航方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]随着移动机器人领域的快速发展,自主机器人的应用场景逐渐从孤立的静态空间扩展到餐厅、商场、医院等人机共存的环境。在这些人群场景中,人类频繁地改变自己的运动状态,包括移动方向、速度、加速度等,以避免与附近的人类和障碍物发生碰撞。这些随机的人类运动使得机器人在公共环境中的导航更加复杂。到目前为止,在自然公共环境中安全和符合社会要求的导航仍然具有挑战性。
[0004]传统方法通过精心设计的规则来解决导航问题。这些方法通常考虑机器人动力学,并且在静态或其他确定性导航环境中已经显示出了明显的优势。然而,这类方法在人口稠密的场景下容易受人类行为的随机性影响,从而导致机器人陷入振荡或停止状态而无法找到可行路径的冻结机器人问题(frozen Robot Problem,FRP)。在过去几年里,深度强化学习技术(Deep Reinforcement Learning,DRL)在解决社会导航问题上取得了重大进展。这些方法探索了神经网络在动态环境中用于机器人导航的使用,隐式编码人类之间的交互和合作。然而,随着静态障碍物复杂性的增加,当前的模型性能将会明显下降。其次,目前的模型在提取环境中的行人特征时,没有充分考虑静态障碍物对行人重要性分配的影响。此外,大多数强化学习方法都忽略了机器人动力学,这将给现实世界中的策略泛化带来困难。

技术实现思路

[0005]为了解决上述
技术介绍
中存在的技术问题,本专利技术提供基于深度强化学习的人群感知导航方法及系统,其值网络模型的输出被用来设定局部规划算法的局部目标,而不是直接参与机器人的控制,解决了在有静态障碍的人口环境中安全且符合社会要求的机器人导航问题。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]本专利技术的第一个方面提供基于深度强化学习的人群感知导航方法,其包括:
[0008]获取当前时刻的机器人状态、行人的可观测状态和静态障碍的传感数据;
[0009]将当前时刻的机器人状态、行人的可观测状态和静态障碍的传感数据,输入局部规划算法,得到下一个时刻的机器人状态、行人的可观测状态和静态障碍的传感数据,将得到的下一个时刻的机器人状态、行人的可观测状态和静态障碍的传感数据,输入值网络模型,得到状态价值,并结合不同动作下当前时刻收到的奖励,选择当前时刻的动作。
[0010]进一步地,所述机器人状态包括:从机器人位置到目标点的距离、机器人速度、机器人的预期运动速度、机器人的运动方向和机器人对静态障碍物的传感数据。
[0011]进一步地,所述行人的可观测状态包括:行人位置、行人速度和从行人位置到机器人位置的距离。
[0012]进一步地,使用动作掩蔽机制将意图点集合分成了有效局部目标点集和无效局部目标点集;
[0013]所述有效局部目标点集包括在局部规划算法求解的目标点中;
[0014]所述无效局部目标点集为落在静态障碍物中的点以及局部规划算法求解失败的点。
[0015]进一步地,所述奖励采用将位置惩罚纳入的奖励函数计算得到。
[0016]进一步地,所述机器人状态和行人的可观测状态,以机器人位置为中心进行表示。
[0017]进一步地,使用时间差分学习方法、标准经验回放和固定目标网络技术对所述值网络模型进行训练。
[0018]本专利技术的第二个方面提供基于深度强化学习的人群感知导航系统,其包括:
[0019]数据获取模块,其被配置为:获取当前时刻的机器人状态、行人的可观测状态和静态障碍的传感数据;
[0020]导航模块,其被配置为:将当前时刻的机器人状态、行人的可观测状态和静态障碍的传感数据,输入局部规划算法,得到下一个时刻的机器人状态、行人的可观测状态和静态障碍的传感数据,将得到的下一个时刻的机器人状态、行人的可观测状态和静态障碍的传感数据,输入值网络模型,得到状态价值,并结合不同动作下当前时刻收到的奖励,选择当前时刻的动作。
[0021]本专利技术的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于深度强化学习的人群感知导航方法中的步骤。
[0022]本专利技术的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于深度强化学习的人群感知导航方法中的步骤。
[0023]与现有技术相比,本专利技术的有益效果是:
[0024]本专利技术提供了基于深度强化学习的人群感知导航方法,其神经网络的输出被用来设定DWA的局部目标,而不是直接参与机器人的控制,解决了在有静态障碍的人口环境中安全且符合社会要求的机器人导航问题。
[0025]本专利技术提供了基于深度强化学习的人群感知导航方法,其为了减少强化学习的负担,还引入了无效动作掩蔽机制(Invalid Action Masking)来修剪强化学习的导航动作空间。
[0026]本专利技术提供了基于深度强化学习的人群感知导航方法,其在行人重要性评价网络中加入静态障碍信息作为打分参考,以提升机器人在综合障碍空间中对于行人运动的感知能力。
[0027]本专利技术提供了基于深度强化学习的人群感知导航方法,其经过强化学习方法的训练,机器人可以安全地在拥挤和混乱的环境中航行。
附图说明
[0028]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示
意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0029]图1是本专利技术实施例一的基于社会注意机制的深度强化学习价值网络的结构图;
[0030]图2是本专利技术实施例一的机器人动作意图点示意图;
[0031]图3(a)是本专利技术实施例一的ORCA的导航结果图;
[0032]图3(b)是本专利技术实施例一的CADRL的导航结果图;
[0033]图3(c)是本专利技术实施例一的SOADRL的导航结果图;
[0034]图3(d)是本专利技术实施例一的SHRL

D的导航结果图;
[0035]图3(e)是本专利技术实施例一的SHRL的导航结果图;
[0036]图3(f)是本专利技术实施例一的SHRL

D*的导航结果图;
[0037]图4是本专利技术实施例一的SHRL

DR策略选择示意图。
具体实施方式
[0038]下面结合附图与实施例对本专利技术作进一步说明。
[0039]应该指出,以下详细说明都是例示性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的人群感知导航方法,其特征在于,包括:获取当前时刻的机器人状态、行人的可观测状态和静态障碍的传感数据;将当前时刻的机器人状态、行人的可观测状态和静态障碍的传感数据,输入局部规划算法,得到下一个时刻的机器人状态、行人的可观测状态和静态障碍的传感数据,将得到的下一个时刻的机器人状态、行人的可观测状态和静态障碍的传感数据,输入值网络模型,得到状态价值,并结合不同动作下当前时刻收到的奖励,选择当前时刻的动作。2.如权利要求1所述的基于深度强化学习的人群感知导航方法,其特征在于,所述机器人状态包括:从机器人位置到目标点的距离、机器人速度、机器人的预期运动速度、机器人的运动方向和机器人对静态障碍物的传感数据。3.如权利要求1所述的基于深度强化学习的人群感知导航方法,其特征在于,所述行人的可观测状态包括:行人位置、行人速度和从行人位置到机器人位置的距离。4.如权利要求1所述的基于深度强化学习的人群感知导航方法,其特征在于,使用动作掩蔽机制将意图点集合分成了有效局部目标点集和无效局部目标点集;所述有效局部目标点集包括在局部规划算法求解的目标点中;所述无效局部目标点集为落在静态障碍物中的点以及局部规划算法求解失败的点。5.如权利要求1所述的基于深度强化学习的人群感知导航方法,其特征在于,所述奖励采用将位置惩罚纳入的奖励函数计算得到。6.如权利要求1...

【专利技术属性】
技术研发人员:周风余冯震薛秉鑫尹磊史鲁川赵云丁笑迎
申请(专利权)人:山东芯辰人工智能科技有限公司山东正晨科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1