本发明专利技术属于机器人导航技术领域,提供了一种基于深度强化学习的服务机器人无地图导航方法及系统。其中,基于深度强化学习的服务机器人无地图导航方法包括以服务机器人为中心的坐标系,在每个预设时间间隔,获取服务机器人自身状态以及人类的观测状态,进而得到服务机器人导航时的联合状态;根据服务机器人导航时的联合状态和最优值函数,确定出最优导航策略来最大化期望奖赏,以确定动作指令来及时调整服务机器人的自身速度;其中,利用预设价值网络的输出估计最优值函数;最优导航策略中的奖励函数基于危险区域和判断准则来确定,危险区域根据服务机器人与人类之间的相对速度以及人类可接受的安全距离来确定。及人类可接受的安全距离来确定。及人类可接受的安全距离来确定。
【技术实现步骤摘要】
基于深度强化学习的服务机器人无地图导航方法及系统
[0001]本专利技术属于机器人导航
,尤其涉及一种基于深度强化学习的服务机器人无地图导航方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]服务机器人目前备受欢迎,越来越多地部署在与人共存的社会环境中。这些复杂的应用场景对机器人导航的安全性和稳定性提出了巨大挑战。一方面,由于人群行为的高随机性,机器人难以预测其意图,从而威胁了人机交互的安全性。另一方面,在实际应用中,机器人所用地图可能会存在局部区域缺失或难以实时更新等问题,限制了机器人导航性能。因此,这需要机器人能够像人一样具备在未知环境中进行导航的能力,同时有效避开人类和静态障碍。为实现上述功能,相关研究人员将机器人无地图导航研究划分为两个阶段,即先研究拥挤人群环境的机器人社交导航再研究复杂障碍环境(包含人类和静态障碍)的机器人无地图导航,由浅入深地逐步提升机器人智能化水平。
[0004]随着拥挤人群环境中机器人社交导航蓬勃发展,一个重要的类别是基于反应方法,它考虑有限范围内的障碍并在每个规划步骤进行重新决策。尽管反应式方法在避障方面很有效,但随着环境复杂度增加,易遭受冻结机器人问题。基于轨迹方法预测人类轨迹并遵守其合作规范以规划机器人的可行路径。虽然该方法已经成功地应用于现实机器人,但其泛化性较差,在复杂场景中没有展现一致的性能。目前,基于学习方法被广泛使用,该方法将机器人社交导航视为马尔可夫决策过程,并利用深度强化学习来解决。虽然该方法在人群环境中展示了令人信服的导航性能,但难以直接迁移到未知的复杂障碍环境。
技术实现思路
[0005]为了解决上述
技术介绍
中存在的至少一项技术问题,本专利技术提供一种基于深度强化学习的服务机器人无地图导航方法及系统。结合了人群和静态障碍信息的新颖价值网络被提出以适用于机器人无地图导航。考虑机器人与人类之间的相对速度,设计机器人的危险区域,并由此制定了一个新颖的奖励函数以保障机器人导航的安全性。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]本专利技术的第一个方面提供一种基于深度强化学习的服务机器人无地图导航方法。
[0008]一种基于深度强化学习的服务机器人无地图导航方法,其包括:
[0009]以服务机器人为中心的坐标系,在每个预设时间间隔,获取服务机器人自身状态以及人类的观测状态,进而得到服务机器人导航时的联合状态;
[0010]根据服务机器人导航时的联合状态和最优值函数,确定出最优导航策略来最大化期望奖赏,以确定动作指令来及时调整服务机器人的自身速度;
[0011]其中,利用预设价值网络的输出估计最优值函数;最优导航策略中的奖励函数基
于危险区域和判断准则来确定,危险区域根据服务机器人与人类之间的相对速度以及人类可接受的安全距离来确定。
[0012]本专利技术的第二个方面提供一种基于深度强化学习的服务机器人无地图导航系统。
[0013]一种基于深度强化学习的服务机器人无地图导航系统,其包括:
[0014]联合状态确定模块,其用于以服务机器人为中心的坐标系,在每个预设时间间隔,获取服务机器人自身状态以及人类的观测状态,进而得到服务机器人导航时的联合状态;
[0015]速度调整模块,其用于根据服务机器人导航时的联合状态和最优值函数,确定出最优导航策略来最大化期望奖赏,以确定动作指令来及时调整服务机器人的自身速度;
[0016]其中,利用预设价值网络的输出估计最优值函数;最优导航策略中的奖励函数基于危险区域和判断准则来确定,危险区域根据服务机器人与人类之间的相对速度以及人类可接受的安全距离来确定。
[0017]本专利技术的第三个方面提供一种计算机可读存储介质。
[0018]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于深度强化学习的服务机器人无地图导航方法中的步骤。
[0019]本专利技术的第四个方面提供一种服务机器人。
[0020]一种服务机器人,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于深度强化学习的服务机器人无地图导航方法中的步骤。
[0021]与现有技术相比,本专利技术的有益效果是:
[0022](1)本专利技术利用预设价值网络的输出估计最优值函数,再利用最优值函数及服务机器人的联合状态确定最优导航策略来最大化期望奖赏,以确定动作指令来及时调整服务机器人的自身速度;其中,本专利技术利用预设价值网络对人群和静态障碍信息进行融合分析,显著提升了机器人决策水平,其中时空推理和激光雷达映射被引入来理解周围环境信息,从而使机器人更好地适用于未知的复杂障碍环境。
[0023](2)本专利技术考虑服务机器人与人类之间的相对速度和人类可接受安全距离设计机器人的危险区域,并根据惩罚判断条件制定奖励函数以使机器人主动躲避危险区域,实现了安全可靠的导航。
[0024]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0025]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0026]图1是本专利技术实施例的价值网络结构图;
[0027]图2是本专利技术实施例的空间映射示意图;
[0028]图3是本专利技术实施例的相对速度方向上危险区域初始几何示意图;
[0029]图4是本专利技术实施例的危险区域最终几何示意图;
[0030]图5是本专利技术实施例的判断机器人是否位于危险区域示意图。
具体实施方式
[0031]下面结合附图与实施例对本专利技术作进一步说明。
[0032]应该指出,以下详细说明都是例示性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0033]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0034]实施例一
[0035]本实施例提供了一种基于深度强化学习的服务机器人无地图导航方法,其具体包括如下步骤:
[0036]步骤1:以服务机器人为中心的坐标系,在每个预设时间间隔,获取服务机器人自身状态以及其他智能体的观测状态,进而得到服务机器人导航时的联合状态。
[0037]步骤2:根据服务机器人导航时的联合状态和最优值函数,确定出最优导航策略来最大化期望奖赏,以确定动作指令来及时调整服务本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的服务机器人无地图导航方法,其特征在于,包括:以服务机器人为中心的坐标系,在每个预设时间间隔,获取服务机器人自身状态以及人类的观测状态,进而得到服务机器人导航时的联合状态;根据服务机器人导航时的联合状态和最优值函数,确定出最优导航策略来最大化期望奖赏,以确定动作指令来及时调整服务机器人的自身速度;其中,利用预设价值网络的输出估计最优值函数;最优导航策略中的奖励函数基于危险区域和判断准则来确定,危险区域根据服务机器人与人类之间的相对速度以及人类可接受的安全距离来确定。2.如权利要求1所述的基于深度强化学习的服务机器人无地图导航方法,其特征在于,所述价值网络用于:从人类的观测状态中提取人群最终表示,从激光雷达数据中提取嵌入特征,再结合机器人状态以及网络权重,估计出最优值函数。3.如权利要求1所述的基于深度强化学习的服务机器人无地图导航方法,其特征在于,所述奖励函数为分段函数,分段函数的条件分别为服务机器人与目标之间的距离、发生碰撞、服务机器人位于危险区域、服务机器人位于预先规划的不适区域以及其他情况。4.如权利要求1所述的基于深度强化学习的服务机器人无地图导航方法,其特征在于,根据距离条件和角度条件来确定机器人是否位于危险区域。5.如权利要求4所述的基于深度强化学习的服务机器人无地图导航方法,其特征在于,危险区域的半径和角度θ为:和角度θ为:其中,w
v
为速度权重,为当v
hr
=0时的扇形半径,r
h
为人类半径,为人类可接受的最小舒适距离;v
hr
表示相对速度。6.如权利要求1所述的基于深度强化学习的服务机器人无地图导航方法,其特征在于,所述最优导航策略...
【专利技术属性】
技术研发人员:周风余,薛秉鑫,王兆辉,尹磊,孙正辉,高鹤,王哲,
申请(专利权)人:山东芯辰人工智能科技有限公司山东正晨科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。