当前位置: 首页 > 专利查询>中山大学专利>正文

一种连通性保持的多机导航方法、系统及介质技术方案

技术编号:34033746 阅读:29 留言:0更新日期:2022-07-06 11:46
本发明专利技术公开了一种连通性保持的多机导航方法、系统及介质,方法包括:根据强化学习框架确定导航策略元素;导航策略元素包括观测数据、共享策略数据、速度控制信号、奖励信号和全局连通性信号;根据导航策略元素,构建导航策略学习模型;获取专家策略数据,结合模仿学习对导航策略学习模型进行策略去最小化处理;根据策略去最小化处理的结果,完成策略优化。本发明专利技术针对未知复杂的导航环境,提出以原始距离测量的环境感知数据作为输入的多机导航策略。通过强化学习方法,机器人在训练过程中自主学习导航多机的策略,并在连通性约束下避免个体机器人脱离队伍,可广泛应用于移动机器人技术领域。领域。领域。

A connectivity preserving multi computer navigation method, system and medium

【技术实现步骤摘要】
一种连通性保持的多机导航方法、系统及介质


[0001]本专利技术涉及移动机器人
,尤其是一种连通性保持的多机导航方法、系统及介质。

技术介绍

[0002]针对多智能体的全局连通性保持问题,现有的方法主要基于几类方法实现:基于人工势场的方法,基于梯度的方法以及基于强化学习的方法。基于人工势场的方法在障碍物的区域设计虚拟的斥力,在目标点处设计虚拟的引力来实现避障的效果。对于连通性约束,这类方法假设智能体之间关于距离的势能函数,根据势能函数的梯度方向来引导智能体维持全局连通性。基于梯度的方法也同样采用能量函数的概念,利用能量函数的梯度来指导智能体保持连通性的对应行为。不同于人工势场的是,这类方法应用于通用的任务,假设存在已有的控制器满足相应的任务(如避障)。基于强化学习的方法近年来有受到少量的研究关注,例如Lin,Juntong,et al."Connectivity guaranteed multi

robot navigation via deep reinforcement learning."Conference on Robot Learning.PMLR,2020这个工作就考虑了在强化学习的框架下利用约束优化的方法来实现机器人之间的距离约束,但其考虑的是局部连通性不变,在面对复杂的障碍物场景时灵活性不足。
[0003]现有的多机连通性保持技术通常考虑完美感知的假设,即环境感知数据和队伍中机器人的位置以及速度测量是精确不存在误差的;环境中的障碍物也通常作先验假设,圆形或者简单的凸多边形有利于对算法的分析。这些假设一定程度上阻碍了技术去解决未知多变的复杂环境,例如基于势场法的技术在障碍物分布密集且形状不规则的情形表现较差,容易受困。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种连通性保持的多机导航方法、系统及介质,能够有效应对各种不同的实际环境,同时实现导航过程中维护编队的连通性。
[0005]第一方面,本专利技术实施例提供了一种连通性保持的多机导航方法,包括:
[0006]根据强化学习框架确定导航策略元素;所述导航策略元素包括观测数据、共享策略数据、速度控制信号、奖励信号和全局连通性信号;
[0007]根据所述导航策略元素,构建导航策略学习模型;
[0008]获取专家策略数据,结合模仿学习对所述导航策略学习模型进行策略去最小化处理;
[0009]根据所述策略去最小化处理的结果,完成策略优化。
[0010]可选地,所述方法还包括:
[0011]根据卷积层和全连接层,结合激活函数构造策略神经网络;
[0012]根据所述策略神经网络,进行策略的参数化处理。
[0013]可选地,所述根据所述导航策略元素,构建导航策略学习模型,包括:
[0014]根据所述观测数据、所述共享策略数据和所述速度控制信号,构建传输架构;
[0015]根据所述奖励信号,确定第一目标函数;
[0016]根据所述全局连通性信号,对所述第一目标函数进行约束处理;
[0017]根据所述传输架构、所述约束处理后的第一目标函数,构建导航策略学习模型。
[0018]可选地,所述根据所述观测数据、所述共享策略数据和所述速度控制信号,构建传输架构,包括:
[0019]获取所述观测数据作为模型输入;
[0020]根据所述模型输入,结合所述共享策略数据确定所述速度控制信号;
[0021]根据所述速度控制信号作为模型输出,完成所述传输架构的构建;
[0022]所述传输架构的表达式为:
[0023]a
i,t
=π
θ
(o
i,t
)
[0024]其中,i表示第i个机器人;t表示第t个时刻;o
i,t
表示观测数据,为策略输入;π
θ
表示共享策略数据,θ表示策略参数;a
i,t
表示速度控制信号,为策略输出。
[0025]可选地,所述根据所述奖励信号,确定第一目标函数,包括:
[0026]根据所述奖励信号,预设奖励函数,所述奖励函数的表达式为:
[0027][0028]其中,r
i,t
表示奖励信号;表示前进目标点或到达目标区域的奖励;表示碰撞的惩罚;
[0029]根据所述奖励函数,结合期望累加和确定第一目标函数,所述第一目标函数的表达式为:
[0030][0031]其中,J(θ)表示第一目标函数;γ∈[0,1]表示第一折扣因子;γ
t
表示γ的次幂;T表示轨迹长度;E表示求期望的算子;θ表示策略参数,为优化变量。
[0032]可选地,所述根据所述全局连通性信号,对所述第一目标函数进行约束处理,包括:
[0033]根据所述全局连通性信号,结合示性函数确定连通性损失函数,所述连通性损失函数的表达式为:
[0034]c
t
=I(λ2(G)<0)
[0035]其中,c
t
表示全局连通性信号;I(
·
)表示示性函数;G表示集群机器人的位置构图;λ2(G)表示G对应的拉普拉斯矩阵的第二小特征值;
[0036]根据所述连通性损失函数,对所述第一目标函数进行约束处理,所述约束处理后的第一目标函数的表达式为:
[0037][0038]其中,J
c
(θ)表示约束后的第一目标函数;表示第二折扣因子;x
t
表示全局连通性
信号。
[0039]可选地,所述获取专家策略数据,结合模仿学习对所述导航策略学习模型进行策略去最小化处理,包括:
[0040]根据所述专家策略,结合模仿学习确定最小化损失项;
[0041]根据所述最小化损失项,确定第二目标函数。
[0042]第二方面,本专利技术实施例提供了一种连通性保持的多机导航系统,包括:
[0043]第一模块,用于根据强化学习框架确定导航策略元素;所述导航策略元素包括观测数据、共享策略数据、速度控制信号、奖励信号和全局连通性信号;
[0044]第二模块,用于根据所述导航策略元素,构建导航策略学习模型;
[0045]第三模块,用于获取专家策略数据,结合模仿学习对所述导航策略学习模型进行策略去最小化处理;
[0046]第四模块,用于根据所述策略去最小化处理的结果,完成策略优化。
[0047]第三方面,本专利技术实施例的提供了一种电子设备,包括处理器以及存储器;
[0048]所述存储器用于存储程序;
[0049]所述处理器执行所述程序实现如前面所述的方法。
[0050]第四方面,本专利技术实施例的提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
[0051]本专利技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种连通性保持的多机导航方法,其特征在于,包括:根据强化学习框架确定导航策略元素;所述导航策略元素包括观测数据、共享策略数据、速度控制信号、奖励信号和全局连通性信号;根据所述导航策略元素,构建导航策略学习模型;获取专家策略数据,结合模仿学习对所述导航策略学习模型进行策略去最小化处理;根据所述策略去最小化处理的结果,完成策略优化。2.根据权利要求1所述的一种连通性保持的多机导航方法,其特征在于,还包括:根据卷积层和全连接层,结合激活函数构造策略神经网络;根据所述策略神经网络,进行策略的参数化处理。3.根据权利要求1所述的一种连通性保持的多机导航方法,其特征在于,所述根据所述导航策略元素,构建导航策略学习模型,包括:根据所述观测数据、所述共享策略数据和所述速度控制信号,构建传输架构;根据所述奖励信号,确定第一目标函数;根据所述全局连通性信号,对所述第一目标函数进行约束处理;根据所述传输架构、所述约束处理后的第一目标函数,构建导航策略学习模型。4.根据权利要求3所述的一种连通性保持的多机导航方法,其特征在于,所述根据所述观测数据、所述共享策略数据和所述速度控制信号,构建传输架构,包括:获取所述观测数据作为模型输入;根据所述模型输入,结合所述共享策略数据确定所述速度控制信号;根据所述速度控制信号作为模型输出,完成所述传输架构的构建;所述传输架构的表达式为:a
i,t
=π
θ
(o
i,t
)其中,i表示第i个机器人;t表示第t个时刻;o
i,t
表示观测数据,为策略输入;π
θ
表示共享策略数据,θ表示策略参数;a
i,t
表示速度控制信号,为策略输出。5.根据权利要求3所述的一种连通性保持的多机导航方法,其特征在于,所述根据所述奖励信号,确定第一目标函数,包括:根据所述奖励信号,预设奖励函数,所述奖励函数的表达式为:其中,r
i,t
表示奖励信号;表示前进目标点或到达目标区域的奖励;表示碰撞的惩罚;根据所述奖励函数,结合期望累加和确定第一目...

【专利技术属性】
技术研发人员:李铭豪成慧
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1