路径规划方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38128277 阅读:9 留言:0更新日期:2023-07-08 09:34
本申请实施例提供一种路径规划方法、装置、电子设备及存储介质,涉及人工智能技术领域,方法包括:接收机器人从目标起点至目标终点的路径规划请求,根据路径规划请求,模拟机器人从目标起点移动至目标终点的行为,得到N个候选路径,在第M次模拟过程中,根据机器人在t时刻与目标终点的距离和周边障碍物的最短距离,以及,第M次模拟过程对应的策略神经网络模型,更新机器人在t+1时刻的移动位置;在N个候选路径中确定机器人从目标起点至目标终点的目标路径。通过基于策略梯度算法的神经网络模型对机器人进行路径规划,并将机器人的移动行为进行分解,针对分解后的移动行为设计对应的奖励函数,有效提高了路径规划效率和准确性。有效提高了路径规划效率和准确性。有效提高了路径规划效率和准确性。

【技术实现步骤摘要】
路径规划方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种路径规划方法、装置、电子设备及存储介质。

技术介绍

[0002]为了更好地服务客户、提高服务效率,许多银行引入了智能服务机器人(后续简称机器人),为避免机器人在移动过程中与障碍物发生碰撞,需要对机器人进行路径规划。
[0003]路径规划就是依据最短路径、最短规划时间等一些设定的评估标准,搜索一条从起始点到终点的最优或较优的无碰撞路径。
[0004]传统的路径规划方法大多使用数学模型或物理模型来构建机器人与障碍物的交互状态,然后结合传统的搜索算法如遗传算法等完成路径规划任务,需要根据不同的场景设置不同参数,路径规划的效率较低。

技术实现思路

[0005]本申请实施例提供一种路径规划方法、装置、电子设备及存储介质,可以提高路径规划的效率。
[0006]第一方面,本申请实施例提供一种路径规划方法,包括:
[0007]接收机器人从目标起点至目标终点的路径规划请求;
[0008]根据所述路径规划请求,模拟所述机器人从所述目标起点移动至所述目标终点的行为,得到N个候选路径,其中,N为正整数,所述N个候选路径为经过N次模拟过程生成的,每个所述候选路径由多个时刻的位置构成;在第M次模拟过程中,根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的最短距离,以及,第M次模拟过程对应的策略神经网络模型,更新所述机器人在t+1时刻的移动位置;所述t大于或等于0,M小于或等于N;
[0009]在所述N个候选路径中确定所述机器人从目标起点至目标终点的目标路径。
[0010]可选的,所述根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的最短距离,以及,第M次模拟过程对应的策略神经网络模型,更新所述机器人在t+1时刻的移动位置,包括:
[0011]将所述机器人在t时刻的状态输入至所述第M次模拟过程对应的策略神经网络模型中,获取多个所述机器人在t+1时刻的候选移动位置,以及,各候选移动位置的概率;所述t时刻的状态用于指示所述机器人在t时刻与目标终点位置之间的距离,以及,与周边障碍物的最短距离;
[0012]将所述候选移动位置的概率最大的候选移动位置,作为所述机器人在t+1时刻的移动位置。
[0013]可选的,所述更新所述机器人在t+1时刻的移动位置之后,所述方法还包括:
[0014]模拟所述机器人按照所述t+1时刻的移动位置移动,并获取所述机器人在t+1时刻的状态;
[0015]根据所述t时刻的状态和所述t+1时刻的状态,获取所述机器人在所述t+1时刻的向目标终点移动行为对应的第一奖励函数值和避障行为对应的第二奖励函数值;
[0016]根据所述第一奖励函数值和所述第二奖励函数值,获取所述机器人在所述t+1时刻的总奖励函数值;
[0017]根据所述总奖励函数值,获取所述机器人在所述t+1时刻的累积折扣奖励;
[0018]根据所述t+1时刻的累积折扣奖励和t+1时刻的移动位置对应的概率,更新所述M次模拟过程对应的策略神经网络模型,得到第M+1次模拟过程对应的策略神经网络模型。
[0019]可选的,所述获取所述机器人在所述t+1时刻的向目标终点移动行为对应的第一奖励函数值和避障行为对应的第二奖励函数值,包括:
[0020]获取所述机器人在t时刻受到所述目标终点位置的引力U1,以及,所述机器人在t+1时刻受到所述目标终点位置的引力U2;
[0021]根据所述机器人在t+1时刻与所述目标终点位置之间的距离、所述U1以及所述U2,获取所述第一奖励函数值;
[0022]根据所述机器人在t时刻和t+1时刻与障碍物之间的最短距离,以及,预设安全距离,获取所述第二奖励函数值。
[0023]可选的,所述获取所述机器人在t时刻受到所述目标终点位置的引力U1,包括:
[0024]根据所述t时刻与所述目标终点位置之间的距离和引力增益系数,获取所述U1。
[0025]可选的,所述根据所述机器人在t+1时刻与所述目标终点位置之间的距离、所述U1以及所述U2,获取所述第一奖励函数值,包括:
[0026]若所述机器人在t+1时刻与所述目标终点位置之间的距离未位于预设距离区间内,则根据所述U1和所述U2的差值,以及,奖励值调节系数获取所述第一奖励函数值;
[0027]若所述机器人在t+1时刻与所述目标终点位置之间的距离位于所述预设距离区间内,则将所述第一奖励函数值置为第一预设值。
[0028]可选的,所述预设安全距离包括最大安全距离和最小安全距离;
[0029]所述根据所述机器人在t时刻和t+1时刻与障碍物之间的最短距离,以及,预设安全距离,获取所述第二奖励函数值,包括:
[0030]若所述机器人在t+1时刻与所述障碍物之间的最短距离大于或等于所述最大安全距离,则所述第二奖励函数值置为第二预设值;
[0031]若所述机器人在t+1时刻与障碍物之间的最短距离大于所述最小安全距离小于所述最大安全距离,且所述机器人在t+1时刻与障碍物之间的最短距离和在t时刻与障碍物之间的最短距离的差值大于或等于默认值,则所述第二奖励函数值置为第三预设值;
[0032]若所述机器人在t+1时刻与障碍物之间的最短距离大于所述最小安全距离小于所述最大安全距离,且所述机器人在t+1时刻与障碍物之间的最短距离和在t时刻与障碍物之间的最短距离的差值小于默认值,则所述第二奖励函数值置为第四预设值;
[0033]若所述机器人在t+1时刻与障碍物之间的最短距离小于或等于所述最小安全距离,则所述第二奖励函数值置为第五预设值;其中,所述第二预设值、所述第三预设值、所述第四预设值以及所述第五预设值依次减小。
[0034]可选的,所述根据所述第一奖励函数值和所述第二奖励函数值,获取所述t+1时刻的总奖励函数值,包括:
[0035]获取所述第二奖励函数值的权重;其中,所述权重取值与所述机器人与所述障碍物的最短距离负相关;
[0036]根据所述第二奖励函数的权重、所述第二奖励函数值和所述第一奖励函数值,得到所述总奖励函数值。
[0037]第二方面,本申请实施例提供一种路径规划装置,包括:
[0038]接收模块,用于接收机器人从目标起点至目标终点的路径规划请求;
[0039]规划模块,用于根据所述路径规划请求,模拟所述机器人从所述目标起点移动至所述目标终点的行为,得到N个候选路径,其中,N为正整数,所述N个候选路径为经过N次模拟过程生成的,每个所述候选路径由多个时刻的位置构成;在第M次模拟过程中,根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的最短距离,以及,第M次模拟过程对应的策略神经网络模型,更新所述机器人在t+1时刻的移动位置;所述t大于或等于0,M小于或等于N;
[0040]确定模块,用于在所述N个候选路径中确定所述机器人从目标起点至目标终点的目标路本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种路径规划方法,其特征在于,包括:接收机器人从目标起点至目标终点的路径规划请求;根据所述路径规划请求,模拟所述机器人从所述目标起点移动至所述目标终点的行为,得到N个候选路径,其中,N为正整数,所述N个候选路径为经过N次模拟过程生成的,每个所述候选路径由多个时刻的位置构成;在第M次模拟过程中,根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的最短距离,以及,第M次模拟过程对应的策略神经网络模型,更新所述机器人在t+1时刻的移动位置;所述t大于或等于0,M小于或等于N;在所述N个候选路径中确定所述机器人从目标起点至目标终点的目标路径。2.根据权利要求1所述的方法,其特征在于,所述根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的最短距离,以及,第M次模拟过程对应的策略神经网络模型,更新所述机器人在t+1时刻的移动位置,包括:将所述机器人在t时刻的状态输入至所述第M次模拟过程对应的策略神经网络模型中,获取多个所述机器人在t+1时刻的候选移动位置,以及,各候选移动位置的概率;所述t时刻的状态用于指示所述机器人在t时刻与目标终点位置之间的距离,以及,与周边障碍物的最短距离;将所述候选移动位置的概率最大的候选移动位置,作为所述机器人在t+1时刻的移动位置。3.根据权利要求2所述的方法,其特征在于,所述更新所述机器人在t+1时刻的移动位置之后,所述方法还包括:模拟所述机器人按照所述t+1时刻的移动位置移动,并获取所述机器人在t+1时刻的状态;根据所述t时刻的状态和所述t+1时刻的状态,获取所述机器人在所述t+1时刻的向目标终点移动行为对应的第一奖励函数值和避障行为对应的第二奖励函数值;根据所述第一奖励函数值和所述第二奖励函数值,获取所述机器人在所述t+1时刻的总奖励函数值;根据所述总奖励函数值,获取所述机器人在所述t+1时刻的累积折扣奖励;根据所述t+1时刻的累积折扣奖励和t+1时刻的移动位置对应的概率,更新所述M次模拟过程对应的策略神经网络模型,得到第M+1次模拟过程对应的策略神经网络模型。4.根据权利要求3所述的方法,其特征在于,所述获取所述机器人在所述t+1时刻的向目标终点移动行为对应的第一奖励函数值和避障行为对应的第二奖励函数值,包括:获取所述机器人在t时刻受到所述目标终点位置的引力U1,以及,所述机器人在t+1时刻受到所述目标终点位置的引力U2;根据所述机器人在t+1时刻与所述目标终点位置之间的距离、所述U1以及所述U2,获取所述第一奖励函数值;根据所述机器人在t时刻和t+1时刻与障碍物之间的最短距离,以及,预设安全距离,获取所述第二奖励函数值。5.根据权利要求4所述的方法,其特征在于,所述获取所述机器人在t时刻受到所述目标终点位置的引力U1,包括:根据所述t时刻与所述目标终点位置之间的距离和引力增益系数,获取所述U1。
6.根据权利要求5所述的方法,其特征在于,所述根据所述机器人在t+1时刻与所述目标终点位置之间的距离、所述U1以及...

【专利技术属性】
技术研发人员:张国林陆颖骅吴腾阳
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1