【技术实现步骤摘要】
路径规划方法、装置、电子设备及存储介质
[0001]本申请涉及人工智能
,尤其涉及一种路径规划方法、装置、电子设备及存储介质。
技术介绍
[0002]为了更好地服务客户、提高服务效率,许多银行引入了智能服务机器人(后续简称机器人),为避免机器人在移动过程中与障碍物发生碰撞,需要对机器人进行路径规划。
[0003]路径规划就是依据最短路径、最短规划时间等一些设定的评估标准,搜索一条从起始点到终点的最优或较优的无碰撞路径。
[0004]传统的路径规划方法大多使用数学模型或物理模型来构建机器人与障碍物的交互状态,然后结合传统的搜索算法如遗传算法等完成路径规划任务,需要根据不同的场景设置不同参数,路径规划的效率较低。
技术实现思路
[0005]本申请实施例提供一种路径规划方法、装置、电子设备及存储介质,可以提高路径规划的效率。
[0006]第一方面,本申请实施例提供一种路径规划方法,包括:
[0007]接收机器人从目标起点至目标终点的路径规划请求;
[0008]根据所述路径规划请求,模拟所述机器人从所述目标起点移动至所述目标终点的行为,得到N个候选路径,其中,N为正整数,所述N个候选路径为经过N次模拟过程生成的,每个所述候选路径由多个时刻的位置构成;在第M次模拟过程中,根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的最短距离,以及,第M次模拟过程对应的策略神经网络模型,更新所述机器人在t+1时刻的移动位置;所述t大于或等于0,M小于或等于N;
[0 ...
【技术保护点】
【技术特征摘要】
1.一种路径规划方法,其特征在于,包括:接收机器人从目标起点至目标终点的路径规划请求;根据所述路径规划请求,模拟所述机器人从所述目标起点移动至所述目标终点的行为,得到N个候选路径,其中,N为正整数,所述N个候选路径为经过N次模拟过程生成的,每个所述候选路径由多个时刻的位置构成;在第M次模拟过程中,根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的最短距离,以及,第M次模拟过程对应的策略神经网络模型,更新所述机器人在t+1时刻的移动位置;所述t大于或等于0,M小于或等于N;在所述N个候选路径中确定所述机器人从目标起点至目标终点的目标路径。2.根据权利要求1所述的方法,其特征在于,所述根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的最短距离,以及,第M次模拟过程对应的策略神经网络模型,更新所述机器人在t+1时刻的移动位置,包括:将所述机器人在t时刻的状态输入至所述第M次模拟过程对应的策略神经网络模型中,获取多个所述机器人在t+1时刻的候选移动位置,以及,各候选移动位置的概率;所述t时刻的状态用于指示所述机器人在t时刻与目标终点位置之间的距离,以及,与周边障碍物的最短距离;将所述候选移动位置的概率最大的候选移动位置,作为所述机器人在t+1时刻的移动位置。3.根据权利要求2所述的方法,其特征在于,所述更新所述机器人在t+1时刻的移动位置之后,所述方法还包括:模拟所述机器人按照所述t+1时刻的移动位置移动,并获取所述机器人在t+1时刻的状态;根据所述t时刻的状态和所述t+1时刻的状态,获取所述机器人在所述t+1时刻的向目标终点移动行为对应的第一奖励函数值和避障行为对应的第二奖励函数值;根据所述第一奖励函数值和所述第二奖励函数值,获取所述机器人在所述t+1时刻的总奖励函数值;根据所述总奖励函数值,获取所述机器人在所述t+1时刻的累积折扣奖励;根据所述t+1时刻的累积折扣奖励和t+1时刻的移动位置对应的概率,更新所述M次模拟过程对应的策略神经网络模型,得到第M+1次模拟过程对应的策略神经网络模型。4.根据权利要求3所述的方法,其特征在于,所述获取所述机器人在所述t+1时刻的向目标终点移动行为对应的第一奖励函数值和避障行为对应的第二奖励函数值,包括:获取所述机器人在t时刻受到所述目标终点位置的引力U1,以及,所述机器人在t+1时刻受到所述目标终点位置的引力U2;根据所述机器人在t+1时刻与所述目标终点位置之间的距离、所述U1以及所述U2,获取所述第一奖励函数值;根据所述机器人在t时刻和t+1时刻与障碍物之间的最短距离,以及,预设安全距离,获取所述第二奖励函数值。5.根据权利要求4所述的方法,其特征在于,所述获取所述机器人在t时刻受到所述目标终点位置的引力U1,包括:根据所述t时刻与所述目标终点位置之间的距离和引力增益系数,获取所述U1。
6.根据权利要求5所述的方法,其特征在于,所述根据所述机器人在t+1时刻与所述目标终点位置之间的距离、所述U1以及...
【专利技术属性】
技术研发人员:张国林,陆颖骅,吴腾阳,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。