【技术实现步骤摘要】
基于强化学习的行人路径规划方法、装置及介质
[0001]本专利技术涉及人工智能
,具体地,涉及一种基于强化学习的行人路径规划方法
、
装置及介质
。
技术介绍
[0002]人群路径规划在建筑
、
城市规划以及安全管理等各个领域具有重要意义
。
目前,人群路径规划仍在真实性
、
运动规划以及互动性方面面临挑战,其中,在真实性方面难以模拟人类的动作
、
姿势变化;在运动规划方面,难以捕捉步行者在环境中的意图,并对其运动作出决定;在互动性方面,难以模拟行人
、
环境和其他人之间的互相
。
[0003]从目标受众的角度看,现有的人群模拟模型包括基于规则的方法和基于智能体的方法,基于规则的方法通过预定义的规则确定整体运动趋势模拟行人运动,基于智能体的方法通过模拟人群中每一个体的行为决策,并通过个体之间的互动对整个人群的行为进行建模处理
。
但是,基于规则的方法缺乏真实性,其规则和约束采用硬编码,难以进行优化,导致模拟效率低,无法处理大规模场景;基于智能体的方法计算复杂度高
、
对初始条件敏感,并且,智能体的模拟关注单个智能体的行为,并非整个群体的行为,则无法准确模拟复杂场景的社会互动,也无法捕捉群体的全球行为
。
[0004]在人员密集场景中,即便采用基于规则的方法和基于智能体的方法相结合模拟人群行为,仍面临计算复杂度较高以及模型验证困难的挑战
。
【技术保护点】
【技术特征摘要】
1.
一种基于强化学习的行人路径规划方法,其特征在于,包括:获取行人路径数据集和待测人群中行人的当前时刻对应的位置坐标
、
平移速度和角速度,所述行人路径数据集包括行人在每一时刻对应的位置坐标
、
平移速度以及角速度;根据所述行人路径数据集对流体动力学模型进行模型训练,确定基于流体动力学的人群模拟模型;将所述待测人群中行人的当前时刻对应的位置坐标
、
平移速度和角速度输入所述基于流体动力学的人群模拟模型中,预测所述待测行人下一时刻的运动速度;根据动态损失函数和预设的奖励函数将预测的所述待测行人下一时刻的运动速度反馈至仿真环境,模拟待测人群中行人运动
。2.
根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述基于流体动力学的人群模拟模型预测的所述待测行人下一时刻的运动速度
、
下一时刻的实际运动速度以及预设的损失函数项,确定所述动态损失函数
。3.
根据权利要求2所述的方法,其特征在于,所述根据所述基于流体动力学的人群模拟模型预测的行人在下一时刻的运动速度
、
在下一时刻的实际运动速度以及预设的损失函数项,确定所述动态损失函数,包括:
DL
=
MSE(v,p)
其中,
DL
表示预设的损失函数项,即动态损失,
v
表示在下一时刻的实际运动速度,
p
表示基于流体动力学的人群模拟模型预测的行人在下一时刻的运动速度,
Loss
表示所述动态损失函数,
PL
表示策略梯度损失,
n
表示待测行人在预设半径区域内的行人数量,
EL
表示熵损失,
α
表示待测行人在正前方预设角度区域内的行人连接的矢量与所述待测行人之间的旋转角度,
VL
表示价值损失
。4.
根据权利要求1所述的方法,其特征在于,所述预设的奖励函数包括:
R
=
a
×
DR
‑
b
×
CR+FR
‑
SR
‑
c(c>0)c(c>0)
其中,
FR
表示跟随奖励,表示待测行人的运动方向,表示另一行人的运动方向,
d
表示所述待测行人与所述另一行人之间的距离,
γ
表示跟随奖励值的权重的系数,
a
表示所述待测行人抵达目的地的权重,
b
表示所述待测行人与所述另一行人之间进行碰撞的权重,
DR
表示所述待测行人抵达目的地的标志,
CR
表示所述待测行人与所述另一行人发生碰撞的标志,
SR
表示所述待测行人的实际运动速度和预设运动速度差值的平方,
c
表示所述待测行人在每一时间步长的超速惩罚
。
5.
根据权利要求1所述的方法,其特征在于,所述根据所述行人路径数据集对流体动力学模型进行模型训练,确定基于流体动力学的人群模拟模型,包括:根据所述行人路径数据集中的所述行人在每一时刻对应的位置坐标
、
平移速度以及角速度,确定所述行人的变形率张量;将所述变形率张量
、
所述行人路径数据集中的所述行人在每一时刻对应的位置坐标
、
平移速度以及角速度输入所述流体动力学模型进行模型训练,确定基于流体动力学的人群模拟模型
。6.
根据权利要求5所述的方法,其特征在于,所述根据所述行人路径数据集对流体动力学模型进行模型训练,确定基于流体动力学的人群模拟模型,还包括:所述流体动力学模型包括:
V
=
V0+E
·
δ
r+
ω
×
δ
r
其中,
V
表示行人的运动速度,
V0表示所述行人的平移速度,
E
表示所述变形率张量,
δ
r
表示长度微元向量,
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。