路径规划方法、装置、终端及可读存储介质制造方法及图纸

技术编号:33699780 阅读:17 留言:0更新日期:2022-06-06 08:06
本发明专利技术公开了一种路径规划方法、装置、终端及可读存储介质,所述方法包括:获取第一环境下的第一专家路径轨迹以及第二环境下的第二专家路径轨迹,对第一专家路径轨迹进行逆强化学习,得到第一权重向量,其中,第一权重向量为第一专家路径轨迹的权重,基于第一权重向量,对第二专家路径轨迹逆强化迁移学习,得到第二权重向量,其中,第二权重向量中的元素为多个路径参数各自影响第二环境下的路径规划结果的权重。与现有技术采用本地有限的专家轨迹进行路径规划策略学习相比,本发明专利技术通过迁移学习和迭代逆强化学习,克服了现有技术的路径规划策略学习效率不高的缺陷,进而提升了路径规划策略学习效率以及路径规划策略的泛化能力。力。力。

【技术实现步骤摘要】
路径规划方法、装置、终端及可读存储介质


[0001]本专利技术涉及金融科技领域,尤其涉及一种路径规划方法、装置、终端及可读存储介质。

技术介绍

[0002]路径规划技术的行业痛点是在复杂环境中技术的鲁棒性,常规的机器人技术并不能很好的解决复杂场景的问题。强化学习技术被引入路径规划中,强化学习是通过自动驾驶车辆在模拟环境中反复试错,进而获得比之前技术更好鲁棒性。然而,强化学习技术十分依赖搭建的模拟环境,也就是说,模拟环境一定程度的改变都会使得路径规划的策略有变化。因此,针对模拟环境的难题,学者们又提出了利用逆强化学习,利用数学上反问题领域的技巧,利用收集到的专家行驶轨迹,得到模拟环境训练出来的路径规划策略,具有有很好的鲁棒性。
[0003]随着隐私保护法例的推广,数据流动性变差,不同公司在进行难以获取足够的专家行驶轨迹来支持其路径规划策略,从而导致路径规划策略学习效率不高,泛化能力差,路径规划不理性。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本专利技术的主要目的在于提供一种路径规划方法、装置、终端及可读存储介质,旨在解决现有路径规划策略学习效率不高,泛化能力差,路径规划不理性的技术问题。
[0006]为实现上述目的,本专利技术提供一种路径规划方法,所述的路径规划方法包括以下步骤:
[0007]获取第一环境下的第一专家路径轨迹以及第二环境下的第二专家路径轨迹;
[0008]对所述第一专家路径轨迹进行逆强化学习,得到第一权重向量,其中,所述第一权重向量中的元素为多个路径参数各自影响第一环境下的路径规划结果为所述第一专家路径轨迹的权重;
[0009]基于所述第一权重向量,对所述第二专家路径轨迹逆强化迁移学习,得到第二权重向量,其中,所述第二权重向量中的元素为所述多个路径参数各自影响所述第二环境下的路径规划结果的权重。
[0010]进一步地,所述基于所述第一权重向量,对所述第二专家路径轨迹逆强化迁移学习,得到第二权重向量的步骤之后,还包括:
[0011]获取路径规划请求,所述路径规划请求携带有环境信息、出发地坐标和目标地坐标;
[0012]根据所述路径规划请求对应的出发地坐标和目标地坐标,确定多个待选路径;
[0013]若所述环境信息对应的环境为所述第二环境,则根据所述第二权重向量和所述多
个待选路径对应的路径参数,确定响应所述路径规划请求的目标路径。
[0014]进一步地,所述基于所述第一权重向量,对所述第二专家路径轨迹逆强化迁移学习,得到第二权重向量的步骤包括:
[0015]基于所述第二专家路径轨迹确定所述各个路径参数各自对应的子势能函数;
[0016]利用所述第一权重向量、所述子势能函数以及所述第二专家路径轨迹进行迁移学习,得到累计势能的均值,并基于所述累计势能的均值优化所述第一权重向量;
[0017]基于优化后的第一权重向量进行迭代逆强化学习,直到检测到迭代停止条件,得到所述第二权重向量。
[0018]进一步地,所述基于所述第二专家路径轨迹确定所述各个路径参数各自对应的子势能函数的步骤包括:
[0019]基于所述第二专家路径轨迹中轨迹点对应的车辆方位参数、车辆运动角度参数计算所述轨迹点与车道边界的最小距离,并确定所述最小距离对应的边界点与所述轨迹点之间的连线相对于所述车辆运动角度参数的夹角;
[0020]利用所述轨迹点对应的车辆方位参数、车辆运动角度参数、所述最小距离以及所述夹角构建所述子势能函数。
[0021]进一步地,所述利用所述第一权重向量、所述子势能函数以及所述第二专家路径轨迹进行迁移学习,得到累计势能的均值,并基于所述累计势能的均值优化所述第一权重向量的步骤包括:
[0022]基于所述第一权重向量,在所述第二专家路径轨迹中确定所述各个子势能函数各自对应的最优轨迹;
[0023]利用所述各个子势能函数各自对应的最优轨迹计算得到所述累计势能的均值,并利用所述第二专家路径轨迹计算得到累计势能的经验值;
[0024]基于所述累计势能的均值与所述累计势能的经验值的比较结果更新所述第一权重向量。
[0025]进一步地,所述利用所述各个子势能函数各自对应的最优轨迹计算得到所述累计势能的均值的步骤包括:
[0026]将所述各个子势能函数各自对应的最优轨迹作为最优轨迹集合,将各个子势能函数分别遍历所述最优轨迹集合得到的多个子势能进行累加,得到所述子势能函数对应的子累计势能;
[0027]将各个子累计势能进行加权求和得到所述累计势能的均值。
[0028]进一步地,所述利用所述第二专家路径计算得到累计势能的经验值的步骤包括:
[0029]将所述各个子势能函数分别遍历所述第二专家路径得到各个子势能函数各自对应的子累计势能的经验值;
[0030]将所述各个子累计势能的经验值进行求平均值,将计算得到的平均值作为所述累计势能的经验值。
[0031]进一步地,所述迭代停止条件为:计算当前优化后的第一权重向量对应的范数,当所述第一权重向量对应的范数小于或等于阈值时,停止迭代逆强化学习。
[0032]进一步地,所述路径规划装置包括:
[0033]获取模块,用于获取第一环境下的第一专家路径轨迹以及第二环境下的第二专家
路径轨迹;
[0034]逆强化学习模块,用于对所述第一专家路径轨迹进行逆强化学习,得到第一权重向量,其中,所述第一权重向量中的元素为多个路径参数各自影响第一环境下的路径规划结果为所述第一专家路径轨迹的权重;
[0035]迁移学习模块,用于基于所述第一权重向量,对所述第二专家路径轨迹逆强化迁移学习,得到第二权重向量,其中,所述第二权重向量中的元素为所述多个路径参数各自影响所述第二环境下的路径规划结果的权重。
[0036]此外,为实现上述目的,本专利技术还提供一种路径规划终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的路径规划程序,所述路径规划程序被所述处理器执行时实现上述任一项所述的路径规划方法的步骤。
[0037]此外,为实现上述目的,本专利技术还提供一种可读存储介质,所述可读存储介质上存储有路径规划程序,所述路径规划程序被处理器执行时实现上述任一项所述的路径规划方法的步骤。
[0038]本专利技术获取第一环境下的第一专家路径轨迹以及第二环境下的第二专家路径轨迹,而后对所述第一专家路径轨迹进行逆强化学习,得到第一权重向量,其中,所述第一权重向量中的元素为多个路径参数各自影响第一环境下的路径规划结果为所述第一专家路径轨迹的权重,接下来,基于所述第一权重向量,对所述第二专家路径轨迹逆强化迁移学习,得到第二权重向量,其中,所述第二权重向量中的元素为所述多个路径参数各自影响所述第二环境下的路径规划结果的权重。与现有技术采用本地有限的专家轨迹进行路径规划策略学习相比,本专利技术通过迁移学习和迭代本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种路径规划方法,其特征在于,所述路径规划方法包括:获取第一环境下的第一专家路径轨迹以及第二环境下的第二专家路径轨迹;对所述第一专家路径轨迹进行逆强化学习,得到第一权重向量,其中,所述第一权重向量中的元素为多个路径参数各自影响第一环境下的路径规划结果为所述第一专家路径轨迹的权重;基于所述第一权重向量,对所述第二专家路径轨迹逆强化迁移学习,得到第二权重向量,其中,所述第二权重向量中的元素为所述多个路径参数各自影响所述第二环境下的路径规划结果的权重。2.如权利要求1所述的路径规划方法,其特征在于,所述基于所述第一权重向量,对所述第二专家路径轨迹逆强化迁移学习,得到第二权重向量的步骤之后,还包括:获取路径规划请求,所述路径规划请求携带有环境信息、出发地坐标和目标地坐标;根据所述路径规划请求对应的出发地坐标和目标地坐标,确定多个待选路径;若所述环境信息对应的环境为所述第二环境,则根据所述第二权重向量和所述多个待选路径对应的路径参数,确定响应所述路径规划请求的目标路径。3.如权利要求1所述的路径规划方法,其特征在于,所述基于所述第一权重向量,对所述第二专家路径轨迹逆强化迁移学习,得到第二权重向量的步骤包括:基于所述第二专家路径轨迹确定所述各个路径参数各自对应的子势能函数;利用所述第一权重向量、所述子势能函数以及所述第二专家路径轨迹进行迁移学习,得到累计势能的均值,并基于所述累计势能的均值优化所述第一权重向量;基于优化后的第一权重向量进行迭代逆强化学习,直到检测到迭代停止条件,得到所述第二权重向量。4.如权利要求3所述的路径规划方法,其特征在于,所述基于所述第二专家路径轨迹确定所述各个路径参数各自对应的子势能函数的步骤包括:基于所述第二专家路径轨迹中轨迹点对应的车辆方位参数、车辆运动角度参数计算所述轨迹点与车道边界的最小距离,并确定所述最小距离对应的边界点与所述轨迹点之间的连线相对于所述车辆运动角度参数的夹角;利用所述轨迹点对应的车辆方位参数、车辆运动角度参数、所述最小距离以及所述夹角构建所述子势能函数。5.如权利要求3所述的路径规划方法,其特征在于,所述利用所述第一权重向量、所述子势能函数以及所述第二专家路径轨迹进行迁移学习,得到累计势能的均值,并基于所述累计势能的均值优化所述第一权重向量的步骤包括:基于所述第一权重向量,在所述第二专家路径轨迹...

【专利技术属性】
技术研发人员:鞠策高大山
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1