当前位置: 首页 > 专利查询>福州大学专利>正文

基于动态窗口法与近端策略的无人车自适应路径规划方法技术

技术编号:38718577 阅读:15 留言:0更新日期:2023-09-08 15:01
本发明专利技术涉及一种基于动态窗口法与近端策略的无人车自适应路径规划方法。首先构建面向无人车的智能体

【技术实现步骤摘要】
基于动态窗口法与近端策略的无人车自适应路径规划方法


[0001]本专利技术涉及无人驾驶路径规划和自主导航
,具体涉及一种基于动态窗口法与近端策略的无人车自适应路径规划方法。

技术介绍

[0002]近年来,伴随着科学技术的飞速发展,以互联网、人工智能、大数据等为代表的新一轮的科技产业革命正在重新定义社会的各行各业,传统汽车产业正在面临着深刻的产业变革。传统汽车正在向着智能化、无人化发展,智能网联汽车、自动驾驶汽车已成为全球汽车产业发展的战略方向。智能驾驶技术主要包括环境感知、导航定位、路径规划与控制决策等。路径规划是智能驾驶中重要的一环其对智能驾驶技术的发展具有重大意义。
[0003]路径规划是自动驾驶智能车的重要组成部分,路径规划技术可归结为路径规划指在已知环境下通过算法规划出一条安全、可行的无碰撞路径,选择出从起点连接至终点的最优避障路径,本质为几个约束条件下的最优解,路径规划是智能车无人导航技术的关键部分。路径规划算法又可分为基于完整区域信息理解的全局规划与基于局部区域信息理解的局部规划。动态窗口法(Dynamic Window Approach,DWA)作为考虑智能车运动性能的局部路径规划方法,广泛应用于智能车路径导航。DWA算法中起决策作用的为其评价函数,包括朝向角函数、障碍物函数、速度函数等三部分,评价函数为这三个子函数的加权求和,经典DWA算法中该三个函数所对应的权重为固定值,然而智能车在探索终点过程,其周围的障碍物环境是复杂多变的,不同障碍物分布需要不同的权重,经典DWA算法固定权重值方法容易使智能车陷入局部最优或目标不可达。因此借助深度强化学习中的近端策略优化算法,对经典DWA算法进行改进。

技术实现思路

[0004]本专利技术的目的在于解决智能体在面对不同障碍物环境是因评价函数中的权重系数不可动态调节,往往不能够寻至终点或者算出最优路径的问题,提供一种基于动态窗口法与近端策略的无人车自适应路径规划方法,在经典DWA算法的基础上提出改进,改进经典DWA算法中的权重参数与深度强化学习中近端策略优化进行结合通过学习训练,得到适用不同静态障碍物的模型参数,完成自适应PPO

ADWA算法的构建。
[0005]为实现上述目的,本专利技术的技术方案是:一种基于动态窗口法与近端策略的无人车自适应路径规划方法,包括如下步骤:
[0006]步骤一、构建智能体

环境交互模型,无人车作为深度强化学习中的智能体,障碍物地图作为环境;
[0007]步骤二、建立DWA算法模型,根据阿克曼智能车确定包括:速度范围、角速度范围、加速度范围、角加速度范围参数以及DWA算法的主要要素以及评价函数;
[0008]步骤三、建立基于演员

评论家框架的近端策略优化学习PPO模型,模拟建立无人车实际应用场景作为模型的学习环境,根据应用场景确定模型中的状态与动作;
[0009]步骤四、构建DWA

PPO深度强化学习模型,定义包括主线奖励与子目标奖励的奖励函数;并确定包括输入层、输出层大小以及隐藏层层数与神经元个数参数在内的DWA

PPO深度强化学习模型参数,完成DWA

PPO深度强化学习模型的实例化;
[0010]步骤五、构建自适应PPO

ADWA算法,使用建立好的DWA

PPO深度强化学习模型,在随机生成的复杂静态障碍物环境下,模拟无人车的导航规划,以收集用于训练DWA

PPO深度强化学习模型的训练集,通过反复迭代收敛出能够根据周围障碍物分布的变化,输出相应权重参数的模型,完成自适应PPO

ADWA算法的构建;
[0011]步骤六、通过仿真对比实验论证基于自适应PPO

ADWA算法的无人车路径规划自适应调节能力。
[0012]相较于现有技术,本专利技术具有以下有益效果:本专利技术方法针对传统DWA算法的评价函数中权重系数,其取值并不会随着智能车所处的环境及其自身的运动状态做出动态调整的问题,使用深度强化学习中的近端策略优化算法,构建DWA

PPO深度强化学习模型,通过不断迭代训练得到网络模型,从而输出相应的权重参数的模型参数,完成自适应PPO

ADWA算法的构建;本专利技术方法解决了智能体在面对不同障碍物环境是因评价函数中的权重系数不可动态调节,往往不能够寻至终点或者算出最优路径的问题。
附图说明
[0013]图1为智能体

环境交互模型示意图。
[0014]图2为DWA算法原理示意图。
[0015]图3为速度角速度窗口。
[0016]图4为与δ示意图。
[0017]图5为演员评论家框架示意图。
[0018]图6为状态s。
[0019]图7为策略网络结构。
[0020]图8为价值网络结构。
[0021]图9为DWA

PPO模型。
[0022]图10为分数与到达率变化曲线。
[0023]图11为仿真环境。
[0024]图12为经典DWA。
[0025]图13为PPO

ADWA。
[0026]图14为权重参数变化曲线。
[0027]图15为本专利技术方法流程图。
具体实施方式
[0028]下面结合附图1

15,对本专利技术的技术方案进行具体说明。
[0029]如图15所示,本专利技术提供了一种基于动态窗口法与近端策略的无人车自适应路径规划方法,包括如下步骤:
[0030]步骤一、构建智能体

环境交互模型,无人车作为深度强化学习中的智能体,障碍物地图作为环境;
[0031]步骤二、建立DWA算法模型,根据阿克曼智能车确定包括:速度范围、角速度范围、加速度范围、角加速度范围参数以及DWA算法的主要要素以及评价函数;
[0032]步骤三、建立基于演员

评论家框架的近端策略优化学习PPO模型,模拟建立无人车实际应用场景作为模型的学习环境,根据应用场景确定模型中的状态与动作;
[0033]步骤四、构建DWA

PPO深度强化学习模型,定义包括主线奖励与子目标奖励的奖励函数;并确定包括输入层、输出层大小以及隐藏层层数与神经元个数参数在内的DWA

PPO深度强化学习模型参数,完成DWA

PPO深度强化学习模型的实例化;
[0034]步骤五、构建自适应PPO

ADWA算法,使用建立好的DWA

PPO深度强化学习模型,在随机生成的复杂静态障碍物环境下,模拟无人车的导航规划,以收集用于训练DWA

PPO深度强化学习模型的训练集,通过反复迭代收敛出能够根据周围障碍物分布的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态窗口法与近端策略的无人车自适应路径规划方法,其特征在于,包括如下步骤:步骤一、构建智能体

环境交互模型,无人车作为深度强化学习中的智能体,障碍物地图作为环境;步骤二、建立DWA算法模型,根据阿克曼智能车确定包括:速度范围、角速度范围、加速度范围、角加速度范围参数以及DWA算法的主要要素以及评价函数;步骤三、建立基于演员

评论家框架的近端策略优化学习PPO模型,模拟建立无人车实际应用场景作为模型的学习环境,根据应用场景确定模型中的状态与动作;步骤四、构建DWA

PPO深度强化学习模型,定义包括主线奖励与子目标奖励的奖励函数;并确定包括输入层、输出层大小以及隐藏层层数与神经元个数参数在内的DWA

PPO深度强化学习模型参数,完成DWA

PPO深度强化学习模型的实例化;步骤五、构建自适应PPO

ADWA算法,使用建立好的DWA

PPO深度强化学习模型,在随机生成的复杂静态障碍物环境下,模拟无人车的导航规划,以收集用于训练DWA

PPO深度强化学习模型的训练集,通过反复迭代收敛出能够根据周围障碍物分布的变化,输出相应权重参数的模型,完成自适应PPO

ADWA算法的构建;步骤六、通过仿真对比实验论证基于自适应PPO

ADWA算法的无人车路径规划自适应调节能力。2.根据权利要求1所述的基于动态窗口法与近端策略的无人车自适应路径规划方法,其特征在于,步骤一具体实现如下:智能体负责动作信息的输出及接收奖励、状态,环境是智能体的交互对象,其交互过程包括如下三个步骤:(1)智能体由环境状态观测到信息观测到信息为状态空间,是环境状态的取值集合;为观测空间,为智能体观测量的取值集合;(2)智能体由已知的O
t
做出相应的决策,决定要对环境施加的动作做出相应的决策,决定要对环境施加的动作是动作取值集合;(3)环境受A
t
影响,自身状态S
t
转移至S
t+1
,并给予智能体奖励,并给予智能体奖励是奖励的取值集合;因此离散化的智能体

环境交互模型用如下序列表示:S0,O0,A0,R0,S1,O1,A1,R1,S2,O2,A2,R2,

,S
T
=S
终止
当环境的状态能够被智能体完全观测时,则有S
t
=O
t
,以简化为:S0,A0,R0,S1,A1,R1,S2,A2,R2,

,S
T
=S
终止
。3.根据权利要求2所述的基于动态窗口法与近端策略的无人车自适应路径规划方法,其特征在于,步骤二具体实现如下:DWA算法是一种从速度空间角度对无人车所处地图环境做出直观理解的局部路径规划法,工作流程为:考虑t时刻各条件对速度角速度的约束,得出t时刻无人车所能到达的速度角速度窗口V
win
;将其离散化,对离散后的速度角速度进行组合;无人车遍历所有组合并按照给定运动模型模拟前行m个Δ
t
时长,获得模拟轨迹集τ,即一系列点集;评价函数给出模拟轨迹集τ中的所有模拟轨迹的得分,选取评分最高轨迹τ
b
对应的组合;以该组合驱动无人车前进时长Δ
t
,到达t+1时刻;以此循环直至终点,m为采样步数,Δ
t
为采样间隔;
在t时刻,无人车的速度角速度窗口V
win
受自身硬件条件与周围环境约束,考虑如下三点约束:(1)极限速度角速度约束:V
lim
={(v,w)|v∈[v
min
,v
max
]∧w∈[w
min
,w
max
]}(2)加速度限制的速度角速度约束:(3)制动距离限制的速度角速度约束:以上,v
min
、v
max
为极限线速度,w
min
、w
max
为极限角速度,v
cu
、w
cu
为当前线速度、角速度,为极限线加速度,为极限角加速度,dist(v,w)为速度角速度组合(v,w)对应的模拟轨迹离障碍物的最近距离;最终t时刻无人车的速度角速度窗口V
win
表示为:V
win
=V
lim
∩V
acc
∩V
dis
评价函数包括三个子函数,是对无人车行驶速度、障碍物碰撞风险、无人车航向三个因素的综合考虑,具体如下:G(v,w)=σ(αheading(v,w)+ηdist(v,w)+γvel(v,w))其中其中表示无人车航向角,δ为无人车与目标点连线与x轴正方向夹角;dist(v,w)为模拟轨迹到最近障碍物的欧氏距离,vel(v,w)表示无人车的线速度大小,α、η、γ为三个权重系数;由上可知,评价函数是由不同量纲的子函数构成,式中的归一化函数σ()相当于无量纲学习,能够将不同量纲的数据统一到相同参考系下进行组合或比较,避免因数据的尺度不同导致评价偏差,具体如下:dist(v
i
,w
j
)与vel(v
i
,w
j
)进行同样的归一化操作;无人车根据匀速运动模型获取模拟轨迹,在该匀速运动模型的假设条件下,无人车的线速度、角速度大小保持不变,线速度方向改变量与时间成线性关系,为简化模型加快运算,可认为在微小时间间隔内速度方向保持不变,因此将匀速运动模型离散化处理,x
t
、y
t
表示t时刻智能车的横纵坐标,表示t时刻的航向角,v
t
、w
t
表示t时刻的速度、角速度,如下式所示:4.根据权利要求3所述的基于动态窗口法与近端策略的无人车自适应路径规划方法,其特征在于,步骤三具体实现如下:
近端策略优化算法的做法则是在目标函数中增加D
KL
(p||q)惩罚项具体如下:式中为对参数θ1的积分得到基于重要性采样的策略学习的目标函数,θ为策略π参数,当策略越好,目标函数越大,γ为进行蒙特卡洛近似引入的参数,U
t
为策略梯度中的参数,π(a
t
|s
t
;θ1)为目标策略,π(a
t
|s
t
;θ2)为行为策略,为策略网络的数学期望,β为超参数,分布q与p相差越大则D
KL
(p||q)项越大,受到的惩罚越大,反之则D
KL
(p||q)项越小,受到的惩罚越小,强化学习的目标是最大化因此具有惩罚项的能够控制行为与目标策略在预定相似度范围内;无人车在障碍物环境下寻找能够连接起点与终点的最优路径,因此无人车实际应用场景作为模型的学习环境环境即为障碍物地图;模型中的状态s为无人车利用传感器感知到的环境信息,包括自身位置、运动状态信息;将激光雷达以2度的扫描间隔,扫描一周反射回来的信息作为状态s的主要部分,此外,状态s还包括无人车速度v
t
、角速度w
t
、航向角以及当前目标点位置信息(x
gt
,y
gt
),具体方法为利用策略网络输出替代评价函数的固定权重,构建自适应评价函数,显然动作a与评价函数中的权重(α,η,γ)相对应,因此定义动作a为:a=[μ1,σ1,μ2,σ2,μ3,σ3]其中[μ1,σ1]为均值与方差,用于描述权重α的概率密...

【专利技术属性】
技术研发人员:张卫波王单坤黄赐坤林景胜丘英浩陈虎
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1