基于动态窗口法与近端策略的无人车自适应路径规划方法技术

技术编号：38718577 阅读：23 留言：0更新日期：2023-09-08 15:01

本发明专利技术涉及一种基于动态窗口法与近端策略的无人车自适应路径规划方法。首先构建面向无人车的智能体

全部详细技术资料下载

【技术实现步骤摘要】
基于动态窗口法与近端策略的无人车自适应路径规划方法

[0001]本专利技术涉及无人驾驶路径规划和自主导航
，具体涉及一种基于动态窗口法与近端策略的无人车自适应路径规划方法。

技术介绍

[0002]近年来，伴随着科学技术的飞速发展，以互联网、人工智能、大数据等为代表的新一轮的科技产业革命正在重新定义社会的各行各业，传统汽车产业正在面临着深刻的产业变革。传统汽车正在向着智能化、无人化发展，智能网联汽车、自动驾驶汽车已成为全球汽车产业发展的战略方向。智能驾驶技术主要包括环境感知、导航定位、路径规划与控制决策等。路径规划是智能驾驶中重要的一环其对智能驾驶技术的发展具有重大意义。
[0003]路径规划是自动驾驶智能车的重要组成部分，路径规划技术可归结为路径规划指在已知环境下通过算法规划出一条安全、可行的无碰撞路径，选择出从起点连接至终点的最优避障路径，本质为几个约束条件下的最优解，路径规划是智能车无人导航技术的关键部分。路径规划算法又可分为基于完整区域信息理解的全局规划与基于局部区域信息理解的局部规划。动态窗口法(Dynamic Window Approach,DWA)作为考虑智能车运动性能的局部路径规划方法，广泛应用于智能车路径导航。DWA算法中起决策作用的为其评价函数，包括朝向角函数、障碍物函数、速度函数等三部分，评价函数为这三个子函数的加权求和，经典DWA算法中该三个函数所对应的权重为固定值，然而智能车在探索终点过程，其周围的障碍物环境是复杂多变的，不同障碍物分布需要不同的权重，经典DWA算法固定权重值方法...

【技术保护点】

【技术特征摘要】
1.一种基于动态窗口法与近端策略的无人车自适应路径规划方法，其特征在于，包括如下步骤：步骤一、构建智能体
‑
环境交互模型，无人车作为深度强化学习中的智能体，障碍物地图作为环境；步骤二、建立DWA算法模型，根据阿克曼智能车确定包括：速度范围、角速度范围、加速度范围、角加速度范围参数以及DWA算法的主要要素以及评价函数；步骤三、建立基于演员
‑
评论家框架的近端策略优化学习PPO模型，模拟建立无人车实际应用场景作为模型的学习环境，根据应用场景确定模型中的状态与动作；步骤四、构建DWA
‑
PPO深度强化学习模型，定义包括主线奖励与子目标奖励的奖励函数；并确定包括输入层、输出层大小以及隐藏层层数与神经元个数参数在内的DWA
‑
PPO深度强化学习模型参数，完成DWA
‑
PPO深度强化学习模型的实例化；步骤五、构建自适应PPO
‑
ADWA算法，使用建立好的DWA
‑
PPO深度强化学习模型，在随机生成的复杂静态障碍物环境下，模拟无人车的导航规划，以收集用于训练DWA
‑
PPO深度强化学习模型的训练集，通过反复迭代收敛出能够根据周围障碍物分布的变化，输出相应权重参数的模型，完成自适应PPO
‑
ADWA算法的构建；步骤六、通过仿真对比实验论证基于自适应PPO
‑
ADWA算法的无人车路径规划自适应调节能力。2.根据权利要求1所述的基于动态窗口法与近端策略的无人车自适应路径规划方法，其特征在于，步骤一具体实现如下：智能体负责动作信息的输出及接收奖励、状态，环境是智能体的交互对象，其交互过程包括如下三个步骤：(1)智能体由环境状态观测到信息观测到信息为状态空间，是环境状态的取值集合；为观测空间，为智能体观测量的取值集合；(2)智能体由已知的O
t
做出相应的决策，决定要对环境施加的动作做出相应的决策，决定要对环境施加的动作是动作取值集合；(3)环境受A
t
影响，自身状态S
t
转移至S
t+1
，并给予智能体奖励，并给予智能体奖励是奖励的取值集合；因此离散化的智能体
‑
环境交互模型用如下序列表示：S0,O0,A0,R0,S1,O1,A1,R1,S2,O2,A2,R2,
…
,S
T
＝S
终止
当环境的状态能够被智能体完全观测时，则有S
t
＝O
t
，以简化为：S0,A0,R0,S1,A1,R1,S2,A2,R2,
…
,S
T
＝S
终止
。3.根据权利要求2所述的基于动态窗口法与近端策略的无人车自适应路径规划方法，其特征在于，步骤二具体实现如下：DWA算法是一种从速度空间角度对无人车所处地图环境做出直观理解的局部路径规划法，工作流程为：考虑t时刻各条件对速度角速度的约束，得出t时刻无人车所能到达的速度角速度窗口V
win
；将其离散化，对离散后的速度角速度进行组合；无人车遍历所有组合并按照给定运动模型模拟前行m个Δ
t
时长，获得模拟轨迹集τ，即一系列点集；评价函数给出模拟轨迹集τ中的所有模拟轨迹的得分，选取评分最高轨迹τ
b
对应的组合；以该组合驱动无人车前进时长Δ
t
，到达t+1时刻；以此循环直至终点，m为采样步数，Δ
t
为采样间隔；
在t时刻，无人车的速度角速度窗口V
win
受自身硬件条件与周围环境约束，考虑如下三点约束：(1)极限速度角速度约束：V
lim
＝{(v,w)|v∈[v
min
,v
max
]∧w∈[w
min
,w
max
]}(2)加速度限制的速度角速度约束：(3)制动距离限制的速度角速度约束：以上，v
min
、v
max
为极限线速度，w
min
、w
max
为极限角速度，v
cu
、w
cu
为当前线速度、角速度，为极限线加速度，为极限角加速度，dist(v,w)为速度角速度组合(v,w)对应的模拟轨迹离障碍物的最近距离；最终t时刻无人车的速度角速度窗口V
win
表示为：V
win
＝V
lim
∩V
acc
∩V
dis
评价函数包括三个子函数，是对无人车行驶速度、障碍物碰撞风险、无人车航向三个因素的综合考虑，具体如下：G(v,w)＝σ(αheading(v,w)+ηdist(v,w)+γvel(v,w))其中其中表示无人车航向角，δ为无人车与目标点连线与x轴正方向夹角；dist(v,w)为模拟轨迹到最近障碍物的欧氏距离，vel(v,w)表示无人车的线速度大小，α、η、γ为三个权重系数；由上可知，评价函数是由不同量纲的子函数构成，式中的归一化函数σ()相当于无量纲学习，能够将不同量纲的数据统一到相同参考系下进行组合或比较，避免因数据的尺度不同导致评价偏差，具体如下：dist(v
i
,w
j
)与vel(v
i
,w
j
)进行同样的归一化操作；无人车根据匀速运动模型获取模拟轨迹，在该匀速运动模型的假设条件下，无人车的线速度、角速度大小保持不变，线速度方向改变量与时间成线性关系，为简化模型加快运算，可认为在微小时间间隔内速度方向保持不变，因此将匀速运动模型离散化处理，x
t
、y
t
表示t时刻智能车的横纵坐标，表示t时刻的航向角，v
t
、w
t
表示t时刻的速度、角速度，如下式所示：4.根据权利要求3所述的基于动态窗口法与近端策略的无人车自适应路径规划方法，其特征在于，步骤三具体实现如下：
近端策略优化算法的做法则是在目标函数中增加D
KL
(p||q)惩罚项具体如下：式中为对参数θ1的积分得到基于重要性采样的策略学习的目标函数，θ为策略π参数，当策略越好，目标函数越大，γ为进行蒙特卡洛近似引入的参数，U
t
为策略梯度中的参数，π(a
t
|s
t
；θ1)为目标策略，π(a
t
|s
t
；θ2)为行为策略，为策略网络的数学期望，β为超参数，分布q与p相差越大则D
KL
(p||q)项越大，受到的惩罚越大，反之则D
KL
(p||q)项越小，受到的惩罚越小，强化学习的目标是最大化因此具有惩罚项的能够控制行为与目标策略在预定相似度范围内；无人车在障碍物环境下寻找能够连接起点与终点的最优路径，因此无人车实际应用场景作为模型的学习环境环境即为障碍物地图；模型中的状态s为无人车利用传感器感知到的环境信息，包括自身位置、运动状态信息；将激光雷达以2度的扫描间隔，扫描一周反射回来的信息作为状态s的主要部分，此外，状态s还包括无人车速度v
t
、角速度w
t
、航向角以及当前目标点位置信息(x
gt
,y
gt
)，具体方法为利用策略网络输出替代评价函数的固定权重，构建自适应评价函数，显然动作a与评价函数中的权重(α,η,γ)相对应，因此定义动作a为：a＝[μ1,σ1,μ2,σ2,μ3,σ3]其中[μ1,σ1]为均值与方差，用于描述权重α的概率密...

【专利技术属性】
技术研发人员：张卫波，王单坤，黄赐坤，林景胜，丘英浩，陈虎，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人