当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于动态道路结构信息的自动驾驶系统、方法和介质技术方案

技术编号:35196665 阅读:27 留言:0更新日期:2022-10-12 18:27
本发明专利技术属于自动驾驶技术领域,涉及一种基于动态道路结构信息的自动驾驶系统、方法和介质,一种基于动态道路结构信息的自动驾驶系统,包括:道路信息构建模块,用于提取道路结构信息;归一化决策生成模块,用于根据道路结构信息生成自动驾驶策略,并将与自动驾驶策略对应的策略动作发送至自动驾驶环境;自动驾驶环境,用于根据策略动作进行自动驾驶,并获得下一时刻的状态和奖励函数,并将下一时刻的状态和奖励函数发送至道路信息构建模块和归一化决策生成模块;归一化决策生成模块根据实时道路结构、下一时刻的状态和奖励函数对自动驾驶策略进行调整。其能够实现多种道路结构复合作用的强化学习决策算法结果提升。用的强化学习决策算法结果提升。用的强化学习决策算法结果提升。

【技术实现步骤摘要】
一种基于动态道路结构信息的自动驾驶系统、方法和介质


[0001]本专利技术涉及一种基于动态道路结构信息的自动驾驶系统、方法和介质,属于自动驾驶


技术介绍

[0002]自动驾驶的决策技术需要考虑与交通环境的长期交互收益来执行决策动作。现存的自动驾驶决策方法可以从交互模式上分为两大类。当前主流的自动驾驶决策算法中,主要分为交互式或半交互式。半交互式遵循先预测再决策的两层逻辑,考虑了环境相应因素但忽视了与车辆自身的交互。而基于模型的交互方法例如模型预测控制、部分可观马尔科夫决策或强化学习的方法从历史数据中获取隐藏的概率分布或者获得相应的神经网络参数。
[0003]对自动驾驶决策来说,道路结构对环境交通参与者行为和决策动作产生显著影响。而在工程上,相对于具有清晰描述和独立物理状态的环境目标(例如环境人和车的位置、速度、大小)等,具有可变长度、连接复杂、难以清晰描述的道路结构通常不加入在状态输入中,而是通过归一化的表达方式忽略道路结构,或者将对道路的偏好加入到损失函数或奖励函数的设计中。该方法会忽略道路结构的影响,或者仅仅能在固定结构下使用。因此会根据决策的实际表现将差异较大的道路结构进行人为分类设计不同的决策算法进行模块化处理。

技术实现思路

[0004]针对上述问题,本专利技术的目的是提供了一种基于动态道路结构信息的自动驾驶系统、方法和介质,其能够实现在不同道路结构下提取道路几何结构对决策的影响,进而实现多种道路结构复合作用的强化学习决策算法结果提升。
[0005]为实现上述目的,本专利技术提出了以下技术方案:一种基于动态道路结构信息的自动驾驶系统,包括:道路信息构建模块、归一化决策生成模块和自动驾驶环境;道路信息构建模块,用于提取道路结构信息;归一化决策生成模块,用于根据道路结构信息生成自动驾驶策略,并将与自动驾驶策略对应的策略动作发送至自动驾驶环境;自动驾驶环境,用于根据策略动作进行自动驾驶,并获得下一时刻的状态和奖励函数,并将下一时刻的状态和奖励函数发送至道路信息构建模块和归一化决策生成模块;归一化决策生成模块根据实时道路结构、下一时刻的状态和奖励函数对自动驾驶策略进行调整。
[0006]进一步,状态采用车道坐标系进行描述,车道坐标系以沿着车道的方向为横坐标,以垂直车道的方向为纵坐标。
[0007]进一步,道路信息构建模块,包括:道路信息编码子模块和自动驾驶地图存储子模块,道路信息编码子模块,用于提取道路结构差异造成的状态空间中不同车辆行为差异;自动驾驶地图存储子模块;自动驾驶地图存储子模块用于对道路信息编码子模块生成的信息进行存储。
[0008]进一步,道路信息编码子模块生成的信息,包括:道路节点和归一化决策状态节点,道路节点为基于车道级的路网,在每条道路中间建立的节点,每个节点都具有序号和属性,属性由道路信息编码和连接方式组成;连接方式为每个节点与所有可行驶方向节点的链接,道路节点和归一化决策状态节点使用多层感知机进行初始状态编码到相同维度,进行初始状态编码后,使用graphSage方式更新节点信息。
[0009]进一步,更新节点信息的方法为:完成两跳道路节点信息更新;进行归一化决策状态节点与两个道路节点的链接,两跳道路节点信息的更新函数为:
[0010]x
k+1
=σ(W.CONCAT(Agg(neighbour(x
k
),x
k
))
[0011]其中,x代表每一个需要更新的节点,W为神经网络参数矩阵,neighbour指相邻函数,Agg为聚合函数,k是编码聚合的次数设置为2,σ是非线性函数,例如Relu函数,CONCAT表示进行矩阵的拼接。
[0012]进一步,道路信息构建模块,包括:数据缓存子模块、决策状态编码子模块和强化学习策略提升子模块,数据缓存子模块,用于存储用来更新决策的状态元组;决策状态编码子模块,用于将环境原始节点与道路结构信息聚合生成节点信息,并对节点信息进行联合编码;强化学习策略提升子模块,用于对经过编码后的状态进行强化学习最终生成策略动作。
[0013]进一步,状态元组包括:时刻t的状态,策略动作,奖励函数和下一时刻的状态。
[0014]进一步,决策状态编码子模块将环境原始节点与和道路结构信息聚合后的节点信息通过多层感知机进行联合编码,将编码后的状态输入强化学习策略提升子模块生成策略动作,强化学习采用神经网络模型,其损失函数为:
[0015]L=L
rl
+αL
s
[0016]其中,L
rl
为强化学习更新的损失函数,α为变化随训练步数,L
s
是状态编码辅助函数;
[0017]L
rl
=r
t
+maxQ(s
t+1
,a)

Q(s
t
,a)
[0018]其中,r
t
是环境在t时刻给强化学习的奖励,s
t
是t时刻状态,a是策略动作,Q是强化学习价值函数;
[0019][0020]其中,H函数为信息熵,指经过道路图网络编码后的状态,p表示概率分布。
[0021]本专利技术还公开了一种基于动态道路结构信息的自动驾驶方法,用于上述任一项基于动态道路结构信息的自动驾驶系统,包括以下步骤:提取道路结构信息;根据道路结构信息生成自动驾驶策略,并根据自动驾驶策略生成对应的策略动作;根据策略动作进行自动驾驶,并获得下一时刻的状态和奖励函数,并将下一时刻的状态和奖励函数反馈至道路信息构建模块和归一化决策生成模块;道路信息构建模块判断是否需要根据反馈结果对决策进行调整,若需要则将对应道路信息编码发送至归一化决策生成模块,生成新的策略动作。
[0022]本专利技术还公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行以实现上述基于动态道路结构信息的自动驾驶方法。
[0023]本专利技术由于采取以上技术方案,其具有以下优点:
[0024]1、本专利技术能够实现在不同道路结构下提取道路几何结构对决策的影响,进而实现
多种道路结构复合作用的强化学习决策算法结果提升。
[0025]2、本专利技术中方案训练完成后,当使用归一化的决策算法时,可以不考虑道路结构,将状态直接输入到状态编码模块后输入强化学习模块,输出归一化决策结果。当使用带有道路结构影响信息的决策方法时,根据车辆当前位置,读取自动驾驶地图中的道路信息,与自车状态点进行聚合后,进行状态编码模块,最后输入强化学习模块输出考虑道路信息的决策结果。
附图说明
[0026]图1是本专利技术一实施例中基于动态道路结构信息的自动驾驶系统的结构示意图;
[0027]图2是本专利技术一实施例中道路网结构示意图;
[0028]图3是本专利技术一实施例中道路节点和归一化决策状态节点连接示意图。
具体实施方式
[0029]为了使本领域技术人员本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态道路结构信息的自动驾驶系统,其特征在于,包括:道路信息构建模块、归一化决策生成模块和自动驾驶环境;所述道路信息构建模块,用于提取道路结构信息;所述归一化决策生成模块,用于根据所述道路结构信息生成自动驾驶策略,并将与所述自动驾驶策略对应的策略动作发送至所述自动驾驶环境;所述自动驾驶环境,用于根据所述策略动作进行自动驾驶,并获得下一时刻的状态和奖励函数,并将所述下一时刻的状态和奖励函数发送至所述道路信息构建模块和归一化决策生成模块;归一化决策生成模块根据实时道路结构、下一时刻的状态和奖励函数对自动驾驶策略进行调整。2.如权利要求1所述的基于动态道路结构信息的自动驾驶系统,其特征在于,所述状态采用车道坐标系进行描述,所述车道坐标系以沿着车道的方向为横坐标,以垂直车道的方向为纵坐标。3.如权利要求2所述的基于动态道路结构信息的自动驾驶系统,其特征在于,所述道路信息构建模块,包括:道路信息编码子模块和自动驾驶地图存储子模块,所述道路信息编码子模块,用于提取道路结构差异造成的状态空间中不同车辆行为差异;所述自动驾驶地图存储子模块;自动驾驶地图存储子模块用于对所述道路信息编码子模块生成的信息进行存储。4.如权利要求3所述的基于动态道路结构信息的自动驾驶系统,其特征在于,所述道路信息编码子模块生成的信息,包括:道路节点和归一化决策状态节点,所述道路节点为基于车道级的路网,在每条道路中间建立的节点,每个所述节点都具有序号和属性,所述属性由道路信息编码和连接方式组成;所述连接方式为每个所述节点与所有可行驶方向节点的链接,所述道路节点和归一化决策状态节点使用多层感知机进行初始状态编码到相同维度,进行初始状态编码后,使用graphSage方式更新节点信息。5.如权利要求4所述的基于动态道路结构信息的自动驾驶系统,其特征在于,所述更新节点信息的方法为:完成两跳道路节点信息更新;进行归一化决策状态节点与两个道路节点的链接,两跳道路节点信息的更新函数为:x
k+1
=σ(W.CONCAT(Agg(neighbour(x
k
),x
k
))其中,x代表每一个需要更新的节点,W为神经网络参数矩阵,neighbour指相邻函数,Agg为聚合函数,k是编码聚合的次数设置为2,σ是非线性函数,CONCAT表示进行矩阵的拼接。6.如权利要求2所述的基于动态道路结构信息的自动驾驶系统,其特征在于...

【专利技术属性】
技术研发人员:江昆邓楠山杨殿阁曹重周伟韬
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1