一种基于多模态输入的端到端自动驾驶换道决策方法技术

技术编号：43181540 阅读：11 留言：0更新日期：2024-11-01 20:07

本发明专利技术适用于智能驾驶技术领域，提供了一种基于多模态输入的端到端自动驾驶换道决策方法，包括以下步骤：状态信息收集：收集鸟瞰图、语义图像以及自车和周车的状态信息，进行数据处理；构建多模态输入网络：确定深度神经网络的架构；采用卷积神经网络来处理图像数据，采用全连接层来处理状态信息；设计状态空间、动作空间、奖励函数；端到端训练：使用DDPG对构建的多模态输入网络进行端到端的训练。本发明专利技术同时利用来自不同传感器的数据，实现了更全面、准确的环境感知和换道决策；将不同模态输入数据进行有效融合，并采用端到端的深度学习网络进行学习和决策，避免了传统方法中多个模块之间的信息丢失和耦合，提高了系统的稳定性和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于智能驾驶，尤其涉及一种基于多模态输入的端到端自动驾驶换道决策方法。

技术介绍

1、近年来，随着汽车保有量的不断增长，交通安全和交通拥堵问题日益严重。自动驾驶技术应运而生。其中，换道决策是自动驾驶系统中的重要功能之一，一个有效的换道决策系统不仅可以提高车辆的驾驶安全性，还可以改善行车的流畅性和舒适性。然而，传统的换道决策方法往往依赖于简单的规则或手工设计的模型，难以适应复杂多变的交通环境。随着深度学习和强化学习技术的发展，基于机器学习的换道决策方法逐渐成为研究的热点。强化学习是一种通过智能体与环境的交互学习最优策略的方法。在自动驾驶领域，智能体即自动驾驶汽车，环境包括车辆、行人、道路等。强化学习通过定义状态、动作和奖励函数，使智能体能够根据当前状态选择最优动作，以最大化未来累积奖励。近年来，深度强化学习作为结合了深度学习和强化学习的方法，在解决自动驾驶领域的行为决策问题上取得了显著进展。深度强化学习通过深度神经网络来近似复杂的状态-动作映射关系，实现了对大规模状态空间的有效建模和学习，同时能够处理连续动作空间和高维状态空间的挑战。

2、然而，目前大多数基于drl的换道决策方法仍然依赖于单一模态输入数据(例如：摄像头图像、激光雷达数据、gps信息等)进行决策，可能受到天气、光照等因素的影响，导致系统性能下降或者出现误判。多模态输入应运而生，多模态融合输入可以在使用较少传感器种类的情况下实现与单一模态输入相似甚至更好的功能。例如，通过简单的摄像头和测距雷达提供的数据组合，可以获取道路上的视觉信息和距离信息。摄

技术实现思路

1、本专利技术的目的在于提供一种基于多模态输入的端到端自动驾驶换道决策方法，旨在解决上述
技术介绍
中提出的问题。

2、为实现上述目的，本专利技术提供如下技术方案：

3、一种基于多模态输入的端到端自动驾驶换道决策方法，包括以下步骤：

4、步骤一、状态信息收集：收集鸟瞰图、语义图像以及自车和周车的状态信息，对收集的数据进行处理；

5、步骤二、构建多模态输入网络：确定深度神经网络的架构，包括各个传感器数据的输入层、中间隐藏层和输出层；采用卷积神经网络来处理图像数据，采用全连接层来处理状态信息；

6、步骤三、设计状态空间、动作空间、奖励函数；

7、步骤四、端到端训练：使用ddpg对构建的多模态输入网络进行端到端的训练；在训练过程中，通过经验回放机制来训练网络。

8、进一步的，所述步骤一中，采用激光雷达提供车辆周围的距离信息，通过扫描周围环境并将数据转换成点云，生成鸟瞰图；使用摄像头拍摄道路场景图像，并利用图像语义分割技术将图像中的不同物体进行标记和分类；采用车载传感器提供自车的状态信息；使用雷达、摄像头传感器检测并跟踪周车的位置、速度；对收集的数据进行处理，包括但不限于图像的裁剪、缩放和归一化，以及状态信息的编码和标准化。

9、进一步的，所述步骤二中，多模态输入网络的输入包括语义图像p、鸟瞰图b、自车的状态测量m以及周车的状态测量e；多模态输入网络包括用于提取语义图像特征p(p)的cnn块、用于提取鸟瞰图特征b(b)的cnn块、用于提取自车测量状态特征m(m)的全连接层块以及用于提取周车状态特征e(e)的全连接层块；采用串联的方式将不同数据源的特征连接起来形成特征的联合层，并由新的全连接层进行处理，获得联合特征j(<p(p),b(b)，m(m),e(e)>),即j(p，b，m,e)。

10、进一步的，所述步骤三中，状态空间表示为其中是语义图像，是鸟瞰图，sm自车状态，se是周车状态；

11、动作空间表示为actions＝{θw，a}，其中a是归一化的纵向加速度，a∈[-1,1]；θw是横向方向盘角度；

12、智能体在横向和纵向联合控制下的总奖励函数包括考虑车辆智能体安全性、舒适性和效率的奖励函数，具体设计步骤如下：

13、a、考虑车辆智能体安全性的奖励函数设计：

14、首先，认为智能体应避免与周围车辆发生碰撞，并在发生碰撞时给予相应的负奖励；具体设计如下：

15、rc＝kc×cflag

16、

17、其中，kc为智能体与其他车辆碰撞的奖励权重系数，kc＜0，cflag为智能体与其他车辆碰撞的检测标志；

18、随后，将期望换道距离作为阈值，当智能体与前车的距离小于阈值时，惩罚值随着期望换道距离的增大而逐渐增大；具体设计如下：

19、rd＝kt|d-ddes|

20、其中，kt是变道时的奖励权重系数，ddes是智能体与前方车辆之间的预期变道距离，kt＜0；

21、则考虑车辆智能体安全性的奖励函数表示为：

22、rsecurity＝rc+rd

23、b、考虑车辆智能体舒适性的奖励函数设计：

24、横向控制的舒适性奖励表示为：

25、

26、其中，kw是方向盘角速度的奖励权重系数，kw＜0；是车辆智能体方向盘的角速度；

27、在垂直控制期间考虑车辆智能体舒适性的奖励函数如下：

28、

29、其中，是智能体的加加速度，ka是加加速度奖励权重系数，ka＜0；

30、则考虑车辆智能体舒适性的奖励函数表示为：

31、rcomfort＝rcf1+rcf2

32、c、在整个换道过程中，考虑车辆智能体效率的奖励函数设计：

33、使智能体从当前通道快速改变到目标通道的奖励函数设计如下：

34、

35、其中，gl是目标车道，ln是车道号；值0、1和2分别指示智能体的当前位置不在驾驶区域中、在车道1中和在车道2中；y是智能体的横向位置坐标；kk和k1是常数项，其中kk＜0且k1＞0；

36、限定智能体的最低速度vmin，相应的奖励函数设计如下：

37、rspeed＝kl×lflag

38、

39、其中，kl为智能体限速奖励的权重系数，kl<0；lflag为车辆智能体限速检测标记，v为智能体的行驶速度；

40、则在整个换道过程中考虑智能体效率的奖励函数如下：

41、refficiency＝rec1+rspeed

42、最终得到智能体在横向和纵向联合控制下的总奖励函数表示：

43、r＝rsecurity+rcomfort+refficiency。

本文档来自技高网...

【技术保护点】

1.一种基于多模态输入的端到端自动驾驶换道决策方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态输入的端到端自动驾驶换道决策方法，其特征在于，所述步骤一中，采用激光雷达提供车辆周围的距离信息，通过扫描周围环境并将数据转换成点云，生成鸟瞰图；使用摄像头拍摄道路场景图像，并利用图像语义分割技术将图像中的不同物体进行标记和分类；采用车载传感器提供自车的状态信息；使用雷达、摄像头传感器检测并跟踪周车的位置、速度；对收集的数据进行处理，包括但不限于图像的裁剪、缩放和归一化，以及状态信息的编码和标准化。

3.根据权利要求1所述的基于多模态输入的端到端自动驾驶换道决策方法，其特征在于，所述步骤二中，多模态输入网络的输入包括语义图像p、鸟瞰图b、自车的状态测量m以及周车的状态测量e；多模态输入网络包括用于提取语义图像特征P(p)的CNN块、用于提取鸟瞰图特征B(b)的CNN块、用于提取自车测量状态特征M(m)的全连接层块以及用于提取周车状态特征E(e)的全连接层块；采用串联的方式将不同数据源的特征连接起来形成特征的联合层，并由新的全连接层进行处理，获得联

4.根据权利要求1所述的基于多模态输入的端到端自动驾驶换道决策方法，其特征在于，所述步骤三中，状态空间表示为其中是语义图像，是鸟瞰图，Sm自车状态，Se是周车状态；

5.根据权利要求1所述的基于多模态输入的端到端自动驾驶换道决策方法，其特征在于，所述步骤四中，采用依赖于Actor-Critic算法框架的DDPG算法，框架包括两个神经网络：Actor网络和Critic网络，两个神经网络均采用全连接神经网络作为基本网络结构；DDPG由两个主网络及两个主网络对应的目标网络组成；DDPG的输入为联合特征J(p,b,m,e)；

...

【技术特征摘要】

1.一种基于多模态输入的端到端自动驾驶换道决策方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的基于多模态输入的端到端自动驾驶换道决策方法，其特征在于，所述步骤二中，多模态输入网络的输入包括语义图像p、鸟瞰图b、自车的状态测量m以及周车的状态测量e；多模态输入网络包括用于提取语义图像特征p(p)的cnn块、用于提取鸟瞰图特征b(b)的cnn块、用于...

【专利技术属性】
技术研发人员：赵海艳，曹靖笛，徐成成，孙康，陈虹，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人