面向动态交通环境的强化学习多车道驾驶决策方法技术

技术编号：43713708 阅读：32 留言：0更新日期：2024-12-18 21:27

本发明专利技术涉及一种面向动态交通环境的强化学习多车道驾驶决策方法，包括：利用多车道驾驶决策的场景中状态空间、动作空间和轨迹采样信息建立决策神经网络模型；利用综合奖励函数对所述决策神经网络模型进行强化学习训练；通过车辆配备的传感器数组对周围环境进行连续而深入的感知，捕获感知的环境信息；将感知的环境信息输入到所述决策神经网络模型中，决策神经网络模型根据当前的环境信息预测一段时间内的车辆轨迹和推荐的驾驶操作；将决策神经网络模型输出的推荐驾驶操作转化为具体的控制指令，并将指令发送至车辆的线控底盘和执行器。通过本发明专利技术方法使车辆可以实现多车道自动驾驶，而无需依赖外部数据和高精度地图，提高了系统的独立性和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自动驾驶领域，更具体地说，涉及一种面向动态交通环境的强化学习多车道驾驶决策方法。

技术介绍

1、自动驾驶汽车的核心功能包括环境感知、自主决策、路径规划和运动控制。环境感知涉及使用车载传感器和通信系统感知周围交通路况和障碍物。自主决策包括识别其他交通参与者的意图和预测轨迹，以制定驾驶行为和规划参考轨迹。路径规划负责选择最佳行驶路线，考虑道路状况、交通情况和目的地，以确保高效、安全的导航。运动控制则将决策结果转化为底层控制指令，掌握油门、刹车和方向盘等关键要素。由于自主决策和运动控制可建模为动态过程的最优化问题，且二者相互依赖，因此它们可以集成为一个统一的功能模块。这一模块在自动驾驶汽车中扮演着类似大脑的角色，其智能水平影响着汽车的自主驾驶性能。

2、现有技术中的辅助驾驶决策方法依赖城市区域道路地图，这可能导致地理局限性。在未被完整映射或道路数据更新不及时的地区，决策可能会受到限制。现有技术中构建的是全局路径规划方案，只能作为驾驶的辅助，无法为局部的自动驾驶提供支撑。

技术实现思路

1、本专利技术要解决的技术问题在于，提供一种面向动态交通环境的强化学习多车道驾驶决策方法，使车辆可以实现多车道自动驾驶，而无需依赖外部数据和高精度地图。

2、本专利技术解决其技术问题所采用的技术方案是：构造一种面向动态交通环境的强化学习多车道驾驶决策方法，包括：

3、利用多车道驾驶决策的场景中状态空间、动作空间和轨迹采样信息建立决策神经网络模型；利用综合奖励

4、通过车辆配备的传感器数组对周围环境进行连续而深入的感知，捕获感知的环境信息，环境信息包括车道线、交通参与者的位置、速度及其预期行为信息；

5、将感知的环境信息输入到所述决策神经网络模型中，决策神经网络模型根据当前的环境信息预测未来一段时间内的车辆轨迹和推荐的驾驶操作；

6、将决策神经网络模型输出的推荐驾驶操作转化为具体的控制指令，并将指令发送至车辆的线控底盘和执行器。

7、上述方案中，所述状态空间包括自车状态、参考路径信息和周车状态；

8、所述自车状态包括车速和航向角速度；参考路径信息包括连续的路线上的一系列路径点，每个路径点包含的信息有纵向位置、横向位置和航向角；周车状态包括给定数量的若干周车，每个车辆的状态包括纵向位置、横向位置、航向角、车身长度和车身宽度。

9、上述方案中，所述动作空间包括车辆纵向加速度和方向盘转角，将控制量的增量作为策略输出，与自车当前控制量相加后，得到实际控制量。

10、上述方案中，所述轨迹采样信息采样n条可能的轨迹，设τi为第i条轨迹，其中i＝1，2，…，n；

11、τi＝{st,at,st+1,at+1,...,st}

12、其中，t为轨迹的结束时间，并且at是在时间t采取的行动。

13、上述方案中，采用a2c强化学习方法，并引入critic网络和actor网络对决策神经网络模型进行训练；

14、critic网络的结构包括三层全连接层，激活函数为relu，处理时序信息的部分采用lstm，输入为当前状态与对应的轨迹，输出为轨迹的价值，轨迹的分数基于预期的未来奖励；

15、actor网络的结构包括两层全连接层，激活函数为tanh，输入为当前状态与critic网络确定的最优轨迹，actor网络根据输入的状态及最优轨迹，直接生成相应的控制指令来跟踪最优轨迹。

16、上述方案中，所述综合奖励函数考虑了安全性、效率和舒适性；

17、针对安全性；如果预测的轨迹与其他车辆的距离低于预定义的安全阈值，会施加强烈的负向奖励；计算车辆与所在车道中心的距离，距离越大，奖励越小；对于违反交通规则的行为，如在禁止变道区域变道，会给予严格的负奖励；

18、针对效率；当车辆在适当的条件下成功超越前方的低速车辆时，会给予正奖励；比较车辆的实际速度与所在车道的理想速度之间的差异，差异越小，奖励越大；

19、针对舒适性；对于频繁的车道变更或急剧的转向行为，会施加负奖励；检测急加速或急刹车，并施加负奖励。

20、上述方案中，针对安全性的奖励采用约束函数对自车与周围车辆的碰撞进行惩罚；约束函数采用双圆法计算自车与周车之间的距离，该方法用两个圆形覆盖车身的平面形状，将车辆之间的距离约束转化为圆心之间的距离约束；用双圆法计算车车距离时，需要计算自车的两个圆心与每辆周车的两个圆心之间的距离，然后取最小距离作为车车距离，为保证驾驶策略的安全性，安全距离在两车圆半径之和基础上增加一个量，称为冗余安全距离；对于车车距离小于安全距离的所有周车，都需要计算碰撞约束惩罚，然后将这些惩罚项相加，得到最终的约束函数。

21、上述方案中，决策神经网络模型根据当前的环境信息预测未来一段时间内的车辆轨迹和推荐的驾驶操作的方法包括：

22、根据识别到的车道线信息，判断自车两侧是否有可选道路，基于可选车道，进行轨迹采样，设计若干条备选轨迹。

23、用critic网络计算每条可选轨迹的价值函数，并选出价值最高的轨迹，记为最优车道；若最优轨迹所在车道为当前所选车道，则保持所选车道，车道选择流程结束，否则继续判断流程；

24、若所选车道非安全车道，即会发生碰撞，则立即选择最优轨迹，流程结束，否则继续。这一判断条件的作用是处理紧急情况，若所选车道即将发生碰撞，则没有时间再进行后续车道保持和换道等待的操作，必须立即切换至安全车道；

25、在考虑车道更换决策时，首先评估当前所选车道的安全性；若车辆在当前车道已保持一定时间，并且在连续的一段时间内，评估出的最优车道保持稳定，才考虑进行车道更换；满足上述约束后，车辆将按照评估结果选择最优车道；

26、将选择的最优轨迹作为参考轨迹，与当前车辆状态及环境状态异同输入actor网络，得到控制指令，并下发给控制器执行。

27、本专利技术还提供了一种面向动态交通环境的强化学习多车道驾驶决策装置，包括：

28、决策神经网络模型训练模块，用于利用多车道驾驶决策的场景中状态空间、动作空间和轨迹采样信息建立决策神经网络模型；利用综合奖励函数对所述决策神经网络模型进行训练；

29、信息感知模块，用于通过车辆配备的传感器数组对周围环境进行连续而深入的感知，捕获感知的环境信息，环境信息包括车道线、其他交通参与者的位置、速度及其预期行为信息；

30、决策模块，用于将感知的环境信息输入到所述决策神经网络模型中，决策神经网络模型根据当前的环境信息预测未来一段时间内的车辆轨迹和推荐的驾驶操作；

31、控制模块，用于将决策神经网络模型输出的推荐驾驶操作转化为具体的控制指令，并将指令发送至车辆的线控底盘和执行器。

32、本专利技术还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处本文档来自技高网...

【技术保护点】

1.一种面向动态交通环境的强化学习多车道驾驶决策方法，其特征在于，包括：

2.根据权利要求1所述的面向动态交通环境的强化学习多车道驾驶决策方法，其特征在于，所述状态空间包括自车状态、参考路径信息和周车状态；

3.根据权利要求1所述的面向动态交通环境的强化学习多车道驾驶决策方法，其特征在于，所述动作空间包括车辆纵向加速度和方向盘转角，将控制量的增量作为策略输出，与自车当前控制量相加后，得到实际控制量。

4.根据权利要求1所述的面向动态交通环境的强化学习多车道驾驶决策方法，其特征在于，所述轨迹采样信息采样N条可能的轨迹，设τi为第i条轨迹，其中i＝1，2，…，N；

5.根据权利要求1所述的面向动态交通环境的强化学习多车道驾驶决策方法，其特征在于，采用A2C强化学习方法，并引入Critic网络和Actor网络对决策神经网络模型进行训练；

6.根据权利要求1所述的面向动态交通环境的强化学习多车道驾驶决策方法，其特征在于，所述综合奖励函数考虑了安全性、效率和舒适性；

7.根据权利要求6所述的面向动态交通环境的强化学习多

8.根据权利要求5所述的面向动态交通环境的强化学习多车道驾驶决策方法，其特征在于，决策神经网络模型根据当前的环境信息预测未来一段时间内的车辆轨迹和推荐的驾驶操作的方法包括：

9.一种面向动态交通环境的强化学习多车道驾驶决策装置，其特征在于，包括：

10.根据权利要求9所述的面向动态交通环境的强化学习多车道驾驶决策装置，其特征在于，所述状态空间包括自车状态、参考路径信息和周车状态；

11.一种计算机可读存储介质，其上存储有可执行指令，其特征在于，该指令被处理器执行时使处理器实现权利要求1～8任一项所述面向动态交通环境的强化学习多车道驾驶决策方法的步骤。

12.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；所述存储器中存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1～8任一项所述面向动态交通环境的强化学习多车道驾驶决策方法的步骤。

...

【技术特征摘要】

1.一种面向动态交通环境的强化学习多车道驾驶决策方法，其特征在于，包括：

2.根据权利要求1所述的面向动态交通环境的强化学习多车道驾驶决策方法，其特征在于，所述状态空间包括自车状态、参考路径信息和周车状态；

4.根据权利要求1所述的面向动态交通环境的强化学习多车道驾驶决策方法，其特征在于，所述轨迹采样信息采样n条可能的轨迹，设τi为第i条轨迹，其中i＝1，2，…，n；

5.根据权利要求1所述的面向动态交通环境的强化学习多车道驾驶决策方法，其特征在于，采用a2c强化学习方法，并引入critic网络和actor网络对决策神经网络模型进行训练；

6.根据权利要求1所述的面向动态交通环境的强化学习多车道驾驶决策方法，其特征在于，所述综合奖励函数考虑了安全性、效率和舒适性；

7.根据权利要求6所述的面向动态交通环境的强化学习多车道驾驶决策方法，其特征在于，针对安全性的奖励采用约束函数对自车与周围车辆的碰撞进行惩罚；约束函数采用双圆法计算自车与周车之间的距离，该方法用两个圆形覆盖车身的平面形状，将车辆之间的距离约束转化为圆心之间的距离约...

【专利技术属性】
技术研发人员：吴梁广，周凯龙，费婷，
申请(专利权)人：东风汽车集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人