System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多重经验回放池的TD3无人驾驶决策方法技术_技高网

基于多重经验回放池的TD3无人驾驶决策方法技术

技术编号:42562270 阅读:7 留言:0更新日期:2024-08-29 00:31
本发明专利技术公开了基于多重经验回放池的TD3无人驾驶决策方法,包括:构建无人驾驶决策模型,其中,所述无人驾驶决策模型包括智能车辆的状态空间和动作空间;基于所述无人驾驶决策模型的需求,设置奖励机制;构建多重经验回放池,并设置多重经验采样策略;将所述状态空间、所述动作空间、所述奖励机制、所述多重经验采样策略与深度强化学习算法TD3进行结合,构建基于多重经验回放池的TD3无人驾驶决策模型;利用所述基于多重经验回放池的TD3无人驾驶决策模型,对无人驾驶车辆在复杂场景中的动作做出决策。本发明专利技术能够有效提升TD3无人驾驶决策模型在复杂场景中的收敛速度,提高无人驾驶决策的安全性。

【技术实现步骤摘要】

本专利技术属于无人驾驶车辆决策,尤其涉及基于多重经验回放池的td3无人驾驶决策方法。


技术介绍

1、高级别无人驾驶决策技术的研究目前聚焦于实现高度自动化和智能化的驾驶行为,以应对复杂多变的交通环境。关键技术包括深度学习、强化学习以及多传感器数据融合,旨在提高无人车的环境感知、决策制定和路径规划能力。深度学习用于解析视觉和传感器数据,实现精确的物体检测和场景理解。强化学习,尤其是与模拟环境结合的方法,被广泛研究用于优化决策策略,提升无人驾驶车辆在未知环境中的适应性和决策效率。此外,多传感器融合技术确保了高精度的环境感知,增强了无人车对复杂场景的处理能力。尽管在这些领域都取得了一定进展,但如何在动态环境中实时做出安全有效的决策,仍是未来研究的重点。

2、在高级别无人驾驶决策技术的发展中,深度强化学习决策模型的收敛速度和决策安全性一直是无人驾驶决策模型的核心研究问题。这两个方面直接影响智能车辆在实际复杂交通场景中的决策准确性和可靠性。收敛速度关键在于决策模型的学习效率,同时决定了智能车辆能多快适应新的环境、学会复杂的决策策略。快速收敛的模型能显著降低训练成本,加快技术迭代速度,是实现商业化部署的前提。其次,决策模型的安全性是无人驾驶技术广泛被接受的基石。深度强化学习模型必须能够在保证决策准确性的同时,最大限度地规避潜在风险,确保行车安全。这要求模型不仅要在静态环境中表现出色,还要能应对复杂、动态的交通情况。因此,研究如何提高深度强化学习模型的收敛速度和确保决策过程的安全性,成为推动无人驾驶技术向高级别自动化发展的关键。未来的研究需要在算法优化、模型结构创新以及安全策略设计等方面取得突破,以实现无人车在真实世界中的安全、高效运行。

3、td3(twin delayed deep deterministic policy gradient)算法作为一种改进的深度确定性策略梯度方法,虽然通过引入双q学习和延迟策略更新减少了值函数估计的过度波动和策略更新过快的问题,提高了算法的稳定性,但在实际应用中,尤其是在复杂或高维的环境下,td3仍面临收敛速度慢的挑战。此外,td3在学习过程中较难充分探索环境,可能导致在面对未知或动态变化的场景时,无法做出最安全的决策,从而影响无人驾驶车辆在实际操作中的安全性。这两个问题是推动td3及类似算法进一步研究和优化的关键所在。

4、因此,亟需基于多重经验回放池的td3无人驾驶决策方法,以解决现有技术中的不足之处。


技术实现思路

1、本专利技术的目的在于提出基于多重经验回放池的td3无人驾驶决策方法,以提升td3无人驾驶决策模型在复杂场景中的收敛速度,提高无人驾驶决策的安全性。

2、为实现上述目的,本专利技术提供了基于多重经验回放池的td3无人驾驶决策方法,包括以下步骤:

3、构建无人驾驶决策模型,其中,所述无人驾驶决策模型包括智能车辆的状态空间和动作空间;

4、基于所述无人驾驶决策模型的需求,设置奖励机制;

5、构建多重经验回放池,并设置多重经验采样策略,其中,所述多重经验回放池包括优秀经验回放池、碰撞经验回放池和混合经验回放池;

6、将所述状态空间、所述动作空间、所述奖励机制、所述多重经验采样策略与深度强化学习算法td3进行结合,构建基于多重经验回放池的td3无人驾驶决策模型;

7、利用所述基于多重经验回放池的td3无人驾驶决策模型,对无人驾驶车辆在复杂场景中的动作做出决策。

8、根据本专利技术提供的基于多重经验回放池的td3无人驾驶决策方法,构建无人驾驶决策模型,包括:

9、根据无人驾驶场景,构建所述智能车辆的状态空间,其中,所述状态空间包括所述智能车辆的速度和位置,以及社会车辆的相对速度、相对横向位置和相对纵向位置;

10、所述智能车辆根据所述状态空间对环境进行探索,并执行汇入动作,进而构成所述智能车辆的动作空间,其中,所述动作空间包括所述智能车辆的加速度、减速度和转角大小。

11、根据本专利技术提供的基于多重经验回放池的td3无人驾驶决策方法,所述奖励机制由时刻奖励和终止奖励构成,其中,所述时刻奖励包括所述智能车辆对新颖环境探索的正奖励和执行过程的时步奖励,所述终止奖励包括成功正奖励、碰撞负奖励和超时负奖励。

12、根据本专利技术提供的基于多重经验回放池的td3无人驾驶决策方法,所述新颖环境探索的正奖励为:

13、

14、其中,rt为t时刻新颖环境探索的正奖励,φ(st+1)代表下一时刻的状态的特征表示,代表预测下一时刻状态的特征表示。

15、根据本专利技术提供的基于多重经验回放池的td3无人驾驶决策方法,所述终止奖励为:

16、

17、其中,rf为终止奖励,reward为奖励常量,sussess代表任务完成,collision代表车辆发生了碰撞,timeout代表任务超时。

18、根据本专利技术提供的基于多重经验回放池的td3无人驾驶决策方法,构建所述多重经验回放池之后还包括:

19、根据所述状态空间、所述动作空间和所述奖励机制,生成智能车辆经验;

20、通过当前的奖励机制判别所述智能车辆经验,并存放至所述多重经验回放池,其中,所述智能车辆经验包括优秀经验、碰撞经验和一般经验;

21、若所述当前的奖励机制中出现所述成功正奖励或所述新颖环境探索的正奖励,当前奖励为所述优秀经验,将所述优秀经验存放至所述优秀经验回放池;

22、若所述当前奖励机制中出现所述碰撞负奖励,所述当前奖励为所述碰撞经验,将所述碰撞经验存放至所述碰撞经验回放池;

23、若所述当前奖励机制中出现所述执行过程的时步奖励或所述超时负奖励,所述当前奖励为所述一般经验,所述混合经验回放池按照时序存放所述一般经验。

24、根据本专利技术提供的基于多重经验回放池的td3无人驾驶决策方法,设置多重经验采样策略,包括:

25、判断所述智能车辆所处学习阶段,所述学习阶段包括引导阶段、初学阶段和进阶阶段;

26、当确定所述智能车辆处于所述引导阶段,则采样所述优秀经验,并引导所述智能车辆汇入车流;

27、当确定所述智能车辆处于所述初学阶段,则采样所述碰撞经验,且所述智能车辆自行探索最优策略;

28、当确定所述智能车辆处于所述进阶阶段,则采样所述一般经验,并优化策略。

29、根据本专利技术提供的基于多重经验回放池的td3无人驾驶决策方法,利用所述基于多重经验回放池的td3无人驾驶决策模型,对无人驾驶车辆在复杂场景中的动作做出决策之前还包括:对所述基于多重经验回放池的td3无人驾驶决策模型进行训练,其中,所述基于多重经验回放池的td3无人驾驶决策模型包括策略网络、价值网络、目标策略网络和目标价值网络。

30、根据本专利技术提供的基于多重经验回放池的td3无人驾驶决策方法,对所述基于多重经验回放池的td3无人驾本文档来自技高网...

【技术保护点】

1.基于多重经验回放池的TD3无人驾驶决策方法,其特征在于,具体包括以下步骤:

2.如权利要求1所述的基于多重经验回放池的TD3无人驾驶决策方法,其特征在于,构建无人驾驶决策模型,包括:

3.如权利要求1所述的基于多重经验回放池的TD3无人驾驶决策方法,其特征在于,所述奖励机制由时刻奖励和终止奖励构成,其中,所述时刻奖励包括所述智能车辆对新颖环境探索的正奖励和执行过程的时步奖励,所述终止奖励包括成功正奖励、碰撞负奖励和超时负奖励。

4.如权利要求3所述的基于多重经验回放池的TD3无人驾驶决策方法,其特征在于,所述新颖环境探索的正奖励为:

5.如权利要求3所述的基于多重经验回放池的TD3无人驾驶决策方法,其特征在于,所述终止奖励为:

6.如权利要求3所述的基于多重经验回放池的TD3无人驾驶决策方法,其特征在于,构建所述多重经验回放池之后还包括:

7.如权利要求6所述的基于多重经验回放池的TD3无人驾驶决策方法,其特征在于,设置多重经验采样策略,包括:

8.如权利要求7所述的基于多重经验回放池的TD3无人驾驶决策方法,其特征在于,利用所述基于多重经验回放池的TD3无人驾驶决策模型,对无人驾驶车辆在复杂场景中的动作做出决策之前还包括:对所述基于多重经验回放池的TD3无人驾驶决策模型进行训练,其中,所述基于多重经验回放池的TD3无人驾驶决策模型包括策略网络、价值网络、目标策略网络和目标价值网络。

9.如权利要求8所述的基于多重经验回放池的TD3无人驾驶决策方法,其特征在于,对所述基于多重经验回放池的TD3无人驾驶决策模型进行训练,包括:

10.如权利要求9所述的基于多重经验回放池的TD3无人驾驶决策方法,其特征在于,对所述基于多重经验回放池的TD3无人驾驶决策模型进行训练还包括:

...

【技术特征摘要】

1.基于多重经验回放池的td3无人驾驶决策方法,其特征在于,具体包括以下步骤:

2.如权利要求1所述的基于多重经验回放池的td3无人驾驶决策方法,其特征在于,构建无人驾驶决策模型,包括:

3.如权利要求1所述的基于多重经验回放池的td3无人驾驶决策方法,其特征在于,所述奖励机制由时刻奖励和终止奖励构成,其中,所述时刻奖励包括所述智能车辆对新颖环境探索的正奖励和执行过程的时步奖励,所述终止奖励包括成功正奖励、碰撞负奖励和超时负奖励。

4.如权利要求3所述的基于多重经验回放池的td3无人驾驶决策方法,其特征在于,所述新颖环境探索的正奖励为:

5.如权利要求3所述的基于多重经验回放池的td3无人驾驶决策方法,其特征在于,所述终止奖励为:

6.如权利要求3所述的基于多重经验回放池的td3无人驾驶决策方法,其特征在于,构建所述多重经验回放池之...

【专利技术属性】
技术研发人员:杜煜江安旎张昊赵世昕高秋淇
申请(专利权)人:北京联合大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1