System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向自动驾驶专用道的车辆轨迹优化控制方法技术_技高网
当前位置: 首页 > 专利查询>东南大学专利>正文

一种面向自动驾驶专用道的车辆轨迹优化控制方法技术

技术编号:43589527 阅读:6 留言:0更新日期:2024-12-11 14:41
本发明专利技术提出了一种面向自动驾驶专用道的车辆轨迹优化控制方法,包括:设计混合流条件下的自动驾驶专用道,获取车辆运行信息与环境信息,分别基于DDPG算法和DQN算法设计具有针对性的跟驰与换道模型,训练得到最优车辆轨迹优化控制器,对智能网联车辆进行控制。本发明专利技术在自动驾驶专用道基础上采用深度强化学习框架对网联自动驾驶车辆进行轨迹优化控制,考虑专用道汇入的微观收益与宏观收益,对优化专用道设置场景下的自动驾驶轨迹控制方法具有重要的理论意义和实际价值。

【技术实现步骤摘要】

本专利技术属于智能交通与交通控制,具体涉及一种面向自动驾驶专用道的车辆轨迹优化控制方法


技术介绍

1、随着我国经济建设不断发展,居民汽车保有率不断增加,日益增长的出行需求对道路安全和能源问题带来了巨大压力。因此,提高交通系统通行效率成为当务之急。自动驾驶技术的出现为解决这些问题提供了新的解决方案。相较于人工驾驶,自动驾驶汽车在减少交通事故、缓解交通压力、降低驾驶成本和时间成本等方面具有明显优势。自动驾驶技术凭借车载设备在车联网中与周边车辆进行信息互通能力使得跟驰管控与换道管控成为可能,在跟驰状态下既可以使车辆保持特定速度前行,也可以使本车保持与前车一定的距离行驶,在换道过程中可以使目标车辆按一定模式进行换道行为。在获取周边车辆的类型、速度、车头时距等信息后,通过预定的车辆控制策略,对车辆行驶的跟驰加速度、换道意图进行控制,进而减小队列内速度波动,提高通行效率,并提高换道安全性。深度强化学习不依赖人工规则进行行为决策方法,通过智能体与环境交互,获取提高奖励值的决策动作,在解决智能驾驶环境下的复杂问题中发挥了巨大作用。目前车辆轨迹优化控制方法多聚焦于目标车辆与周边车辆,与车道功能设计结合度较低,实际上专用道对自动驾驶车辆换道选择有一定影响。


技术实现思路

1、本专利技术的目的是提出一种面向自动驾驶专用道的车辆轨迹优化控制方法,专用道应用场景为三车道左侧单专用道形式,管控方法分别为基于ddpg评价并输出智能体的跟驰动作的跟驰模型与基于dqn评价并输出智能体的换道意图的换道模型。

2、为解决以上技术问题,本专利技术提供如下技术方案:一种面向自动驾驶专用道的车辆轨迹优化控制方法,包括以下步骤:

3、s1、设计混合交通流条件下的专用道应用场景;

4、s2、设计跟驰模型的马尔可夫奖励过程,确定状态空间、动作空间与奖励值,构建基于深度确定性策略梯度算法(ddpg)的网络框架,训练智能体的跟驰决策;

5、s3、设计换道模型的马尔可夫奖励过程,确定状态空间、动作空间与奖励值,构建基于深度强化学习算法(dqn)的网络框架,训练智能体的换道决策;

6、s4、在步骤s1所设计的专用道设置场景下将步骤s2训练出的跟驰模型与步骤s3训练出的换道模型应用于目标道路,实现车辆轨迹优化控制。

7、进一步地,前述步骤s1中,混合交通流条件下的专用道应用场景包括:多车道交通环境,其中包含自动驾驶专用道与非自动驾驶专用道。

8、进一步地,前述步骤s2中,针对特定自动驾驶方法构造马尔可夫奖励过程,包括如下步骤:

9、s21、构建状态空间s(t)={vf(t),af(t),df(t),vr(t),tw(t),delay(t)},其中vf(t)为当前跟车速度、af(t)为当前跟车加速度、df(t)为当前跟车距离、vr(t)为与前车相对速度、tw(t)为路段车辆平均等待时间、delay(t)为路段车辆平均延误时间;

10、s22、构建动作空间a(t)∈[-3,3](m/s2),

11、其中跟车安全距离约束为

12、s23、设计奖励函数,具体步骤如下:

13、总奖励值为

14、rcf=wsafety×rsafety+weffi×reffi+wcomf×rcomf+wfuel×rfuel

15、其中rsafety为安全性奖励,reffi为效率性奖励,rcomf为舒适度奖励,rfuel为油耗奖励,wsafety,weffi,wcomfwfuel分别为对应奖励的权重,具体表现为:

16、(1)安全性奖励

17、rsafety=df-ds

18、df为智能体根据自身跟车速度和前车速度计算在驾驶员反应时间内不会发生碰撞的安全距离,ds为当前智能体保持的跟车距离;

19、(2)效率性奖励

20、reffi=a×rspeed+b×rtotalwait+c×rtotaldelay

21、式中a,b,c为各项奖励的权重,该奖励可进一步细分成三个因素:(a)动作前后跟车速度的偏差;(b)动作前后路段总等待时间的数值差;(c)动作前后路段总车均延误的数值差;

22、a)动作前后跟车速度的偏差

23、rspeed=vf(t+1)-vf(t)

24、vf(t)为智能体采用动作之前的跟车速度为,vf(t+1)为采用跟车动作后的跟车速度;

25、b)路段等待时间

26、rtotalwait=twtotal(t)-twtotal(t+1)

27、twtotal(t)为智能体选择动作前路段总等待时间,twtotal(t+1)为智能体选择动作后路段总等待时间;

28、c)动作前后路段总车均延误的数值差

29、rtotaldelay=delay(t)-delay(t+1)

30、delay(t)为智能体采用动作之前的路段总延误,delay(t+1)为采用跟车动作后的路段总延误;

31、(3)舒适度奖励

32、

33、jerk,jerk′分别为动作执行前后的舒适度参数;

34、(4)油耗奖励

35、rfuel=p′fuel-pfuel

36、pfuel,p′fuel分别为动作执行前后的燃油消耗;

37、s24、构建基于ddpg的网络框架,训练智能体的跟驰决策:

38、(1)初始化critic评估网络结构q(s,a|θq)和actor决策网络结构μ(s|θμ)及其权重θq和θμ,初始化critic目标—评估网络结构q′(s′,a′|θq′)和actor目标-决策网络结构μ′(s′|θμ′)及其权重θq′和θμ′,并在后续每一步迭代进行步骤(2);

39、(2)初始化一个随机过程k进行动作探索;初始化状态s1为当前状态序列的第一个状态,获取其特征网络,并在后续每一步迭代进行步骤(3)至(10);

40、(3)根据当前状态st的策略和探索噪声kt选择跟驰加速度动作at=μ(st|θμ)+kt;

41、(4)车辆执行动作at并观察奖励rt并观察新状态st+1;

42、(5)将智能体自动驾驶车辆的交互数据(st,at,rt,st+1)存入经验池;

43、(6)在回放经验池中对n个转换的随机小批量进行采样;

44、(7)critic评估网络计算当前的q值yi=ri+γq′(si+1,μ′(si+1|θμ′)|θq′);

45、(8)通过最小化损失来更新critic评估网络参数,损失值表示为

46、(9)使用采样的策略梯度更新actor策略网络的梯度;

47、(10)更新critic目标-评估网络和actor目标-决策网络参数θq′和θμ′。

48、进一步地,前述步骤s本文档来自技高网...

【技术保护点】

1.一种面向自动驾驶专用道的车辆轨迹优化控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种面向自动驾驶专用道的车辆轨迹优化控制方法,其特征在于:混合交通流条件下的专用道应用场景包括:多车道交通环境,多车道交通环境包含自动驾驶专用道与非自动驾驶专用道。

3.根据权利要求1所述的一种面向自动驾驶专用道的车辆轨迹优化控制方法,其特征在于:步骤S2中,针对特定自动驾驶方法构造马尔可夫奖励过程,包括如下步骤:

4.根据权利要求1所述的一种面向自动驾驶专用道的车辆轨迹优化控制方法,其特征在于:步骤S3中,针对特定自动驾驶方法构造马尔可夫奖励过程,包括以下步骤:

5.根据权利要求1所述的一种面向自动驾驶专用道的车辆轨迹优化控制方法,其特征在于,所述步骤S4的具体实施步骤:

【技术特征摘要】

1.一种面向自动驾驶专用道的车辆轨迹优化控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种面向自动驾驶专用道的车辆轨迹优化控制方法,其特征在于:混合交通流条件下的专用道应用场景包括:多车道交通环境,多车道交通环境包含自动驾驶专用道与非自动驾驶专用道。

3.根据权利要求1所述的一种面向自动驾驶专用道的车辆轨迹优化控制方法,其特...

【专利技术属性】
技术研发人员:徐铖铖陈雨菲蒋璇佟昊马晨翔
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1