当前位置: 首页 > 专利查询>重庆大学专利>正文

基于监督信号引导的深度强化学习自动驾驶汽车控制方法技术

技术编号:29399050 阅读:12 留言:0更新日期:2021-07-23 22:35
本发明专利技术涉及一种基于监督信号引导的深度强化学习自动驾驶汽车控制方法,属于自动驾驶汽车领域。该方法包括:S1:获取周边车辆状态信息;S2:建立汽车运动学模型;S3:利用DDPG算法构建自动驾驶汽车控制模型对车辆的加速度和转向角进行控制,并优化Actor网络的损失函数,同时利用IDM算法和MOBIL算法构建加速度和转向角监督信号,对DDPG算法的训练进行引导和优化。本发明专利技术提升了DDPG算法的训练效率,实现了控制策略的实时性与最优性。

【技术实现步骤摘要】
基于监督信号引导的深度强化学习自动驾驶汽车控制方法
本专利技术属于自动驾驶汽车领域,涉及一种基于监督信号引导的深度强化学习自动驾驶汽车控制方法。
技术介绍
随着我国国民经济的快速增长,汽车产业也得到了高速发展,但与此同时也带来了诸如交通拥堵、交通事故以及环境污染等问题。由于存在驾驶员疲劳、情绪波动、操作不当等人为因素的影响,交通事故的预测和预防仍然存在较大困难,而汽车自动驾驶技术的出现和发展为这一问题提供了新的解决思路。传统自动驾驶技术采用分层结构,各层职能清晰,算法可解释性强,但分层结构需要对多种传统算法进行大量手动调参,且应对复杂交通环境自适应能力弱,鲁棒性欠佳。AI技术与硬件性能的发展为自动驾驶提供了全新的思路,其中深度强化学习的出现催生出端到端的自动驾驶结构。深度强化学习将深度学习的表征能力和强化学习的试错机制完美结合,通过对智能体策略不断训练优化来获得更优的期望奖励,基于深度强化学习的端到端结构可以利用感知输入直接获得油门、刹车、车轮转角等控制动作,大大减少了各层算法构建的工作量和调参成本,同时提升了自动驾驶的泛化能力。但由于深度强化学习的神经网络在未得到充分训练时将会产生大量无意义甚至危险的动作,训练效率较低,而传统算法可以为深度强化学习算法提供一定程度的引导,提升其训练速度。因此,亟需一种能够综合考虑环境自适应能力和训练时间成本的自动驾驶汽车控制方法。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于监督信号引导的深度强化学习自动驾驶汽车控制方法,利用深度强化学习算法-DDPG对自动驾驶汽车实现横纵向控制,并对Actor网络的损失函数进行了优化,同时采用传统算法IDM和MOBIL提供加速度和转向角监督信号进行引导,提升DDPG算法的训练效率。为达到上述目的,本专利技术提供如下技术方案:一种基于监督信号引导的深度强化学习自动驾驶汽车控制方法,具体包括以下步骤:S1:获取周边车辆状态信息;S2:建立汽车运动学模型;S3:利用DDPG(DeepDeterministicPolicyGradient)算法构建自动驾驶汽车控制模型对车辆的加速度和转向角进行控制,并优化Actor网络的损失函数,同时利用IDM(IntelligentDriverModel)算法和MOBIL(MinimizeOverallBrakingInducedbyLaneChanges)算法构建加速度和转向角监督信号,对DDPG算法的训练进行引导和优化。其中,使用IDM算法和MOBIL算法计算当前状态下的加速度和转向角监督信号以及引入监督信号的损失函数对Actor网络的更新进行引导。进一步,步骤S1中,获取的周边车辆状态信息,具体包括:周边车辆与本车的横纵向相对车速,以及周边车辆与本车的横纵向距离。进一步,步骤S2中,搭建的汽车运动学模型为:其中,x,y为全局坐标系下车辆质心的横坐标和纵坐标,为全局坐标系下车辆质心的横向速度和纵向速度,v为车辆速度,θ为车辆航向角,为车辆横摆角速度,β为车辆侧偏角,a为车辆加速度,lf为车辆前轴到质心的距离,lr为车辆后轴到质心的距离,δ为车辆前轮转向角。进一步,步骤S3中,利用DDPG算法构建自动驾驶汽车控制模型,具体包括:S301:构建车辆状态空间;所述车辆状态空间为包含周边车辆与本车的横纵向相对速度以及周边车辆与本车的横纵向距离的集合S,表示为:Di={Δvx,Δvy,Δx,Δy},i=1,2,……,n其中,Di为车辆i的状态集合,n为所观测车辆的总数,Δvx,Δvy为周边车辆与本车的横纵向相对速度,Δx,Δy为周边车辆与本车的横纵向距离;S302:构建由多层深度神经网络组成的在线Actor网络、目标Actor网络、在线Critic网络以及目标Critic网络,将当前状态S作为在线Actor网络的输入,并输出动作值μ(S)为:μ(S)={a,δ}其中,a为车辆加速度,δ为车辆前轮转向角;为了增加算法的探索性,对动作μ加入高斯噪声∈从而获得最终的动作A,表达式为:A=μ(S)+∈。进一步,步骤S3中,利用IDM算法和MOBIL算法构建加速度和转向角监督信号,具体包括:1)基于IDM算法,计算当前状态下的加速度监督信号as:其中,amax为最大加速度,vx为车辆纵向速度,vex为车辆纵向期望速度,m为加速度参数,dex为车辆纵向期望距离,Δd为车辆纵向间距,d0为车辆纵向最小距离,T为车辆最小碰撞时间,b为车辆最大减速度;2)基于MOBIL算法,选择满足以下条件的车道作为目标车道:其中,为本车变道后新车道上相邻后车的加速度,bsafe为最大减速度,为本车变道后的加速度,为本车变道前的加速度,p为礼貌系数,为本车变道前新车道上相邻后车的加速度,为本车变道后原车道上相邻后车的加速度,为本车变道前原车道上相邻后车的加速度,ath为加速度阈值;选择目标车道后,根据比例微分控制器即可计算出当前状态下的转向角监督信号δs为:vex,lat=-Kpdlat其中,vex,lat为横向期望速度,Kp为横向增益系数,dlat为当前车道与目标车道的横向偏移量,θex为期望航向角,θL为目标车道方向角,θ为本车航向角,Kp,θ为航向角增益系数;由此,可以获得当前状态下的加速度和转向角监督信号As为:As={as,δs}。进一步,步骤S3中,对DDPG算法的训练进行引导和优化,具体包括以下步骤:S311:设计奖励函数R:其中,k1,k2,k3,k4,k5,k6为各项奖励的权重系数;第一项为碰撞奖励,collision代表碰撞事件,碰撞发生时为1,未发生时为0;第二项为右侧车道奖励,鼓励本车保持在最右侧车道,lane为本车当前所在车道的序号,lane_num为车道总数;第三项为车速跟踪奖励,vmin为奖励范围内的最小速度,vmax为奖励范围内的最大速度,也是所跟踪的期望车速;第四项为舒适性奖励,鼓励本车尽量采取较小的转向角,δmin为奖励范围内的最小转向角,δmax为奖励范围内的最大转向角;第五项为车道中心保持奖励,鼓励本车尽量保持在车道中心线行驶,Δx为车辆与车道中心线的横向距离;第六项为安全性与效率奖励,鼓励本车与前车保持一定安全距离但又不会太过远离前车以致降低交通效率,Δxmin为本车与前车奖励范围内的最小距离,Δxmax为本车与前车奖励范围内的最大距离;本车执行动作后,根据奖励函数计算当前状态下执行该动作的奖励值;S312:本车执行动作后,根据汽车运动模型得到本车的下一状态S′;S313:设置经验池用于存放本步的经验样本{S,A,R,S′,As},当经验池样本数超过经验池容量后,最早的经验样本将被新的经验样本替换;S314:从经本文档来自技高网...

【技术保护点】
1.一种基于监督信号引导的深度强化学习自动驾驶汽车控制方法,其特征在于,该方法具体包括以下步骤:/nS1:获取周边车辆状态信息;/nS2:建立汽车运动学模型;/nS3:利用DDPG算法构建自动驾驶汽车控制模型对车辆的加速度和转向角进行控制,并优化Actor网络的损失函数,同时利用IDM算法和MOBIL算法构建加速度和转向角监督信号,对DDPG算法的训练进行引导和优化。/n

【技术特征摘要】
1.一种基于监督信号引导的深度强化学习自动驾驶汽车控制方法,其特征在于,该方法具体包括以下步骤:
S1:获取周边车辆状态信息;
S2:建立汽车运动学模型;
S3:利用DDPG算法构建自动驾驶汽车控制模型对车辆的加速度和转向角进行控制,并优化Actor网络的损失函数,同时利用IDM算法和MOBIL算法构建加速度和转向角监督信号,对DDPG算法的训练进行引导和优化。


2.根据权利要求1所述的自动驾驶汽车控制方法,其特征在于,步骤S1中,获取的周边车辆状态信息,具体包括:周边车辆与本车的横纵向相对车速,以及周边车辆与本车的横纵向距离。


3.根据权利要求1所述的自动驾驶汽车控制方法,其特征在于,步骤S2中,搭建的汽车运动学模型为:















其中,x,y为全局坐标系下车辆质心的横坐标和纵坐标,为全局坐标系下车辆质心的横向速度和纵向速度,v为车辆速度,θ为车辆航向角,为车辆横摆角速度,β为车辆侧偏角,a为车辆加速度,lf为车辆前轴到质心的距离,lr为车辆后轴到质心的距离,δ为车辆前轮转向角。


4.根据权利要求1所述的自动驾驶汽车控制方法,其特征在于,步骤S3中,利用DDPG算法构建自动驾驶汽车控制模型,具体包括:
S301:构建车辆状态空间;所述车辆状态空间为包含周边车辆与本车的横纵向相对速度以及周边车辆与本车的横纵向距离的集合S,表示为:
Di={Δvx,Δvy,Δx,Δy},i=1,2,……,n



其中,Di为车辆i的状态集合,n为所观测车辆的总数,Δvx,Δvy为周边车辆与本车的横纵向相对速度,Δx,Δy为周边车辆与本车的横纵向距离;
S302:构建由多层深度神经网络组成的在线Actor网络、目标Actor网络、在线Critic网络以及目标Critic网络,将当前状态S作为在线Actor网络的输入,并输出动作值μ(S)为:
μ(S)={a,δ}
其中,a为车辆加速度,δ为车辆前轮转向角;对动作μ加入高斯噪声∈从而获得最终的动作A,表达式为:A=μ(S)+∈。


5.根据权利要求4所述的自动驾驶汽车控制方法,其特征在于,步骤S3中,利用IDM算法和MOBIL算法构建加速度和转向角监督信号,具体包括:
1)基于IDM算法,计算当前状态下的加速度监督信号as:






其中,amax为最大加速度,vx为车辆纵向速度,vex为车辆纵向期望速度,m为加速度参数,dex为车辆纵向期望距离,Δd为车辆纵向间距,d0为车辆纵向最小距离,T为车辆最小碰撞时间,b为车辆最大减速度;
2)基于MOBIL算法,选择满足以下条件的车道作为目标车道:






其中,为本车变道后新车道上相邻后车的加速度,bsafe为最大减速度,为本车变道后的加速度,为本车变道前的加速度,p为礼貌系数,为本车变道前新车道上相邻后车的加速度,为本车变道后原车道上相邻后车的加速度,为本车变道前原车道上相邻后车的加速度,ath为加速度阈值;
选择目标车道后,根据比例微分控制器计算出当前状态下的转向角监督信号δs为:
vex,lat=-Kpdlat









其中,vex,lat为横向期望速度,Kp为横向增益系数,dlat为当前车道与目标车道的横向偏移量,θex为期望航向角,θL为目标车道方向角,θ为本车航向角,Kp,θ为航向角增益系数;
获得当前状态下的加速度和转向角监督信号As为:
As={as,δs}。


6.根据权利要求5所述的自动驾驶汽车控制方法,其特征在于,步骤S3中,...

【专利技术属性】
技术研发人员:唐小林金书峰汪锋邓忠伟胡晓松李佳承
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1