基于监督信号引导的深度强化学习自动驾驶汽车控制方法技术

技术编号：29399050 阅读：12 留言：0更新日期：2021-07-23 22:35

本发明专利技术涉及一种基于监督信号引导的深度强化学习自动驾驶汽车控制方法，属于自动驾驶汽车领域。该方法包括：S1：获取周边车辆状态信息；S2：建立汽车运动学模型；S3：利用DDPG算法构建自动驾驶汽车控制模型对车辆的加速度和转向角进行控制，并优化Actor网络的损失函数，同时利用IDM算法和MOBIL算法构建加速度和转向角监督信号，对DDPG算法的训练进行引导和优化。本发明专利技术提升了DDPG算法的训练效率，实现了控制策略的实时性与最优性。

全部详细技术资料下载

【技术实现步骤摘要】
基于监督信号引导的深度强化学习自动驾驶汽车控制方法
本专利技术属于自动驾驶汽车领域，涉及一种基于监督信号引导的深度强化学习自动驾驶汽车控制方法。
技术介绍
随着我国国民经济的快速增长，汽车产业也得到了高速发展，但与此同时也带来了诸如交通拥堵、交通事故以及环境污染等问题。由于存在驾驶员疲劳、情绪波动、操作不当等人为因素的影响，交通事故的预测和预防仍然存在较大困难，而汽车自动驾驶技术的出现和发展为这一问题提供了新的解决思路。传统自动驾驶技术采用分层结构，各层职能清晰，算法可解释性强，但分层结构需要对多种传统算法进行大量手动调参，且应对复杂交通环境自适应能力弱，鲁棒性欠佳。AI技术与硬件性能的发展为自动驾驶提供了全新的思路，其中深度强化学习的出现催生出端到端的自动驾驶结构。深度强化学习将深度学习的表征能力和强化学习的试错机制完美结合，通过对智能体策略不断训练优化来获得更优的期望奖励，基于深度强化学习的端到端结构可以利用感知输入直接获得油门、刹车、车轮转角等控制动作，大大减少了各层算法构建的工作量和调参成本，同时提升了自动驾驶的泛化能力。但由于深度强化学习的神经网络在未得到充分训练时将会产生大量无意义甚至危险的动作，训练效率较低，而传统算法可以为深度强化学习算法提供一定程度的引导，提升其训练速度。因此，亟需一种能够综合考虑环境自适应能力和训练时间成本的自动驾驶汽车控制方法。
技术实现思路
有鉴于此，本专利技术的目的在于提供一种基于监督信号引导的深度强化学习自动驾驶汽车控制方法，利用深度强化...

【技术保护点】
1.一种基于监督信号引导的深度强化学习自动驾驶汽车控制方法，其特征在于，该方法具体包括以下步骤：/nS1：获取周边车辆状态信息；/nS2：建立汽车运动学模型；/nS3：利用DDPG算法构建自动驾驶汽车控制模型对车辆的加速度和转向角进行控制，并优化Actor网络的损失函数，同时利用IDM算法和MOBIL算法构建加速度和转向角监督信号，对DDPG算法的训练进行引导和优化。/n

【技术特征摘要】
1.一种基于监督信号引导的深度强化学习自动驾驶汽车控制方法，其特征在于，该方法具体包括以下步骤：
S1：获取周边车辆状态信息；
S2：建立汽车运动学模型；
S3：利用DDPG算法构建自动驾驶汽车控制模型对车辆的加速度和转向角进行控制，并优化Actor网络的损失函数，同时利用IDM算法和MOBIL算法构建加速度和转向角监督信号，对DDPG算法的训练进行引导和优化。

2.根据权利要求1所述的自动驾驶汽车控制方法，其特征在于，步骤S1中，获取的周边车辆状态信息，具体包括：周边车辆与本车的横纵向相对车速，以及周边车辆与本车的横纵向距离。

3.根据权利要求1所述的自动驾驶汽车控制方法，其特征在于，步骤S2中，搭建的汽车运动学模型为：

其中，x，y为全局坐标系下车辆质心的横坐标和纵坐标，为全局坐标系下车辆质心的横向速度和纵向速度，v为车辆速度，θ为车辆航向角，为车辆横摆角速度，β为车辆侧偏角，a为车辆加速度，lf为车辆前轴到质心的距离，lr为车辆后轴到质心的距离，δ为车辆前轮转向角。

4.根据权利要求1所述的自动驾驶汽车控制方法，其特征在于，步骤S3中，利用DDPG算法构建自动驾驶汽车控制模型，具体包括：
S301：构建车辆状态空间；所述车辆状态空间为包含周边车辆与本车的横纵向相对速度以及周边车辆与本车的横纵向距离的集合S，表示为：
Di＝{Δvx,Δvy,Δx,Δy},i＝1,2,……,n

其中，Di为车辆i的状态集合，n为所观测车辆的总数，Δvx，Δvy为周边车辆与本车的横纵向相对速度，Δx，Δy为周边车辆与本车的横纵向距离；
S302：构建由多层深度神经网络组成的在线Actor网络、目标Actor网络、在线Critic网络以及目标Critic网络，将当前状态S作为在线Actor网络的输入，并输出动作值μ(S)为：
μ(S)＝{a,δ}
其中，a为车辆加速度，δ为车辆前轮转向角；对动作μ加入高斯噪声∈从而获得最终的动作A，表达式为：A＝μ(S)+∈。

5.根据权利要求4所述的自动驾驶汽车控制方法，其特征在于，步骤S3中，利用IDM算法和MOBIL算法构建加速度和转向角监督信号，具体包括：
1)基于IDM算法，计算当前状态下的加速度监督信号as：

其中，amax为最大加速度，vx为车辆纵向速度，vex为车辆纵向期望速度，m为加速度参数，dex为车辆纵向期望距离，Δd为车辆纵向间距，d0为车辆纵向最小距离，T为车辆最小碰撞时间，b为车辆最大减速度；
2)基于MOBIL算法，选择满足以下条件的车道作为目标车道：

其中，为本车变道后新车道上相邻后车的加速度，bsafe为最大减速度，为本车变道后的加速度，为本车变道前的加速度，p为礼貌系数，为本车变道前新车道上相邻后车的加速度，为本车变道后原车道上相邻后车的加速度，为本车变道前原车道上相邻后车的加速度，ath为加速度阈值；
选择目标车道后，根据比例微分控制器计算出当前状态下的转向角监督信号δs为：
vex,lat＝-Kpdlat

其中，vex,lat为横向期望速度，Kp为横向增益系数，dlat为当前车道与目标车道的横向偏移量，θex为期望航向角，θL为目标车道方向角，θ为本车航向角，Kp,θ为航向角增益系数；
获得当前状态下的加速度和转向角监督信号As为：
As＝{as,δs}。

6.根据权利要求5所述的自动驾驶汽车控制方法，其特征在于，步骤S3中，...

【专利技术属性】
技术研发人员：唐小林，金书峰，汪锋，邓忠伟，胡晓松，李佳承，
申请(专利权)人：重庆大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人