【技术实现步骤摘要】
基于多目标深度强化学习的混合动力汽车生态驾驶方法
[0001]本专利技术属于深度强化学习
,更具体地说,涉及一种基于多目标深度强化学习的混合动力汽车生态驾驶方法。
技术介绍
[0002]随着全球变暖与化石燃料的广泛使用,世界各国都将环境保护作为当前时代的首要任务之一。交通运输领域的能源消耗占全球能源消耗的20%,提供了全球四分之一的碳排放量。混合动力汽车(HEV)的使用清洁、经济和环保的电能作为汽车驱动能源之一,HEV的推广有望缓解污染气体的过度排放。HEV配置改进的投资周期通常以年为单位,并且效益有限。生态驾驶技术落地时间短,前期投资少,但其对燃油效率的增幅却高达45%。因此,推广应用生态驾驶技术,改善汽车驾驶策略,可有效提升汽车能量管理性能。关于能量管理策略(EMS)和自适应巡航控制系统(ACC)的协同优化是当前生态驾驶领域的研究热点,EMS通过动力传统系统中各组件的协调来提高燃油经济性,ACC通过帮助驾驶员实时调整车辆速度或跟驰距离来提高驾驶安全性和舒适性。
[0003]现如今,自主学习的方法逐渐成为解决优化问题的首选方法。深度强化学习(DRL)是一种将深度学习(DL)与强化学习(RL)相结合的方法,同时具备深度学习强大的表征能力和强化学习的强大推理能力,深度神经网络(DNN)显著降低了对领域知识的依赖性。随着DRL在EMS和ACC领域的普及,基于DRL的生态驾驶策略被相应提出。但通过单目标DRL来解决问题,一方面需要额外的时间和精力来手动确定奖励权重;另一方面,从某一权重向量的最优策略中获得的经 ...
【技术保护点】
【技术特征摘要】
1.一种基于多目标深度强化学习的混合动力汽车生态驾驶方法,其特征在于,包括如下步骤:S1、构建混合动力汽车自适应巡航系统模型与动力系统模型;S2、利用多目标深度强化学习算法,建立基于多目标深度强化学习算法的混合动力汽车跟驰场景下的能耗优化方法;S3、基于神经网络,构建基于目标相对权重输入的条件网络;S4、将多目标深度强化学习算法应用于自适应巡航与能量管理协同优化,结合奖励权重抽样机制,建立基于多目标深度强化学习的混合动力汽车生态驾驶策略,提升车辆跟驰场景下能量管理的优化性能。2.根据权利要求1所述的方法,其特征在于,步骤S1具体如下:构建混合动力汽车自适应巡航系统模型与动力系统模型,其中,自适应巡航控制系统主要实现车辆跟驰模型重组,根据前车行驶工况动态变化,选择合适的跟车模型,包括Krauss车辆跟驰模型和智能驾驶模型;动力系统主要实现发动机
‑
发电机组和电池组间的能量协调,并考虑电池组老化问题,建立动力电池电热老化系统模型。3.根据权利要求1所述的方法,其特征在于,步骤S2具体如下:建立基于多目标深度强化学习算法的混合动力汽车跟驰场景下的能耗优化方法可看作马尔可夫决策过程,包括以下步骤:S21、定义深度强化学习中的状态、动作、多目标奖励函数、最优动作
‑
值函数以及最优控制策略;S22、深度强化学习agent接收环境观测值,并根据当前控制策略对执行一个动作;S23、环境对此动作做出响应,又进入一个新的状态,并将新的状态和此动作所带来的奖励返回深度强化学习agent;S24、在新的状态中,agent又将继续执行动作,以此类推,深度强化学习agent与环境不断地交互,直到得到最优动作
‑
值函数以及最优控制策略。4.根据权利要求3所述的一种基于多目标深度强化学习的混合动力汽车生态驾驶方法,其特征在于,步骤S21具体为:确定深度强化学习中的状态和动作,多目标奖励函数、最优动作
‑
值函数以及最优控制策略;具体包括:状态分别为当前时刻主车的车速、当前时刻主车加速度、当前时刻主车行驶距离、当前时刻前车的车速、当前时刻前车加速度、当前时刻前车行驶距离、当前时刻车辆跟驰距离、当前时刻发动机功率、动力电池荷电状态SoC、动力电池健康状态SoH、电池内部平均温度以及电池容量衰减速率c;动作为跟驰行为模式和发动机功率;定义奖励函数,包含低油耗、SoC稳定性和SoH稳定性三部分,所述奖励函数reward的具体计算公式为:上式中,R(s,a)为在状态s下选择行动a的奖励函数向量,每个目标给予相应权重;R1(s,a)为奖励函数reward1;R2(s,a)为奖励函数reward2;R3(s,a)为奖励函数reward3;C
f
为发动机瞬时燃油消耗量;C
b
为电池充电成本;C
ag
为电池老化成本;M、V为标准化系数;最优动作
‑
值函数的具体计算公式为:Q
*
(s,a)=Q
π
(s,a)=maxE[R
t+1
+λQ
*
(s
t+1
,a
t+1
)|s
t
,a
t
]
ꢀꢀꢀꢀ
(2)
上式中,Q
π
(s,a)是在策略π状态s下选择行动a的动作
‑
值函数;s
t
,a
t
为时刻t下的状态,动作;s
t+1
,a
t+1
,R
t+1
为时刻t+1下的状态,动作以及奖励函数;λ∈[0,1]为折扣因子;最优控制策略π
*
满足具体计算公式为5.根据权利要求1所述的方法,其特征在于,步骤S3具体为:S31、建立基于目标相对权重输入的条件网络;S32、基于条件网络输出结果,定义控制动作选择策略;S33、采用多样经验回放,对近期未执行策略的权重向量进行经验取样。6.根据权利要求5所述的方法,其...
【专利技术属性】
技术研发人员:彭剑坤,范毅,余思辰,何洪文,吴京达,李志斌,马春野,
申请(专利权)人:东南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。