当前位置: 首页 > 专利查询>东南大学专利>正文

基于多目标深度强化学习的混合动力汽车生态驾驶方法技术

技术编号:37879300 阅读:6 留言:0更新日期:2023-06-15 21:07
本发明专利技术公开了一种基于多目标深度强化学习的混合动力汽车生态驾驶方法,属于深度强化学习技术领域。包括如下步骤:构建混合动力汽车自适应巡航系统(ACC)与动力系统的模型;利用MODRL算法,建立基于MODRL的混合动力汽车跟驰场景下的能耗优化方法;进一步利用条件网络(CN),建立每个优化目标对应权重的输入网络,从而将MODRL算法首次应用于混合动力汽车多系统协同优化,结合奖励权重抽样机制,实现多目标权重的自适应选择。本发明专利技术所提出的方法能够解决混合动力汽车生态驾驶涉及的多目标权衡问题,从而在提升驾驶和动力性能的同时缩短开发周期。发周期。发周期。

【技术实现步骤摘要】
基于多目标深度强化学习的混合动力汽车生态驾驶方法


[0001]本专利技术属于深度强化学习
,更具体地说,涉及一种基于多目标深度强化学习的混合动力汽车生态驾驶方法。

技术介绍

[0002]随着全球变暖与化石燃料的广泛使用,世界各国都将环境保护作为当前时代的首要任务之一。交通运输领域的能源消耗占全球能源消耗的20%,提供了全球四分之一的碳排放量。混合动力汽车(HEV)的使用清洁、经济和环保的电能作为汽车驱动能源之一,HEV的推广有望缓解污染气体的过度排放。HEV配置改进的投资周期通常以年为单位,并且效益有限。生态驾驶技术落地时间短,前期投资少,但其对燃油效率的增幅却高达45%。因此,推广应用生态驾驶技术,改善汽车驾驶策略,可有效提升汽车能量管理性能。关于能量管理策略(EMS)和自适应巡航控制系统(ACC)的协同优化是当前生态驾驶领域的研究热点,EMS通过动力传统系统中各组件的协调来提高燃油经济性,ACC通过帮助驾驶员实时调整车辆速度或跟驰距离来提高驾驶安全性和舒适性。
[0003]现如今,自主学习的方法逐渐成为解决优化问题的首选方法。深度强化学习(DRL)是一种将深度学习(DL)与强化学习(RL)相结合的方法,同时具备深度学习强大的表征能力和强化学习的强大推理能力,深度神经网络(DNN)显著降低了对领域知识的依赖性。随着DRL在EMS和ACC领域的普及,基于DRL的生态驾驶策略被相应提出。但通过单目标DRL来解决问题,一方面需要额外的时间和精力来手动确定奖励权重;另一方面,从某一权重向量的最优策略中获得的经验缓冲区可能对其他权重向量产生不利。近些年来,多目标深度强化学习(MODRL)的研究取得一定进展,以目标相对权重为输入条件的深度Q

learning网络(DQN),即条件网络(CN),可以有效解决多目标权衡和高维输入问题,这对于实现生态驾驶非常有益。因此,利用基于MODRL的生态驾驶策略实现混合动力汽车生态驾驶的多目标动态权衡,可在线实时控制车辆的功率分配,有效提高生态驾驶策略整体效益。

技术实现思路

[0004]为了解决上述本领域中存在的技术问题,本专利技术提供了一种基于多目标深度强化学习的混合动力汽车生态驾驶方法。构建基于EMS和ACC协同优化的生态驾驶策略,将电池退化成本纳入优化目标,通过基于CN的深度学习模型,结合奖励权重抽样机制,在线实时调整各目标权重,优化汽车的能量管理策略,适宜切换跟驰模型,实现生态驾驶效益最大化。
[0005]为了解决上述技术问题至少之一,根据本专利技术的一方面,提供了一种基于多目标深度强化学习的混合动力汽车生态驾驶方法,包括如下步骤:
[0006]S1、构建混合动力汽车自适应巡航系统模型与动力系统模型;
[0007]S2、利用多目标深度强化学习算法,建立基于多目标深度强化学习算法的混合动力汽车跟驰场景下的能耗优化方法;
[0008]S3、基于神经网络,构建基于目标相对权重输入的条件网络;
[0009]S4、将多目标深度强化学习算法应用于自适应巡航与能量管理协同优化,结合奖励权重抽样机制,建立基于多目标深度强化学习的混合动力汽车生态驾驶策略,提升车辆跟驰场景下能量管理的优化性能。
[0010]根据本专利技术实施例的基于多目标深度强化学习的混合动力汽车生态驾驶方法,可选地,步骤S1具体如下:
[0011]构建混合动力汽车自适应巡航系统模型与动力系统模型,其中,自适应巡航控制系统主要实现车辆跟驰模型重组,根据前车行驶工况动态变化,选择合适的跟车模型,包括Krauss车辆跟驰模型和智能驾驶模型(IDM);动力系统主要实现发动机

发电机组(EGS)和电池组间的能量协调,并考虑电池组老化问题,建立动力电池电热老化系统模型。
[0012]根据本专利技术实施例的基于多目标深度强化学习的混合动力汽车生态驾驶方法,可选地,步骤S2具体如下:
[0013]建立基于多目标深度强化学习算法的混合动力汽车跟驰场景下的能耗优化方法可看作马尔可夫决策过程,包括以下步骤:
[0014]S21、定义深度强化学习中的状态、动作、多目标奖励函数、最优动作

值函数以及最优控制策略;
[0015]S22、深度强化学习agent接收环境观测值,并根据当前控制策略对执行一个动作;
[0016]S23、环境对此动作做出响应,又进入一个新的状态,并将新的状态和此动作所带来的奖励返回深度强化学习agent;
[0017]S24、在新的状态中,agent又将继续执行动作,以此类推,深度强化学习agent与环境不断地交互,直到得到最优动作

值函数(多目标Q值向量)以及最优控制策略。
[0018]根据本专利技术实施例的基于多目标深度强化学习的混合动力汽车生态驾驶方法,可选地,步骤S21具体为:
[0019]确定深度强化学习中的状态和动作,多目标奖励函数、最优动作

值函数以及最优控制策略;具体包括:状态分别为当前时刻主车的车速、当前时刻主车加速度、当前时刻主车行驶距离、当前时刻前车的车速、当前时刻前车加速度、当前时刻前车行驶距离、当前时刻车辆跟驰距离、当前时刻发动机功率、动力电池荷电状态SoC、动力电池健康状态SoH、电池内部平均温度以及电池容量衰减速率c;动作为跟驰行为模式和发动机功率;定义奖励函数,包含低油耗、SoC稳定性和SoH稳定性三部分,所述奖励函数reward的具体计算公式为:
[0020][0021]上式中,R(s,a)为在状态s下选择行动a的奖励函数向量,每个目标给予相应权重;R1(s,a)为奖励函数reward 1;R2(s,a)为奖励函数reward 2;R3(s,a)为奖励函数reward 3;C
f
为发动机瞬时燃油消耗量;C
b
为电池充电成本;C
ag
为电池老化成本;M、V为标准化系数;
[0022]最优动作

值函数的具体计算公式为:
[0023]Q
*
(s,a)=Q
π
(s,a)=maxE[R
t+1
+λQ
*
(s
t+1
,a
t+1
)|s
t
,a
t
]ꢀꢀ
(2)
[0024]上式中,Q
π
(s,a)是在策略π状态s下选择行动a的动作

值函数;s
t
,a
t
为时刻t下的状态,动作;s
t+1
,a
t+1
,R
t+1
为时刻t+1下的状态,动作以及奖励函数;λ∈[0,1]为折扣因子;
[0025]最优控制策略π
*
满足具体计算公式为
[0026][0027]根据本专利技术实施例的基于多目标深度强化学习的混合动力汽车生态驾驶方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多目标深度强化学习的混合动力汽车生态驾驶方法,其特征在于,包括如下步骤:S1、构建混合动力汽车自适应巡航系统模型与动力系统模型;S2、利用多目标深度强化学习算法,建立基于多目标深度强化学习算法的混合动力汽车跟驰场景下的能耗优化方法;S3、基于神经网络,构建基于目标相对权重输入的条件网络;S4、将多目标深度强化学习算法应用于自适应巡航与能量管理协同优化,结合奖励权重抽样机制,建立基于多目标深度强化学习的混合动力汽车生态驾驶策略,提升车辆跟驰场景下能量管理的优化性能。2.根据权利要求1所述的方法,其特征在于,步骤S1具体如下:构建混合动力汽车自适应巡航系统模型与动力系统模型,其中,自适应巡航控制系统主要实现车辆跟驰模型重组,根据前车行驶工况动态变化,选择合适的跟车模型,包括Krauss车辆跟驰模型和智能驾驶模型;动力系统主要实现发动机

发电机组和电池组间的能量协调,并考虑电池组老化问题,建立动力电池电热老化系统模型。3.根据权利要求1所述的方法,其特征在于,步骤S2具体如下:建立基于多目标深度强化学习算法的混合动力汽车跟驰场景下的能耗优化方法可看作马尔可夫决策过程,包括以下步骤:S21、定义深度强化学习中的状态、动作、多目标奖励函数、最优动作

值函数以及最优控制策略;S22、深度强化学习agent接收环境观测值,并根据当前控制策略对执行一个动作;S23、环境对此动作做出响应,又进入一个新的状态,并将新的状态和此动作所带来的奖励返回深度强化学习agent;S24、在新的状态中,agent又将继续执行动作,以此类推,深度强化学习agent与环境不断地交互,直到得到最优动作

值函数以及最优控制策略。4.根据权利要求3所述的一种基于多目标深度强化学习的混合动力汽车生态驾驶方法,其特征在于,步骤S21具体为:确定深度强化学习中的状态和动作,多目标奖励函数、最优动作

值函数以及最优控制策略;具体包括:状态分别为当前时刻主车的车速、当前时刻主车加速度、当前时刻主车行驶距离、当前时刻前车的车速、当前时刻前车加速度、当前时刻前车行驶距离、当前时刻车辆跟驰距离、当前时刻发动机功率、动力电池荷电状态SoC、动力电池健康状态SoH、电池内部平均温度以及电池容量衰减速率c;动作为跟驰行为模式和发动机功率;定义奖励函数,包含低油耗、SoC稳定性和SoH稳定性三部分,所述奖励函数reward的具体计算公式为:上式中,R(s,a)为在状态s下选择行动a的奖励函数向量,每个目标给予相应权重;R1(s,a)为奖励函数reward1;R2(s,a)为奖励函数reward2;R3(s,a)为奖励函数reward3;C
f
为发动机瞬时燃油消耗量;C
b
为电池充电成本;C
ag
为电池老化成本;M、V为标准化系数;最优动作

值函数的具体计算公式为:Q
*
(s,a)=Q
π
(s,a)=maxE[R
t+1
+λQ
*
(s
t+1
,a
t+1
)|s
t
,a
t
]
ꢀꢀꢀꢀ
(2)
上式中,Q
π
(s,a)是在策略π状态s下选择行动a的动作

值函数;s
t
,a
t
为时刻t下的状态,动作;s
t+1
,a
t+1
,R
t+1
为时刻t+1下的状态,动作以及奖励函数;λ∈[0,1]为折扣因子;最优控制策略π
*
满足具体计算公式为5.根据权利要求1所述的方法,其特征在于,步骤S3具体为:S31、建立基于目标相对权重输入的条件网络;S32、基于条件网络输出结果,定义控制动作选择策略;S33、采用多样经验回放,对近期未执行策略的权重向量进行经验取样。6.根据权利要求5所述的方法,其...

【专利技术属性】
技术研发人员:彭剑坤范毅余思辰何洪文吴京达李志斌马春野
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1