当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于强化学习的混合动力汽车模式切换控制方法技术

技术编号:35459258 阅读:10 留言:0更新日期:2022-11-03 12:23
本发明专利技术涉及一种基于强化学习的混合动力汽车模式切换控制方法,该方法包括:采用深度Q网络的强化学习算法对混合动力汽车的模式切换进行控制,以汽车的车速、需求功率、电池SOC等作为强化学习的状态,以汽车的模式切换作为动作变量,用采集的历史工况行驶数据对深度Q网络进行训练;从训练后的网络提取模式切换的控制规则,以应用于现实车辆的整车控制器。与现有技术相比,本发明专利技术采用深度Q学习算法控制车辆的模式切换,能够提高能量管理策略的自适应性,保证模式切换控制的可靠性和实时性。保证模式切换控制的可靠性和实时性。保证模式切换控制的可靠性和实时性。

【技术实现步骤摘要】
一种基于强化学习的混合动力汽车模式切换控制方法


[0001]本专利技术涉及混合动力汽车
,尤其是涉及一种基于强化学习的混合动力汽车模式切换控制方法。

技术介绍

[0002]混合动力汽车的动力源由电动机和内燃机组成,在提供动力时,可以具有不同的能量分配方式,从而形成混合动力汽车的不同模式,为整车控制器提供了设计自由度。能量管理策略作为混合动力汽车研发的核心技术之一,主要通过协调混合动力汽车发动机与电机之间的能量分配,以实现车辆在不同行驶工况下的能量分配。性能优良的能量管理策略对于充分发挥混合动力汽车的结构优势、提高燃油经济性、实现环境的可持续发展而言,具有重要意义。
[0003]目前,能量管理策略包括基于规则的能量管理策略和基于优化的能量管理策略。其中,基于规则的能量管理策略可细分为确定性规则和模糊规则,基于优化的能量管理策略则可细分为全局优化和瞬时优化。基于规则的能量管理策略以其简单、可靠、可解释性强等优点被广泛应用于实车能量管理中,然而,这种能源管理策略的制定依赖于经验,对工况的适应性较差;基于优化的能量管理策略尽管理论上可在已知工况的情况下得到最优的能量管理,然而,考虑到汽车实际工作环境是复杂多变的,这在一定程度上限制了它的广泛应用。若无法实现最优的能量管理策略,将导致汽车模式切换控制不能满足可靠性和实时性要求。

技术实现思路

[0004]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于强化学习的混合动力汽车模式切换控制方法,采用深度Q学习算法控制车辆的模式切换,能够提高能量管理策略的自适应性,保证模式切换控制的可靠性和实时性。
[0005]本专利技术的目的可以通过以下技术方案来实现:一种基于强化学习的混合动力汽车模式切换控制方法,包括以下步骤:
[0006]S1、获取混合动力汽车的历史行驶数据,并对历史行驶数据进行预处理;
[0007]S2、构建深度Q学习网络,基于预处理后的历史行驶数据,对深度Q学习网络进行训练,得到训练好的智能体;
[0008]S3、从智能体提取出控制规则;
[0009]S4、将提取的控制规则应用于整车控制器,采集混合动力汽车的实际行驶数据,结合控制规则,输出得到最优能量管理策略;
[0010]S5、根据最优能量管理策略,相应控制混合动力汽车的模式切换。
[0011]进一步地,所述行驶数据包括车速和SOC信息,所述行驶数据具体由传感器采集得到。
[0012]进一步地,所述步骤S1中对历史行驶数据进行预处理的具体过程为:
[0013]建立车辆能量需求模型;
[0014]将历史车速数据输入车辆能量需求模型,输出得到对应的功率需求数据。
[0015]进一步地,所述车辆能量需求模型具体为:
[0016][0017]其中,F
req
为汽车需求的驱动力,Cd为风阻系数,A为迎风面积,v为车速,m为整车质量,g为重力加速度,θ为道路坡度,f为滚阻系数,t为时间。
[0018]进一步地,所述步骤S2中深度Q学习网络的状态包括汽车功率需求、电池系统SOC以及车速,所述深度Q学习网络的动作具体为车辆的模式切换,所述深度Q学习网络强化学习的奖励函数具体为瞬时油耗、瞬时电耗、实际SOC超出设定运行范围时的惩罚。
[0019]进一步地,所述深度Q学习网络的状态变量具体为:
[0020]S
t
∈{(SOC
t
,v

t
,p

t
)|0≤SOC
t
≤1,0≤v

t
≤1,

1≤p

t
≤1}
[0021]其中,S为状态,v

为标准化后的速度变量,p

为标准化的功率需求,t为时间。
[0022]进一步地,所述标准化后的速度变量具体是将实时速度除以最大速度后得到;
[0023]所述标准化的功率需求具体是将实时功率需求除以最大的功率需求绝对值后得到。
[0024]进一步地,所述深度Q学习网络的奖励函数具体为:
[0025][0026]其中,为瞬时油耗,为瞬时电耗,λ1、λ2、α为惩罚系数,high和low分别为SOC范围的上下限标志。
[0027]进一步地,所述步骤S2具体是将汽车行驶数据与车辆的能量需求模型作为强化学习智能体的外部环境,通过智能体与环境的互动来训练深度Q学习网络。
[0028]进一步地,所述控制规则具体是以状态变量为索引的表格。
[0029]与现有技术相比,本专利技术具有以下优点:
[0030]一、本专利技术采用深度Q学习算法控制车辆的模式切换,通过构建深度Q学习网络,对汽车的车速、SOC以及功率需求进行离散化,强化学习通过智能体与环境的交互来学习经验,并以此来改善能量管理策略,具有自学习、自适应的特点,由此既能够简化强化学习的动作空间、提高训练速度,同时也解决了目前能量管理策略自适应性差的缺陷,使能量管理策略具有一定的自学习能力,保证模式切换控制的可靠性。
[0031]二、本专利技术从训练后的智能体提取以状态变量为索引的控制规则,以应用于整车控制器,即将经过训练的强化学习智能体转化为基于规则的能量管理策略,可直接用于实际车辆的控制,结合了强化学习算法自学习的优点和基于规则的能量管理策略的实时性能,进一步保证了控制的自适应和实时性。
附图说明
[0032]图1为本专利技术的方法流程示意图;
[0033]图2为本专利技术中深度Q学习网络的训练过程示意图;
[0034]图3为实施例中车辆实际运行时的控制原理示意图;
[0035]图4为实施例中的应用框架示意图。
具体实施方式
[0036]下面结合附图和具体实施例对本专利技术进行详细说明。
[0037]实施例
[0038]如图1所示,一种基于强化学习的混合动力汽车模式切换控制方法,包括以下步骤:
[0039]S1、获取混合动力汽车的历史行驶数据,并对历史行驶数据进行预处理;
[0040]S2、构建深度Q学习网络,基于预处理后的历史行驶数据,对深度Q学习网络进行训练,得到训练好的智能体;
[0041]S3、从智能体提取出控制规则;
[0042]S4、将提取的控制规则应用于整车控制器,采集混合动力汽车的实际行驶数据,结合控制规则,输出得到最优能量管理策略;
[0043]S5、根据最优能量管理策略,相应控制混合动力汽车的模式切换。
[0044]本实施例应用上述技术方案,如图2~图4所示,主要包括:
[0045]利用传感器采集实际混合动力汽车在现实世界行驶过程中的数据,具体包括车辆的车速随时间变化的信息,SOC信息等,并将其作为车辆能量需求模型的输入;
[0046]预先建立车辆的能量需求模型,考虑汽车纵向动力学,包括滚动阻力、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的混合动力汽车模式切换控制方法,其特征在于,包括以下步骤:S1、获取混合动力汽车的历史行驶数据,并对历史行驶数据进行预处理;S2、构建深度Q学习网络,基于预处理后的历史行驶数据,对深度Q学习网络进行训练,得到训练好的智能体;S3、从智能体提取出控制规则;S4、将提取的控制规则应用于整车控制器,采集混合动力汽车的实际行驶数据,结合控制规则,输出得到最优能量管理策略;S5、根据最优能量管理策略,相应控制混合动力汽车的模式切换。2.根据权利要求1所述的一种基于强化学习的混合动力汽车模式切换控制方法,其特征在于,所述行驶数据包括车速和SOC信息,所述行驶数据具体由传感器采集得到。3.根据权利要求2所述的一种基于强化学习的混合动力汽车模式切换控制方法,其特征在于,所述步骤S1中对历史行驶数据进行预处理的具体过程为:建立车辆能量需求模型;将历史车速数据输入车辆能量需求模型,输出得到对应的功率需求数据。4.根据权利要求3所述的一种基于强化学习的混合动力汽车模式切换控制方法,其特征在于,所述车辆能量需求模型具体为:其中,F
req
为汽车需求的驱动力,Cd为风阻系数,A为迎风面积,v为车速,m为整车质量,g为重力加速度,θ为道路坡度,f为滚阻系数,t为时间。5.根据权利要求3所述的一种基于强化学习的混合动力汽车模式切换控制方法,其特征在于,所述步骤S2中深度Q学习网络的状态包括汽车功率需求、电池系统SOC以及车速,所述深度Q学习网络的动作具体为车辆的模式切换,所述深度Q学习网络强化学习的奖励函数具体为瞬时油耗、瞬时电耗、实际SOC超出设定运行范围时的惩罚。6.根据...

【专利技术属性】
技术研发人员:郭荣孙自艺
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1