基于深度强化学习的移动能源网络实时能量管理方法及系统技术方案

技术编号:38391123 阅读:15 留言:0更新日期:2023-08-05 17:44
本发明专利技术提供了一种基于深度强化学习的移动能源网络实时能量管理方法及系统,包括:步骤S1:基于马尔科夫决策过程表征全电力船舶的实时能量调控过程,包括:状态空间、动作空间以及奖励函数;步骤S2:构建表示动作价值函数的Q网络模型,并利用状态空间、动作空间以及奖励函数采用DQN算法训练Q网络模型;步骤S3:基于当前状态空间通过训练后的Q网络模型选择决策动作,实现船舶的实时能量管理智能决策;所述Q网络模型是通过神经网络的输入输出拟合船舶期望做出最优能量管理智能决策的这一行为过程,实现了从状态空间到动作空间的映射,达到了依据船舶运行的实时状态进行最优能量管理的目的。的目的。的目的。

【技术实现步骤摘要】
基于深度强化学习的移动能源网络实时能量管理方法及系统


[0001]本专利技术涉及电气工程与计算机科学领域,具体地,涉及基于深度强化学习的移动能源网络实时能量管理方法。

技术介绍

[0002]随着减排政策的日趋严格,以电动汽车、电气化船舶、移动储能车为代表的移动能源网络成为交通电气化不可逆转的趋势。得益于电力推进技术与综合电力系统的不断发展,电气化船舶、电动汽车的渗透率正在逐步提升。传统交通工具运行模式中,人为操控起着至关重要的作用,而随着移动能源网络复杂性不断提高,智能化成为移动能源网络发展的必然趋势。
[0003]目前,移动能源网络的能量管理大多基于对能源和负荷的准确预测,侧重于建立全航程的数学优化模型,未能将航行过程中的实时动态变化因素考虑在内。但实时航行时,由于环境的复杂性和不确定性,移动能源网络自身能源系统和所处环境均处于动态变化的过程中,准确预测在实际场景中很难实现。移动能源网络的实时能量管理系统需增强对负荷变化的适应性和能量调控的灵活性。
[0004]专利文献CN114498753A(申请号:202210160754.8)公开了一种数据驱动的低碳船舶微电网实时能量管理方法,首先,通过预测误差拟合、等概率逆变换场景集生成、同步回代法场景集削减建立考虑预测误差时序相关性的船舶净负荷场景集;其次,结合场景集信息及滚动优化、反馈校正机制,建立各场景下控制动作运行成本与荷电状态偏离惩罚成本之和期望最小的随机模型预测控制能量管理模型;随后,基于随机模型预测控制生成大量训练数据样本,训练随机森林算法对数据样本进行多变量回归;分别得到低、中、高三种不同功率等级负荷下的数据驱动随机模型预测控制实时能量管理策略。该专利针对船舶微电网提出了一种基于数据驱动的实时能量管理方法。该方法着眼于船舶负荷的准确预测,并通过数学优化模型求解得到控制变量,然而准确预测往往难以实现,此外该专利也未考虑船速动态变化对船舶实时能量调控的影响。而本专利技术所提方案无需事先进行负荷的准确预测,训练好的船舶智能体能够基于船速和负荷的动态变化实时地优化出柴油发电机组和储能的功率分配。
[0005]Y.Hu,W.Li,K.Xu,T.Zahid,F.Qin,and C.Li,“Energy Management Strategy for a Hybrid Electric Vehicle Based on Deep Reinforcement Learning,”Applied Sciences,vol.8,no.2,p.187,Jan.2018.该文献利用深度强化学习研究了混合动力汽车的实时能量管理策略。该方法能够根据数据输入自主学习最优策略,然而该文献中状态空间、动作空间以及奖励函数的设计并不适用于全电力船舶。本专利技术根据全电力船舶能源系统的特点设计了相应的状态空间、动作空间以及奖励函数,能够有效解决全电力船舶的实时能量管理问题。
[0006]Kumar S.Deep Reinforcement learning based energy management in marine hybrid vehicle[D].NTNU,2021.该文献基于深度强化学习研究了混合动力船舶的实时能
量管理策略。然而该文献对于船舶航行过程中的动态变化因素考虑不够全面,仅考虑了负荷的不确定性,并未考虑船速变化对实时能量管理智能决策系统的影响。本专利技术将船舶航速以及加速度等状态变量考虑在内,能够更好地识别船舶航行的动态变化规律,进一步提升了船舶航行的智能决策水平。
[0007]为了实现移动能源网络实时的能量优化调控,提高移动能源网络航行过程中的智能决策水平并减少燃油消耗,本专利技术基于深度强化学习思想,提出移动能源网络实时能量管理方法,可以大幅度提升移动能源网络运行效率。

技术实现思路

[0008]针对现有技术中的缺陷,本专利技术的目的是提供一种基于深度强化学习的移动能源网络实时能量管理方法及系统。
[0009]根据本专利技术提供的一种基于深度强化学习的移动能源网络实时能量管理方法,包括:
[0010]步骤S1:基于马尔科夫决策过程表征全电力船舶的实时能量调控过程,包括:状态空间、动作空间以及奖励函数;
[0011]步骤S2:构建表示动作价值函数的Q网络模型,并利用状态空间、动作空间以及奖励函数采用DQN算法训练Q网络模型;
[0012]步骤S3:基于当前状态空间通过训练后的Q网络模型选择决策动作,实现船舶的实时能量管理智能决策;
[0013]所述Q网络模型是通过神经网络的输入输出拟合船舶期望做出最优能量管理智能决策的这一行为过程,实现了从状态空间到动作空间的映射,达到了依据船舶运行的实时状态进行最优能量管理的目的。
[0014]优选地,所述状态空间采用:
[0015][0016]其中,表示t时段的船速;表示t时段的船速加速度;表示t时段的生活服务负荷的功率需求;SOC
t
表示t时段储能系统的荷电状态;
[0017]所述动作空间采用:
[0018]A
t
={ratio
t
}
[0019]其中,其中,表示t时段柴油发电机组的输出功率;P
GN
表示柴油发电机组的额定功率;ratio
t
在0到1的范围内离散化取值;当ratio
t
等于1时,表示柴油发电机组按最大功率运行;ratio
t
等于0时表示此时柴油发电机组空载运行,由储能系统提供全部负荷支撑;
[0020]所述奖励函数采用:
[0021]智能决策系统做出决策动作A
t
,储能系统荷电状态由SOC
t
变为SOC
t+1
,若SOC
t+1
超出规定的荷电状态上下限,则获得SOC
t+1
和SOC
t
的变化趋势,若变化趋势和期望相反,则通过奖励函数施加惩罚;
[0022]当SOC
t+1
<0或SOC
t+1
>1时:
[0023]r
t


C
[0024]其中,r
t
表示智能决策系统做出决策动作A
t
后获得的奖励值;C表示正数;
[0025]当0≤SOC
t+1
<SOC
region_L
时:
[0026][0027]其中,SOC
region_L
表示储能系统荷电状态安全区间的下限;|ΔSOC
max
|表示一个时间段储能系统荷电状态最大变化量的绝对值;
[0028]当SOC
region_H
≤SOC
t+1
<1时:
[0029][0030]其中,SOC
region_H...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,包括:步骤S1:基于马尔科夫决策过程表征全电力船舶的实时能量调控过程,包括:状态空间、动作空间以及奖励函数;步骤S2:构建表示动作价值函数的Q网络模型,并利用状态空间、动作空间以及奖励函数采用DQN算法训练Q网络模型;步骤S3:基于当前状态空间通过训练后的Q网络模型选择决策动作,实现船舶的实时能量管理智能决策;所述Q网络模型是通过神经网络的输入输出拟合船舶期望做出最优能量管理智能决策的这一行为过程,实现了从状态空间到动作空间的映射,达到了依据船舶运行的实时状态进行最优能量管理的目的。2.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,所述状态空间采用:其中,表示t时段的船速;表示t时段的船速加速度;表示t时段的生活服务负荷的功率需求;SOC
t
表示t时段储能系统的荷电状态;所述动作空间采用:A
t
={ratio
t
}其中,其中,表示t时段柴油发电机组的输出功率;P
GN
表示柴油发电机组的额定功率;ratio
t
在0到1的范围内离散化取值;当ratio
t
等于1时,表示柴油发电机组按最大功率运行;ratio
t
等于0时表示此时柴油发电机组空载运行,由储能系统提供全部负荷支撑;所述奖励函数采用:智能决策系统做出决策动作A
t
,储能系统荷电状态由SOC
t
变为SOC
t+1
,若SOC
t+1
超出规定的荷电状态上下限,则获得SOC
t+1
和SOC
t
的变化趋势,若变化趋势和期望相反,则通过奖励函数施加惩罚;当SOC
t+1
<0或SOC
t+1
>1时:r
t


C其中,r
t
表示智能决策系统做出决策动作A
t
后获得的奖励值;C表示正数;当0≤SOC
t+1
<SOC
region_L
时:其中,SOC
region_L
表示储能系统荷电状态安全区间的下限;|ΔSOC
max
|表示一个时间段储能系统荷电状态最大变化量的绝对值;当SOC
region_H
≤SOC
t+1
<1时:
其中,SOC
region_H
表示储能系统荷电状态安全区间的上限;当SOC
region_L
≤SOC
t+1
<SOC
region_H
时,表示荷电状态在安全区间时,奖励函数根据柴油发电机组燃油效率最佳运行点设计奖励函数:其中,和β为拟合参数,使得此时r
t
的取值大致在[

1,1]的区间内变化,ratio
opt
为柴油发电机组燃油效率最佳运行点。3.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,所述Q网络模型采用:其中,t表示时间,G
t
表示t时段的回报,S
t
表示t时段的状态,A
t
表示t时段智能决策系统做出的决策动作,R
t+k
表示t+k时段的奖励;E
π
表示在策略π下求期望,γ表示折扣因子。4.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,所述步骤S2采用:步骤S2.1:初始化当前Q网络模型Q
ω
(s,a),并采用相同参数初始化目标网络步骤S2.2:初始化经验回放池R;步骤S2.3:基于马尔科夫决策序列获取初始状态s1;步骤S2.4:根据当前网络Q
ω
(s,a)以ε

贪婪策略选择当前状态s
t
下的动作a
t
,执行动作a
t
,获得奖励r
t
,环境状态变化为s
t+1
;将(s
t
,a
t
,r
t
,s
t+1
)存储到经验回放池中;重复触发步骤S2.4,当经验回放池中数据满足预设要求时,则采样N个数据{(s
i
,a
i
,r
i
,s

i
)}
i=1,...,N
;对于每个数据利用目标网络计算损失函数,并通过随机梯度下降算法最小化损失,更新当前网络Q
ω
(s,a)的参数;每隔一定的时间将当前网络的参数同步至目标网络;重复触发步骤S2.4,直至当前马尔科夫决策序列为终止状态;获取新的马尔科夫决策序列,重复触发步骤S2.3至步骤S2.4,直至训练完毕。5.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,所述步骤S2.4采用:利用目标网络计算其中,γ表示折扣因子;计算损失函数:6.一种基于深度强化学习的...

【专利技术属性】
技术研发人员:文书礼顾明昌叶惠丽朱淼董晊兴马建军江昇潘春阳徐莉婷
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1