【技术实现步骤摘要】
基于深度强化学习的移动能源网络实时能量管理方法及系统
[0001]本专利技术涉及电气工程与计算机科学领域,具体地,涉及基于深度强化学习的移动能源网络实时能量管理方法。
技术介绍
[0002]随着减排政策的日趋严格,以电动汽车、电气化船舶、移动储能车为代表的移动能源网络成为交通电气化不可逆转的趋势。得益于电力推进技术与综合电力系统的不断发展,电气化船舶、电动汽车的渗透率正在逐步提升。传统交通工具运行模式中,人为操控起着至关重要的作用,而随着移动能源网络复杂性不断提高,智能化成为移动能源网络发展的必然趋势。
[0003]目前,移动能源网络的能量管理大多基于对能源和负荷的准确预测,侧重于建立全航程的数学优化模型,未能将航行过程中的实时动态变化因素考虑在内。但实时航行时,由于环境的复杂性和不确定性,移动能源网络自身能源系统和所处环境均处于动态变化的过程中,准确预测在实际场景中很难实现。移动能源网络的实时能量管理系统需增强对负荷变化的适应性和能量调控的灵活性。
[0004]专利文献CN114498753A(申请号:202210160754.8)公开了一种数据驱动的低碳船舶微电网实时能量管理方法,首先,通过预测误差拟合、等概率逆变换场景集生成、同步回代法场景集削减建立考虑预测误差时序相关性的船舶净负荷场景集;其次,结合场景集信息及滚动优化、反馈校正机制,建立各场景下控制动作运行成本与荷电状态偏离惩罚成本之和期望最小的随机模型预测控制能量管理模型;随后,基于随机模型预测控制生成大量训练数据样本,训练随机森林算法对数
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,包括:步骤S1:基于马尔科夫决策过程表征全电力船舶的实时能量调控过程,包括:状态空间、动作空间以及奖励函数;步骤S2:构建表示动作价值函数的Q网络模型,并利用状态空间、动作空间以及奖励函数采用DQN算法训练Q网络模型;步骤S3:基于当前状态空间通过训练后的Q网络模型选择决策动作,实现船舶的实时能量管理智能决策;所述Q网络模型是通过神经网络的输入输出拟合船舶期望做出最优能量管理智能决策的这一行为过程,实现了从状态空间到动作空间的映射,达到了依据船舶运行的实时状态进行最优能量管理的目的。2.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,所述状态空间采用:其中,表示t时段的船速;表示t时段的船速加速度;表示t时段的生活服务负荷的功率需求;SOC
t
表示t时段储能系统的荷电状态;所述动作空间采用:A
t
={ratio
t
}其中,其中,表示t时段柴油发电机组的输出功率;P
GN
表示柴油发电机组的额定功率;ratio
t
在0到1的范围内离散化取值;当ratio
t
等于1时,表示柴油发电机组按最大功率运行;ratio
t
等于0时表示此时柴油发电机组空载运行,由储能系统提供全部负荷支撑;所述奖励函数采用:智能决策系统做出决策动作A
t
,储能系统荷电状态由SOC
t
变为SOC
t+1
,若SOC
t+1
超出规定的荷电状态上下限,则获得SOC
t+1
和SOC
t
的变化趋势,若变化趋势和期望相反,则通过奖励函数施加惩罚;当SOC
t+1
<0或SOC
t+1
>1时:r
t
=
‑
C其中,r
t
表示智能决策系统做出决策动作A
t
后获得的奖励值;C表示正数;当0≤SOC
t+1
<SOC
region_L
时:其中,SOC
region_L
表示储能系统荷电状态安全区间的下限;|ΔSOC
max
|表示一个时间段储能系统荷电状态最大变化量的绝对值;当SOC
region_H
≤SOC
t+1
<1时:
其中,SOC
region_H
表示储能系统荷电状态安全区间的上限;当SOC
region_L
≤SOC
t+1
<SOC
region_H
时,表示荷电状态在安全区间时,奖励函数根据柴油发电机组燃油效率最佳运行点设计奖励函数:其中,和β为拟合参数,使得此时r
t
的取值大致在[
‑
1,1]的区间内变化,ratio
opt
为柴油发电机组燃油效率最佳运行点。3.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,所述Q网络模型采用:其中,t表示时间,G
t
表示t时段的回报,S
t
表示t时段的状态,A
t
表示t时段智能决策系统做出的决策动作,R
t+k
表示t+k时段的奖励;E
π
表示在策略π下求期望,γ表示折扣因子。4.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,所述步骤S2采用:步骤S2.1:初始化当前Q网络模型Q
ω
(s,a),并采用相同参数初始化目标网络步骤S2.2:初始化经验回放池R;步骤S2.3:基于马尔科夫决策序列获取初始状态s1;步骤S2.4:根据当前网络Q
ω
(s,a)以ε
‑
贪婪策略选择当前状态s
t
下的动作a
t
,执行动作a
t
,获得奖励r
t
,环境状态变化为s
t+1
;将(s
t
,a
t
,r
t
,s
t+1
)存储到经验回放池中;重复触发步骤S2.4,当经验回放池中数据满足预设要求时,则采样N个数据{(s
i
,a
i
,r
i
,s
′
i
)}
i=1,...,N
;对于每个数据利用目标网络计算损失函数,并通过随机梯度下降算法最小化损失,更新当前网络Q
ω
(s,a)的参数;每隔一定的时间将当前网络的参数同步至目标网络;重复触发步骤S2.4,直至当前马尔科夫决策序列为终止状态;获取新的马尔科夫决策序列,重复触发步骤S2.3至步骤S2.4,直至训练完毕。5.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,所述步骤S2.4采用:利用目标网络计算其中,γ表示折扣因子;计算损失函数:6.一种基于深度强化学习的...
【专利技术属性】
技术研发人员:文书礼,顾明昌,叶惠丽,朱淼,董晊兴,马建军,江昇,潘春阳,徐莉婷,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。