一种基于强化学习方法的主动配电网故障恢复方法技术

技术编号:31710822 阅读:32 留言:0更新日期:2022-01-01 11:14
本发明专利技术公开了一种基于强化学习方法的主动配电网故障恢复方法,通过DDPG网络模型对孤岛结构进行配电,包括以下步骤:步骤1:初始化网络参数;步骤2:基于状态s

【技术实现步骤摘要】
一种基于强化学习方法的主动配电网故障恢复方法


[0001]本专利技术属于配网
,具体涉及一种基于深度强化学习算法及源荷不确定性的主动配电网恢复方法。

技术介绍

[0002]强化学习是一类特殊的机器学习算法,要解决的问题是决策主体在环境中怎样执行动作以获得最大的累计奖励。深度强化学习(DRL,deep reinforcement learning)是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端的学习。深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题。
[0003]随着用户对电能的依赖程度不断提高,人们越来越意识到主动配电网恢复能力的重要性。配电网是高效快捷的电能输送通道,在恶劣天气下配电网可能会遭受严重的破坏,电网一旦破坏定会造成无法估量的损失。在发生故障造成停电事故后,如何采取有效的应对措施,用现有资源实现配电网的快速恢复,对于电网的建设具有重要的现实意义。因此提高配电网的韧性响应成为研究的新方向。
[0004]目前对配电网故障恢复的研究有形成孤岛恢复供电以及通过开关倒闸操作进行重构来恢复供电,主要集中在孤岛划分的算法以及重构的算法上。在大电网停电的前提下,分布式电源和负荷形成安全可靠的孤岛结构,保证重要负荷能够供电不中断,提高供电可靠性。这已经成为故障恢复的一种重要处理方式。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供一种基于配电网中分布式能源出力、节点负荷的不确定性问题,可通过神经网络的训练,实现针对含分布式能源的配电网孤岛恢复的快速求解的基于强化学习方法的主动配电网故障恢复方法
[0006]本专利技术的目的是通过以下技术方案来实现的:一种基于强化学习方法的主动配电网故障恢复方法,分布式电源和负荷形成孤岛结构,通过DDPG网络模型对孤岛结构进行配电,具体包括以下步骤:
[0007]步骤1:初始化Actor当前网络参数θ
μ
和Critic当前网络参数θ
Q
;并将当前网络参数拷贝给对应的Actor目标网络参数θ
μ

和Critic目标网络参数θ
Q


[0008]步骤2:对每个学习回合中的时刻t,Actor当前网络基于状态s
t
得到动作a
t
,并下达给仿真环境执行该动作;
[0009]步骤3:执行动作a
t
,得到新状态s
t+1
和奖励r
t
,并将(s
t
,a
t
,r
t
,s
t+1
)存入经验回放集R,作为训练Actor网络和Critic网络的数据集;
[0010]步骤4:更新时间t=t+1,循环步骤2和步骤3,直到达到预设的最大的时刻T;
[0011]步骤5:从经验回放集合R中采样m个样本(s
i
,a
i
,r
i
,s
i+1
)作为Actor网络和Critic网络的一个最小规模训练数据集;
[0012]步骤6:用步骤5得到的训练数据集更新Actor当前网络和Actor目标神经、Critic当前网络和Critic目标网络;
[0013]步骤7:循环步骤2至步骤6,直到训练次数达到训练总迭代次数,停止训练,保存DDPG网络模型。
[0014]进一步地,所述步骤6具体更新步骤包括:
[0015]步骤61、将训练数据集内的状态s
t
输入至Critic当前网络,使用神经网络表示Critic当前网络的动作价值Q函数,神经网络输出Critic当前网络的Q值:Q(s
t
,a
t

Q
);
[0016]将状态s
t+1
输入Critic目标网络,使用神经网络表示Critic目标网络的动作价值Q函数,神经网络输出Critic当前网络的Q值:Q

(s
i+1
,μ

(s
i+1

μ

)|θ
Q

);
[0017]步骤62、更新Critic当前网络:
[0018]计算Critic当前网络的Q值:y
i
=r
i
+γQ

(s
i+1
,μ

(s
i+1

μ

)|θ
Q

)
[0019]Critic当前网络损耗函数为:
[0020][0021]通过最小化损耗函数L对Critic当前网络进行参数更新:反向传递更新Critic当前网络参数;α
c
为评价网络学习率,表示对损耗函数L(θ
Q
)求梯度;
[0022]步骤63、更新Actor当前网络:最优跟踪策略性能函数的梯度为:
[0023][0024]通过最小化最优跟踪策略性能函数对Actor当前网络进行迭代:反向传递更新Actor当前网络的参数;α
a
为动作网络学习率;
[0025]步骤64、将Actor目标网络和Critic目标网络的参数更新为:
[0026]θ
Q


τθ
Q
+(1

τ)θ
Q

;θμ
′←
τθ
μ
+(1

τ)θ
μ

,τ为预设的更新系数。
[0027]进一步地,对于任意时刻t,光伏的实际发电量、各个节点负荷量,表示为进一步地,对于任意时刻t,光伏的实际发电量、各个节点负荷量,表示为表示第1,2,

,p个光伏接入点的实际发电量,表示负荷节点数量,T表示最大时刻,p表示光伏接入点的总数量;
[0028]在t时刻的动作a
t
定义为a
t
={x
ij
,c
i
,z
si
},t∈T,i=1,...,q,ij∈Ω
l
;其中,x
ij
表示线路(i,j)的恢复决策变量,q表示配电网节点总数量;i、j分别表示线路(i,j)的两个节点,x
ij
等于1表示线路(i,j)恢复运行,x
ij
等于0表示线路(i,j)从系统中切除;ci为节点i切除情况,c
i
等于0表示节点i归入孤岛运行范围,c
i
等于1表示节点i被切除;z
si
为应急电动汽车配置变本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习方法的主动配电网故障恢复方法,其特征在于,分布式电源和负荷形成孤岛结构,通过DDPG网络模型对孤岛结构进行配电,具体包括以下步骤:步骤1:初始化Actor当前网络参数θ
μ
和Critic当前网络参数θ
Q
;并将当前网络参数拷贝给对应的Actor目标网络参数θ
μ

和Critic目标网络参数θ
Q

;步骤2:对每个学习回合中的时刻t,Actor当前网络基于状态s
t
得到动作a
t
,并下达给仿真环境执行该动作;步骤3:执行动作a
t
,得到新状态s
t+1
和奖励r
t
,并将(s
t
,a
t
,r
t
,s
t+1
)存入经验回放集R,作为训练Actor网络和Critic网络的数据集;步骤4:更新时间t=t+1,循环步骤2和步骤3,直到达到预设的最大的时刻T;步骤5:从经验回放集合R中采样m个样本(s
i
,a
i
,r
i
,s
i+1
)作为Actor网络和Critic网络的一个最小规模训练数据集;步骤6:用步骤5得到的训练数据集更新Actor当前网络和Actor目标神经、Critic当前网络和Critic目标网络;步骤7:循环步骤2至步骤6,直到训练次数达到训练总迭代次数,停止训练,保存DDPG网络模型。2.根据权利要求1所述的一种基于强化学习方法的主动配电网故障恢复方法,其特征在于,所述步骤6具体更新步骤包括:步骤61、将训练数据集内的状态s
t
输入至Critic当前网络,使用神经网络表示Critic当前网络的动作价值Q函数,神经网络输出Critic当前网络的Q值:Q(s
t
,a
t

Q
);将状态s
t+1
输入Critic目标网络,使用神经网络表示Critic目标网络的动作价值Q函数,神经网络输出Critic当前网络的Q值:Q

(s
i+1
,μ

(s
i+1

μ

)|θ
Q

);步骤62、更新Critic当前网络:计算Critic当前网络的Q值:y
i
=r
i
+γQ

(s
i+1
,μ

(s
i+1

μ

)|θ
Q

)Critic当前网络损耗函数为:通过最小化损耗函数L对Critic当前网络进行参数更新:反向传递更新Critic当前网络参数;α
c
为评价网络学习率,表示对损耗函数L(θ
Q
)求梯度;步骤63...

【专利技术属性】
技术研发人员:滕云龙李慧婷元硕成
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1