基于SAC深度强化学习的SVG参数优化辨识方法技术

技术编号:36707318 阅读:22 留言:0更新日期:2023-03-01 09:31
本发明专利技术公开了一种基于SAC深度强化学习的SVG参数优化辨识方法,包括以下步骤:步骤一,建立与SVG实测曲线运行环境相同的SVG接入单机无穷大系统的等值数学模型;步骤二,利用扰动法计算各参数的无功功率轨迹灵敏度、电压轨迹灵敏度以及电流轨迹灵敏度并进行筛选;步骤三,建立基于BPA的SAC的环境;步骤四,搭建SAC智能体;步骤五,开始SVG参数辨识训练,得到最终辨识结果。本发明专利技术采用上述基于SAC深度强化学习的SVG参数优化辨识方法,用SAC模型来辨识SVG控制器参数,耗费时间少,而且也能保证参数预测结果的准确度,提高了辨识效率。提高了辨识效率。提高了辨识效率。

【技术实现步骤摘要】
基于SAC深度强化学习的SVG参数优化辨识方法


[0001]本专利技术涉及电力信息
,尤其是涉及基于SAC深度强化学习的SVG参数优化辨识方法。

技术介绍

[0002]柔性交流输电技术FACTS的出现为提升电网可靠性和经济性提供了新的技术手段。静止无功发生器(SVG)作为FACTS家族的重要成员,在改善电力系统电压质量及提高系统运行稳定性方面得到广泛应用。准确的SVG控制器模型参数对电力系统仿真分析的正确性尤为重要,而很多厂商由于技术保密不提供相应的SVG控制参数,因此SVG控制器参数辨识很有必要。目前,对SVG控制器参数辨识的研究很少,更多的是对其控制器模型和工作原理的研究,由于SVG控制器参数众多,所以对SVG控制器进行参数辨识要花费许多时间。因此,研究出适当的方法对SVG控制器进行参数辨识并得出准确的参数具有工程意义和研究价值。
[0003]文献“Zheng Qiang Guan,Si Jing Liu,Xing Hua Liu.Static Var Generator Technology and its Applications[J].Applied Mechanics and Materials,2014,2963(494

495):”对SVG控制器的工作原理以及无功电流的检测方法作了详细介绍,但对于SVG控制器参数辨识问题的研究较少。文献“夏天华,马骏超,黄弘扬,彭琰,肖修林,陈皓,郭瑞鹏.基于RTDS硬件在环测试的SVG控制器参数辨识[J].电力系统保护与控制,2020,48(13):110

116”提出了一种基于控制器硬件的在环测试的参数辨识方法,采用的粒子群算法虽然简单,但容易陷入局部最优解。文献“曹斌,丛雨,原帅,张晓琳,王琪,王立强,赵永飞.基于控制器硬件在环的SVG模型参数测试方法[J].电器与能效管理技术,2021(06):63

66+78.”提出了一种基于RTDS硬件的在环测试的参数辨识方法,将测试得到的SVG响应数据作为实测数据,对于不同的控制器参数组合,采用BPA软件进行暂态仿真,根据暂态仿真结果与实测数据的最小二乘指标进行参数辨识,能够准确对SVG控制器参数进行辨识,但是SVG控制器参数众多,对每个参数进行辨识耗时较大。文献“Sutton R S,Barto A G.Reinforcement learning:An introduction[M].Cambridge,MA:MIT press,2018.”针对风电场随机特性引起的辨识结果不准确问题,综合低风速模型算法和高风速模型算法的优点,提出一种多方式混合辨识算法。
[0004]强化学习主要关注智能体如何对环境的刺激做出决策,以取得最大的平均累积回报,从而形成一种从状态到动作的映射关系。强化学习方法与一般的数学优化算法和现代进化算法相比有很多优势。第一,强化学习在寻优的过程中不需要精确模型,甚至不需要对模型进行任何描述。因此,强化学习方法具有较强的通用性。第二,强化学习对策略的优化仅仅依靠于在不同状态或行为下环境反馈的奖励或惩罚信号,不需要计算目标函数的梯度信息。因此,强化学习方法可避免对目标函数连续、可导、凸性等要求,也避免了求微分和矩阵求逆等复杂运算,很大程度降低了计算的时间和复杂度。
[0005]强化学习通过智能体感知环境状态信息,通过反复试错不断修正智能体行为策
略,从而获得最大化的平均累积回报。强化学习具有对环境的先验要求低的优点,是一种可以应用到实时环境中的在线学习方法,因此在电力系统领域有着广泛的应用。在电力系统无功优化领域,文献“Shang X,Li M,Ji T,et al.Discrete reactive power optimization considering safety margin by dimensional Q

learning[A].In:2015IEEE Innovative Smart Grid Technologies

Asia(ISGTASIA)[C],2015.1

5.”采用强化学习对电力系统无功进行优化。文献“Shang X,Li M,Ji T,et al.Discrete reactive power optimization considering safety margin by dimensional Q

learning[A].In:2015IEEE Innovative Smart GridTechnologies

Asia(ISGTASIA)[C],2015.1

5.”提出了一种基于分维搜索的强化学习算法,其奖励函数设计采用罚函数形式将电压安全问题和发电机无功出力限制考虑在内。文献“尚筱雅.基于改进强化学习算法的终端电网在线等值建模方法及其应用[D].华南理工大学,2018.”提出一种ERL(Enhanced Reinforcement Learning)算法对区域负荷时变系统进行参数辨识,该算法能对模型参数进行准确快速的跟踪。文献“Wang Siqi et al.On Multi

Event Co

Calibration of Dynamic Model Parameters Using Soft Actor

Critic[J].IEEE TRANSACTIONS ON POWER SYSTEMS,2021,36(1):521

524.”提出了一种基于最大熵、soft actor critic(SAC)的非策略深度强化学习(DRL)算法的参数校准方法,以自动调整不正确的参数集,同时考虑多个事件,可以节省大量的劳动力。
[0006]综上,本专利技术考虑将强化学习应用到SVG控制器参数辨识,克服传统方法计算量大的缺陷,通过soft actor critic(SAC)深度强化学习算法对SVG参数进行准确快速估计。

技术实现思路

[0007]本专利技术的目的是提供一种基于SAC深度强化学习的SVG参数优化辨识方法,解决以上所述的问题。
[0008]为实现上述目的,本专利技术提供了一种基于SAC深度强化学习的SVG参数优化辨识方法,其特征在于:包括以下步骤:
[0009]步骤一,建立与SVG实测曲线运行环境相同的SVG接入单机无穷大系统的等值数学模型;
[0010]步骤二,利用扰动法计算各参数的无功功率轨迹灵敏度、电压轨迹灵敏度以及电流轨迹灵敏度并进行筛选;
[0011]步骤三,建立基于BPA的SAC的环境;
[0012]步骤四,搭建SAC智能体;
[0013]步骤五,开始SVG参数辨识训练,得到最终辨识结果。
[0014]优选的,SVG实测曲线为RTDS实测曲线,所使用的仿真工具PSD

BPA。
[0015]优选的,步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于SAC深度强化学习的SVG参数优化辨识方法,其特征在于:包括以下步骤:步骤一,建立与SVG实测曲线运行环境相同的SVG接入单机无穷大系统的等值数学模型;步骤二,利用扰动法计算各参数的无功功率轨迹灵敏度、电压轨迹灵敏度以及电流轨迹灵敏度并进行筛选;步骤三,建立基于BPA的SAC的环境;步骤四,搭建SAC智能体;步骤五,开始SVG参数辨识训练,得到最终辨识结果。2.根据权利要求1所述的基于SAC深度强化学习的SVG参数优化辨识方法,其特征在于:SVG实测曲线为RTDS实测曲线,所使用的仿真工具PSD

BPA。3.根据权利要求2所述的基于SAC深度强化学习的SVG参数优化辨识方法,其特征在于:步骤二的具体方法为:SVG参数存于暂态数据文件中的VG/VG+卡,待辨识参数以BPA暂态数据文件中VG/VG+卡的值作为参数初始值进行潮流计算,设置短路故障,进行暂态计算,记录接有SVG母线处的无功曲线,电流曲线以及电压曲线;将选定参数在初始值的基础上增加5%,再一次进行暂态计算,得到输出曲线,然后计算选定参数的无功轨迹灵敏度、电流轨迹灵敏度、电压轨迹灵敏度,计算公式如下:式中:分别为无功轨迹灵敏度、电流轨迹灵敏度、电压轨迹灵敏度,N为采样点个数,Q0,I0,U0分别为参数取初始值时得到的无功值、电流值、电压值,Q1,I1,U1分别为参数在初始值的基础上增加5%得到的无功值、电流值、电压值。4.根据权利要求3所述的基于SAC深度强化学习的SVG参数优化辨识方法,其特征在于:步骤三的具体方法为:针对辨识的每个SVG参数,确定参数的范围,SVG参数的值作为状态s
t
,SVG参数值的改变量为动作a
t
,做出动作后的下一次状态为s
t+1

s
t
+a
t
根据BPA中的暂态文件SWI文件格式,将状态s
t+1
即SVG参数的值写入暂态文件SWI中,然后进行一次暂态计算,得到结果文件SWX,然后从结果文件SWX中读出当前状态下的无功功率Q,随后计算奖励R为:R=

(Q

Q
RTDS
)2其中Q
RTDS
为RTDS实测无功功率数据;
SAC给出的动作a
t
使得下一次的状态超过设定的SVG参数范围,给予SAC模型惩罚,使奖励R为

20,下一次的状态s
t+1
在范围之内,则正常训练;最终得到当前状态s
t
,当前动作a
t
,下一次...

【专利技术属性】
技术研发人员:高慧敏黄卓徐潇卢艺钟毅
申请(专利权)人:杭州电子科技大学信息工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1