System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种电网调度策略优化方法和装置,属于电力调度。
技术介绍
1、随着可再生能源渗透率的不断提高,面对源端和负载端不确定性不断增加,可调度对象的类型和数量呈指数级增长以及电网系统操作日益复杂的情况,传统的调度方法难以保证电网中新能源机组消纳能力与火电机组经济性的平衡。因此近年来,深度强化学习(drl)作为一种新兴的智能调度方法得到了广泛关注。然而现有的深度强化学习方法注重在建模,训练结果映射改造,多智体训练等方式,单个智能体的泛化性较差,训练效率不高,无法很好兼顾新能源机组消纳能力与火电机组经济性。
技术实现思路
1、本专利技术的目的在于克服现有技术中的不足,提供一种电网调度策略优化方法和装置,通过奖励机制多样化和层次化的设计,综合考虑电网调度策略运行安全性和新能源机组消纳最大和火电机组总成本最低的经济性目标协同优化,最终获得优化的电网调度策略。为达到上述目的/为解决上述技术问题,本专利技术是采用下述技术方案实现的:
2、第一方面,本专利技术提供了一种电网调度策略优化方法,包括:
3、获取电网系统当前状态数据;
4、将所述电网系统当前状态数据输入预先训练的电网调度策略优化模型,获得优化的电网调度策略;
5、其中,所述电网调度策略优化模型的构建包括:
6、根据电网调度策略优化目标构建目标函数,所述电网调度策略优化目标是实现新能源机组消纳最大化和火电机组总成本最小化;
7、根据所述目标函数构建马尔可夫决策
8、所述奖励机制包括构造的奖励函数和设定的奖励内容,所述奖励函数包括新能源机组消纳奖励、火电机组运行成本奖励、平衡机组出力奖励和辅助奖励;所述奖励函数的构造包括奖励函数权重系数的设计,所述奖励函数权重系数在所述电网调度策略优化模型训练过程中是变化的;所述辅助奖励用于奖励平衡机组安全完成一个时间周期的出力。
9、结合第一方面,可选的,所述新能源机组消纳最大化根据新能源的不同类型采用不同的衡量标准,当新能源采用风电时,采用风电的整体弃风率衡量,所述目标函数设计如下:
10、
11、式中,和分别表示火电机组的成本和新能源机组整体弃风率的函数,ρt和ρw分别指的是火电机组成本和新能源机组整体弃风率的权重系数,t为实际调度执行时间轴中时间步长的索引,t的取值为时间周期t范围内的正整数,τ为前瞻预测时间窗口中时间的索引,τ的总长度为n,取值为0到n-1的整数。
12、本专利技术在模型设计和训练阶段均考虑了时间因素的影响。
13、当新能源机组消纳水平采用新能源机组整体弃风率衡量时,新能源机组整体弃风率最小化表示新能效机组消纳最大化。
14、结合第一方面,可选的,所述奖励函数权重系数在所述电网调度策略优化模型训练过程中是变化的是指奖励函数的权重系数在训练前期用于提高平衡机组出力奖励和辅助奖励的影响,在训练后期改变大小用于综合各个奖励函数的影响。
15、训练电网调度策略优化模型包括在模型训练前期注重安全性奖励,在训练后期注重经济性奖励,所述安全性奖励包括平衡机组出力奖励和辅助奖励,所述经济性奖励包括新能源机组消纳奖励、火电机组运行成本奖励、平衡机组出力奖励和辅助奖励。为了让智能体在训练前期更注重安全性的学习,本专利技术在训练前期提高安全性奖励的权重系数;为了让智能体在训练后期注重整体奖励最大化,本专利技术在训练后期降低了安全性奖励的权重系数,更注重综合各个奖励函数的影响。
16、结合第一方面,可选的,所述奖励内容包括正奖励和负奖励,所述新能源机组消纳奖励为正奖励,所述火电机组运行成本奖励为负奖励,所述平衡机组出力奖励包括平衡机组有功出力动态奖励,所述平衡机组有功出力动态奖励的奖励内容根据平衡机组有功出力值与平衡机机组有功出力的上限值和下限值的关系划分,所述辅助奖励在平衡机组安全完成一个时间周期的出力时为正奖励。
17、本专利技术采用多样化多层次化的奖励机制的设定,使得电网调度策略优化模型在训练和使用时能兼顾各方面的影响,更协同的实现运行安全并且达到新能源机组消纳最大和火电机组总成本最低的总优化目标。
18、结合前述的方法,可选的,所述平衡机组有功出力动态奖励的奖励内容根据平衡机组有功出力值与平衡机机组有功出力的上限值和下限值的关系划分包括:
19、分别划分平衡机组有功出力值所属范围和奖励内容;
20、根据平衡机组有功出力值所属范围建立与所述奖励内容的对应关系;
21、所述根据平衡机组有功出力值所属范围建立与所述奖励内容的对应关系,包括判断平衡机组有功出力值是否处于平衡机组有功出力上限值和下限值范围内,平衡机组有功出力上限值和下限值范围外的区域属于限制区域,所述限制区域对应的奖励内容为负奖励,平衡机组有功出力上限值和下限值范围内的区域属于非限制区域,所述非限制区域对应的奖励内容为正奖励;
22、所述安全完成一个时间周期的出力是指平衡机组在一个时间周期的运行过程中没有出现有功出力属于所述限制区域和潮流不收敛的情况。
23、当训练过程中,平衡机组有功出力值属于限制区域或平衡机组出现潮流不收敛的情况,本次训练直接结束。在此情况下,不考虑当前时刻是否达到指定时间周期。潮流不收敛的情况是电网环境中现有可查的信息。
24、结合前述的方法,可选的,所述分别划分平衡机组有功出力值所属范围和奖励内容包括:所述非限制区域划分为安全区域和过渡区域,所述正奖励划分为较大奖励和正常奖励,所述根据平衡机组有功出力值所属范围建立与所述奖励内容的对应关系包括:安全区域对应较大奖励,过渡区域对应正常奖励;
25、或者,所述分别划分平衡机组有功出力值所属范围和奖励内容包括:所述非限制区域划分为安全区域、过渡区域1、过渡区域2,正奖励划分为较大奖励、普通奖励和较小奖励,所述根据平衡机组有功出力值所属范围建立与所述奖励内容的对应关系包括:安全区域对应较大奖励,过渡区域1对应普通奖励,过渡区域2对应较小奖励。
26、结合第一方面,可选的,所述电网调度策略优化模型的训练采用势函数和正则项,所述正则项为基于奖励机制的评论网络正则项,正则项f(st,st+1)公式如下:
27、f(st,st+1)=γφ(st+1)-φ(st)
28、式中,st表示t时刻的系统状态,φ(st)表示自变量为st的势函数,st+1表示t+1时刻的系统状态,φ(st+1)表示自变量为st+1的势函数,γ是实际调度执行时间线上智能体训练的强化学习折扣因子,γ∈[0,1);
29、所述势函数为基于奖励机制的势函数,势函数φ(st)的公式如下:
30、
31、式中,势函数φ(st)是分为两层的分段函数,训练周期εmax表示训练最大轮次,eps表示当前轮次,所述势函数φ(st)在前半训练周期势函数表现为φ1(st),所本文档来自技高网...
【技术保护点】
1.一种电网调度策略优化方法,其特征是,包括:
2.根据权利要求1所述的电网调度策略优化方法,其特征是,所述新能源机组消纳最大化根据新能源的不同类型采用不同的衡量标准,当新能源采用风电时,采用风电的整体弃风率衡量,所述目标函数设计如下:
3.根据权利要求1所述的电网调度策略优化方法,其特征是,所述奖励函数权重系数在所述电网调度策略优化模型训练过程中是变化的是指奖励函数的权重系数在训练前期用于提高平衡机组出力奖励和辅助奖励的影响,在训练后期改变大小用于综合各个奖励函数的影响。
4.根据权利要求1所述的电网调度策略优化方法,其特征是,所述奖励内容包括正奖励和负奖励,所述新能源机组消纳奖励为正奖励,所述火电机组运行成本奖励为负奖励,所述平衡机组出力奖励包括平衡机组有功出力动态奖励,所述平衡机组有功出力动态奖励的奖励内容根据平衡机组有功出力值与平衡机机组有功出力的上限值和下限值的关系划分,所述辅助奖励在平衡机组安全完成一个时间周期的出力时为正奖励。
5.根据权利要求4所述的电网调度策略优化方法,其特征是,所述平衡机组有功出力动态奖励的奖励内
6.根据权利要求5所述的电网调度策略优化方法,其特征是,所述分别划分平衡机组有功出力值所属范围和奖励内容包括:所述非限制区域划分为安全区域和过渡区域,所述正奖励划分为较大奖励和正常奖励,所述根据平衡机组有功出力值所属范围建立与所述奖励内容的对应关系包括:安全区域对应较大奖励,过渡区域对应正常奖励;
7.根据权利要求1所述的电网调度策略优化方法,其特征是,所述电网调度策略优化模型的训练采用势函数和正则项,所述正则项为基于奖励机制的评论网络正则项,正则项F(st,st+1)公式如下:
8.根据权利要求7所述的电网调度策略优化方法,其特征是,前半训练周期的势函数Φ1(st)设计如下:
9.根据权利要求8所述的电网调度策略优化方法,其特征是,所述电网调度策略优化模型的训练还采用损失函数,所述损失函数的设计基于奖励机制的势函数和正则项,所述损失函数用于在SAC算法中更新评论网络,所述损失函数如下:
10.一种电力调度策略优化装置,其特征是,包括:
...【技术特征摘要】
1.一种电网调度策略优化方法,其特征是,包括:
2.根据权利要求1所述的电网调度策略优化方法,其特征是,所述新能源机组消纳最大化根据新能源的不同类型采用不同的衡量标准,当新能源采用风电时,采用风电的整体弃风率衡量,所述目标函数设计如下:
3.根据权利要求1所述的电网调度策略优化方法,其特征是,所述奖励函数权重系数在所述电网调度策略优化模型训练过程中是变化的是指奖励函数的权重系数在训练前期用于提高平衡机组出力奖励和辅助奖励的影响,在训练后期改变大小用于综合各个奖励函数的影响。
4.根据权利要求1所述的电网调度策略优化方法,其特征是,所述奖励内容包括正奖励和负奖励,所述新能源机组消纳奖励为正奖励,所述火电机组运行成本奖励为负奖励,所述平衡机组出力奖励包括平衡机组有功出力动态奖励,所述平衡机组有功出力动态奖励的奖励内容根据平衡机组有功出力值与平衡机机组有功出力的上限值和下限值的关系划分,所述辅助奖励在平衡机组安全完成一个时间周期的出力时为正奖励。
5.根据权利要求4所述的电网调度策略优化方法,其特征是,所述平衡机组有功出力动态奖励的奖...
【专利技术属性】
技术研发人员:王珂,徐云贵,徐弘升,黄远平,李立新,申屠磊璇,李亚平,严嘉豪,
申请(专利权)人:河海大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。