基于模仿和强化学习的预防控制方法、装置、介质及设备制造方法及图纸

技术编号：43813033 阅读：2 留言：0更新日期：2024-12-27 13:28

本发明专利技术公开了基于模仿和强化学习的预防控制方法、装置、介质及设备。本申请通过获取电力系统实时状态信息，输入至第三智能体，第三智能体由第二智能体通过仿真环境训练得到，第二智能体则是基于专家数据模仿学习自第一智能体预训练而成。利用第三智能体输出的控制信号，动态调整电力系统设备，确保系统安全稳定运行，提高了基于模仿和强化学习的预防控制策略的可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及基于模仿和强化学习的预防控制领域，尤其涉及基于模仿和强化学习的预防控制方法、装置、介质及设备。

技术介绍

1、近年来电力规模持续高速扩大，用电需求和电能稳定性需求不断增大，电网结构日益复杂，以同步机为主导的传统电力系统正逐步向以分布式可再生能源主导的新型电力系统转型。新型电力系统可控对象从以源为主扩展到源网荷储能各个环节，当前针对传统基于模仿和强化学习的预防控制的传统方法大部分基于考虑暂态稳定性的最优潮流方法，新型电力系统相比传统电力系统，其控制难度和规模呈指数级增长，传统方法因计算效率低下而无法直接沿用；另一方面，太阳能、风能等多元分布式新型电源在新型电力系统的渗透率日益攀升，但可再生能源与常规电源相比，电力的支撑能力存在较大差距，在可再生能源和电力电子设备高比例渗透下电力系统呈现低惯量、低阻尼等特性，重塑了电力系统安全稳定运行稳定域，安全稳定运行面临严峻的风险挑战。因此，提出一种实时高效的基于模仿和强化学习的预防控制方法迫在眉睫。

2、与此同时，近年来，人工智能技术高速发展并在电力系统领域取得了一定的理论突破。与传统依靠物理建模分析的暂态稳定预防控制方法相比，人工智能如深度强化学习技术能够对电力系统的海量数据进行升维计算、分析，摆脱求解复杂的非线性微分方程，从数据角度揭示电力系统暂态稳定的物理特性，将大规模数据集转变成高效的决策方案，在电力行业快速发展的当下被业界认为是应对基于模仿和强化学习的预防控制实时性挑战的关键。但深度神经网络存在模型不透明、网络参数意义不明确、决策过程无法通过物理知识推导等不

技术实现思路

1、本专利技术提供了基于模仿和强化学习的预防控制方法、装置、介质及终端设备，以提高基于模仿和强化学习的预防控制策略的可靠性。

2、第一方面，本申请提供了基于模仿和强化学习的预防控制方法，包括：

3、获取电力系统的实时运行状态信息；

4、将所述实时运行状态信息输入到第三深度强化学习智能体中，以使第三所述深度强化学习智能体输出预防控制的控制信号；

5、其中，所述第三深度强化学习智能体是由第二深度强化学习智能体，与电力系统仿真模型构建的环境进行交互训练得到的；所述第二深度强化学习智能体是由第一深度强化学习智能体，根据专家经验数据集合模仿学习预训练得到的；

6、根据所述控制信号，调整电力系统中发电机和无功电源的输出功率及投切，使电力系统运行在安全稳定的工作状态。

7、本申请通过实时获取电力系统的运行状态信息，确保了控制策略的及时性和准确性。其次，这些信息被输入到经过专家经验数据预训练的第一深度强化学习智能体中，该智能体通过模仿学习掌握了专家的决策模式，提高了决策的可靠性和效率。然后，第一智能体与电力系统仿真模型构建的环境进行交互训练，形成第二智能体，进一步优化和调整其决策策略，以适应实际运行环境。最终，第二智能体输出的控制信号被用于指导第三智能体，该智能体综合实时状态信息和经过训练的策略，输出精确的预防控制信号。这些信号指导电力系统中的发电机和无功电源调整输出功率及投切，确保电力系统在各种运行条件下都能维持在安全稳定的工作状态，从而有效预防了大规模停电等电力系统故障的发生，提高了整个电力系统的稳定性和可靠性。

8、作为第一方面的一个优选实施例，所述第二深度强化学习智能体是由第一深度强化学习智能体，根据专家经验数据集合模仿学习预训练得到的，具体为：

9、根据电力系统安全稳定基本约束、n-1故障下安全稳定约束和暂态稳定约束，求解在多个不同状态下以经济效益为优化目标的目标函数，得到多个专家策略；其中，所述n为大于1的正整数；

10、根据所述多个专家策略计算得到专家经验数据集合；

11、根据所述专家经验数据集合对所述第一深度强化学习智能体以最小化动作策略误差为目标进行模仿学习预训练；

12、当所述最小化动作策略误差收敛，停止训练，得到第二深度强化学习智能体。

13、此优选实施例中，本申请的第一深度强化学习智能体通过模仿学习，利用专家经验数据集合，这些数据集合是基于电力系统安全稳定基本约束、n-1故障下安全稳定约束和暂态稳定约束，通过求解以经济效益为优化目标的目标函数得到的多个专家策略。这种预训练方法使得智能体能够学习到在复杂电力系统环境下的高效决策模式。通过模仿学习最小化动作策略误差，智能体进一步优化其决策能力，直到误差收敛，确保了智能体的决策精度和可靠性。最终，训练得到的第二深度强化学习智能体能够输出高质量的控制信号，这些信号能够指导电力系统中的发电机和无功电源进行精确调整，确保系统在各种工况下均能维持安全稳定的运行状态，有效预防了电力系统的不稳定和故障，提高了整个系统的运行效率和安全性。

14、作为第一方面的一个优选实施例，所述根据电力系统安全稳定基本约束、n-1故障下安全稳定约束和暂态稳定约束，求解在多个不同状态下以经济效益为优化目标的目标函数，得到多个专家策略；根据所述多个专家策略计算得到专家经验数据集合，具体为：

15、将电力系统安全稳定基本约束、n-1故障下安全稳定约束和暂态稳定约束作为最优潮流限制条件，限定所述优化目标中发电机、线路、母线等各元件工作在指定范围内；

16、根据所述最优潮流限制条件，求解以经济效益为优化目标的目标函数，得到电力系统在多个运行状态下的多个最优潮流结果；

17、通过差值采样算法，计算所述多个最优潮流结果的多步决策动作，得到多个专家策略轨迹；其中，每个专家策略轨迹包含状态序列和动作序列；

18、所述多个专家轨迹构成所述专家经验数据集合。

19、此优选实施例中，本申请将电力系统安全稳定基本约束、n-1故障下安全稳定约束和暂态稳定约束综合考虑，作为最优潮流的限制条件，确保了发电机、线路、母线等电力系统各元件在安全稳定的工作范围内运行。然后，在这些约束条件下，求解以经济效益为优化目标的目标函数，得到电力系统在不同运行状态下的最优潮流结果。接着，利用差值采样算法对这些最优潮流结果进行多步决策动作的计算，形成多个专家策略轨迹，每个轨迹包含了详细的状态序列和动作序列。这些专家策略轨迹汇总构成了专家经验数据集合，它们为深度强化学习智能体提供了丰富的、基于实际电力系统运行情况的学习样本。通过模仿这些专家策略，智能体能够学习到在各种复杂工况下如何做出最优的控制决策，从而在实际应用中提高电力系统的运行效率和稳定性，减少因操作不当导致的系统故障风险。

20、作为第一方面的一个优选实施例，所述第三深度强化学习智能体是由第二深度强化学习智能体，与电力系统仿真模型构建的环境进行交互训练得到的，具体为：

21、获取经验回放组件信息；其中，所述经验回放组件信息是通过所述专家经验数据集合初始化得到的；

22、根据所述经验回放组件信息，对第二深度学习智能体训练，本文档来自技高网...

【技术保护点】

1.基于模仿和强化学习的预防控制方法，其特征在于，包括：

2.根据权利要求1所述的基于模仿和强化学习的预防控制方法，其特征在于，所述第二深度强化学习智能体是由第一深度强化学习智能体，根据专家经验数据集合模仿学习预训练得到的，具体为：

3.根据权利要求2所述的基于模仿和强化学习的预防控制方法，其特征在于，所述根据电力系统安全稳定基本约束、N-1故障下安全稳定约束和暂态稳定约束，求解在多个不同状态下以经济效益为优化目标的目标函数，得到多个专家策略；根据所述多个专家策略计算得到专家经验数据集合，具体为：

4.根据权利要求1所述的基于模仿和强化学习的预防控制方法，其特征在于，所述第三深度强化学习智能体是由第二深度强化学习智能体，与电力系统仿真模型构建的环境进行交互训练得到的，具体为：

5.基于模仿和强化学习的预防控制装置，其特征在于，包括获取模块、输入输出模块和调整模块；

6.根据权利要求5所述的基于模仿和强化学习的预防控制装置，其特征在于，所述第二深度强化学习智能体是由第一深度强化学习智能体，根据专家经验数据集合模仿学习预训练得到的，具体为：

7.根据权利要求6所述的基于模仿和强化学习的预防控制装置，其特征在于，所述根据电力系统安全稳定基本约束、N-1故障下安全稳定约束和暂态稳定约束，求解在多个不同状态下以经济效益为优化目标的目标函数，得到多个专家策略；根据所述多个专家策略计算得到专家经验数据集合，具体为：

8.根据权利要求5所述的基于模仿和强化学习的预防控制装置，其特征在于，所述第三深度强化学习智能体是由第二深度强化学习智能体，与电力系统仿真模型构建的环境进行交互训练得到的，具体为：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述的基于模仿和强化学习的预防控制方法。

10.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4任意一项所述的基于模仿和强化学习的预防控制方法。

...

【技术特征摘要】

1.基于模仿和强化学习的预防控制方法，其特征在于，包括：

3.根据权利要求2所述的基于模仿和强化学习的预防控制方法，其特征在于，所述根据电力系统安全稳定基本约束、n-1故障下安全稳定约束和暂态稳定约束，求解在多个不同状态下以经济效益为优化目标的目标函数，得到多个专家策略；根据所述多个专家策略计算得到专家经验数据集合，具体为：

5.基于模仿和强化学习的预防控制装置，其特征在于，包括获取模块、输入输出模块和调整模块；

6.根据权利要求5所述的基于模仿和强化学习的预防控制装置，其特征在于，所述第二深度强化学习智能体是由第一深度强化学习智能体，根据专家经...

【专利技术属性】
技术研发人员：余芸，陈炎森，林志达，杨思蕤，张喜铭，余洋，李卓环，
申请(专利权)人：中国南方电网有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人