基于深度强化学习的电力数据调度方法、系统和设备技术方案

技术编号：44658302 阅读：3 留言：0更新日期：2025-03-17 18:51

本发明专利技术属于车辆充电技术领域，具体涉及一种基于深度强化学习的电力数据调度方法、系统和设备。该方法包括如下步骤：S1：建立一个表征充电站充放电调度优化问题的数学模型。S2：将数学问题建模为马尔可夫决策过程，并基于DQN算法模型构建一个调度优化网络。S3：根据充电站的运行数据对调度优化网络进行训练，使得其在不断的决策和学习中自适应的获得较好的控制策略，以最大化充电站的经济效益和用户的服务满意度。S4：充电站的控制中心获取当前车辆的需求信息，然后利用完成训练的调度优化网络生成满足当前用户需求的最佳充放电方案。本发明专利技术解决了现有采用V2G技术的充放电调度方案难以有效平衡客户需求和充电站效益的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于车辆充电，具体涉及一种基于深度强化学习的电力数据调度方法、系统和设备。

技术介绍

1、电动汽车(electric vehicle,ev)是一种采用电力进行驱动的交通工具，因其高效能、零污染、低排放的优点得到了越来越多的关注。随着电动汽车的市场占比的不断增长，车辆的充电需求也在不断增加。电动汽车大规模无序接入会给电网带来峰谷差增大、电能质量下降、电网运行优化控制难度增加等不利影响。

2、针对电动汽车充电需求给电网带来的负担，技术人员提出了电动汽车与电网互动技术(vehicle-to-grid,v2g)，v2g技术是一种新型电网技术，能够实现能量双向、实时、可控、高速地在车辆和电网之间的流动。在这种技术中，ev变相作为一种储能装置，既可以从电网中获取电能又可以将电能传输到电网，具备源、荷二重性，为电网提供储能备份作用。

3、应用v2g技术来控制电动汽车的充放电过程，可有效缓解电动汽车大规模接入对电网运行的稳定性造成的负面影响；起到削峰填谷、平抑可再生能源的作用。因此，发展v2g技术和实现v2g技术在ev充、放电调度策略中落地是十分必要且迫切的。然而，将v2g技术应用到生成充电站的充放电调度方案时，如何平衡用户需求和充电站的经济效益，仍然是一个复杂的问题。

技术实现思路

1、为了解决现有采用v2g技术的充放电调度方案难以有效平衡客户需求和充电站效益的问题，本专利技术提供一种基于深度强化学习的电力数据调度方法、系统和设备。

2、本专利技术采用以下技术方案实现：

3、一种基于深度强化学习的电力数据调度方法，其包括：

4、s1：建立一个表征充电站充放电调度优化问题的数学模型。

5、s2：将数学问题建模为马尔可夫决策过程，并基于dqn算法模型构建一个用于求解数学模型的调度优化网络。在调度优化网络中，定义动作、状态和奖励如下：

6、(1)充电站的控制中心在t时刻的动作at包括充电价格、放电价格，以及各个充电桩的充电功率、放电功率。

7、(2)充电站的控制中心在t时刻的状态st包括充电站的全局状态信息以及充电桩的用户状态信息二者满足：

8、其中，和分别表示第m个充电桩在t时刻的充电功率和放电功率；和分别表示充电站在t时刻的充电价格和放电价格；m∈m，m表示充电站中的充电桩集合；表示第i个用户的期望soc信息；表示第i个用户的期望离站时间；表示i个用户的能量需求，i∈n，n表示用户集合。

9、(3)充电站的控制中心在t时刻的奖励rt满足下式：

10、

11、上式中，表示充电站的经济效益；表示第i个用户的服务满意度；α和β分别是和的权重；表示在t时刻充电站从配电网的购电功率；表示电力市场的实时电价；表示第i个用户的进站时刻；表示第i个用户的车辆的最短充电时间。

12、s3：根据充电站的运行数据对调度优化网络进行训练，使得其在不断的决策和学习中自适应的获得较好的控制策略，以最大化充电站的经济效益和用户的服务满意度。

13、s4：任意车辆到达充电站并提出充电需求时，充电站的控制中心获取当前车辆的需求信息，包括：进站时刻、预期出站时间、车辆到达时的荷电状态，以及离开时的预期荷电状态，然后利用完成训练的调度优化网络生成满足当前用户需求的最佳充放电方案。

14、作为本专利技术进一步的改进，在步骤s1中建立的表征充电站充放电调度优化问题的数学模型中，以充电站的总体收益f最大化为优化目标；以每个充放电行为对应的充放电功率，以及包含服务费的充放电电价为决策变量；以车辆自身的电池容量、车辆和充电桩的充放电功率约束，以及服务电价约束为整体约束。

15、作为本专利技术进一步的改进，在数学模型中，优化目标为：

16、

17、

18、上式中，t表示充电站的运营时长；表示充电站与电网交互的基础负载。

19、作为本专利技术进一步的改进，在数学模型中，每个车辆的电池容量约束的表达式如下：

20、

21、上式中，cap表示当前车辆的电池容量；soct表示当前车辆的实时荷电状态；ηchg和ηdhg分别表示车辆与充电桩之间的充电能效和放电能效；socmin和socmax分别表示车辆荷电状态的下限和上限；socd表示当前车辆的期望荷电状态。

22、作为本专利技术进一步的改进，在数学模型中，车辆和充电桩的充放电功率约束的表达式如下：

23、

24、上式中，和分别表示当前车辆连接的充电桩允许的最大充电功率和最大放电功率；表示充电站能够承受的最大瞬时功率。

25、作为本专利技术进一步的改进，在数学模型中，服务电价约束的表达式如下：

26、

27、上式中，和为充电电价的上限和下限；etsc为充电电价的松弛变量；和为放电电价的上限和下限；为放电电价的松弛变量。

28、作为本专利技术进一步的改进，骤s2中，任意车辆的最短充电时间tneed用于保障车辆的荷电状态能够在期望离站时间前满足预期，其计算公式如下：

29、

30、任意车辆的能量需求preq的计算公式如下：

31、preq＝(socd-soca)·cap；

32、上式中，soca表示车辆到站时的荷电状态。

33、作为本专利技术进一步的改进，步骤s3中，调度优化网络的训练过程如下：

34、s31：初始化dqn算法的训练参数，包括学习率、奖励折扣因子、探索概率，训练步长和迭代次数；定义经验回放池和小批量数据的规模；初始化系统环境并获得充电站的初始状态。

35、s32：根据online神经网络的输出和贪婪策略，在充电桩运行过程中执行充、放电行为控制，进而生成当前时刻的充、放电功率和电价，得到对应的动作at。

36、s33：根据制定的动作at确定环境在下一时刻的状态st+1，并计算动作的奖励rt。

37、s34：将迭代过程的关联参数作为经验数据存储在经验回放池中，经验数据包括：当前状态st+1，动作at，奖励rt和下一时刻状态st+1。

38、s35：从经验回放池中随机选取选择小批量数据并传输到online神经网络和target神经网络；

39、s36：target网络将小批量数据作为输入，输出目标q值，online网络将小批量数据作为输入，输出估计q值；根据目标q值和估计q值计算误差损失；

40、s37：迭代执行步骤s32-s36，并根据误差损失进行反向梯度传播以更新online神经网络和target神经网络的模型参数，直至达到预设的迭代次数。

41、本专利技术还包括一种基于深度强化学习的电力数据调度系统，其包括需求采集单元、决策单元和执行单元。

42、其中，需求采集单元用于获取任意到站车辆的需求信息，包括：进站时刻、预期出站时间、车辆到达时的荷电状态，以本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的电力数据调度方法，其特征在于，其包括：

2.如权利要求1所述的基于深度强化学习的电力数据调度方法，其特征在于：步骤S1中建立的所述表征充电站充放电调度优化问题的数学模型，以充电站的总体收益F最大化为优化目标；以每个充放电行为对应的充放电功率，以及包含服务费的充放电电价为决策变量；以车辆自身的电池容量、车辆和充电桩的充放电功率约束，以及服务电价约束为整体约束。

3.如权利要求2所述的基于深度强化学习的电力数据调度方法，其特征在于：在所述数学模型中，优化目标为：

4.如权利要求3所述的基于深度强化学习的电力数据调度方法，其特征在于：在所述数学模型中，每个车辆的电池容量约束的表达式如下：

5.如权利要求4所述的基于深度强化学习的电力数据调度方法，其特征在于：在所述数学模型中，车辆和充电桩的充放电功率约束的表达式如下：

6.如权利要求5所述的基于深度强化学习的电力数据调度方法，其特征在于：在所述数学模型中，服务电价约束的表达式如下：

7.如权利要求6所述的基于深度强化学习的电力数据调度方法，

8.如权利要求1所述的基于深度强化学习的电力数据调度方法，其特征在于：步骤S3中，所述调度优化网络的训练过程如下：

9.一种基于深度强化学习的电力数据调度系统，其特征在于，其包括：

10.一种充电站调度设备，其特征在于，其包括存储器、处理器以及存储在存储器上并在处理器上运行的计算机程序，其特征在于：所述处理器执行计算机程序时，创建出如权利要求9所述的基于深度强化学习的电力数据调度系统，进而实现与用户进行交互，并为客户提供满足需求的车辆充放电服务。

...

【技术特征摘要】

1.一种基于深度强化学习的电力数据调度方法，其特征在于，其包括：

2.如权利要求1所述的基于深度强化学习的电力数据调度方法，其特征在于：步骤s1中建立的所述表征充电站充放电调度优化问题的数学模型，以充电站的总体收益f最大化为优化目标；以每个充放电行为对应的充放电功率，以及包含服务费的充放电电价为决策变量；以车辆自身的电池容量、车辆和充电桩的充放电功率约束，以及服务电价约束为整体约束。

3.如权利要求2所述的基于深度强化学习的电力数据调度方法，其特征在于：在所述数学模型中，优化目标为：

4.如权利要求3所述的基于深度强化学习的电力数据调度方法，其特征在于：在所述数学模型中，每个车辆的电池容量约束的表达式如下：

5.如权利要求4所述的基于深度强化学习的电力数据调度方法，其特征在于：在所述数学模型中，车辆和充电桩的充放电功率约束的表达式如下：

<...

【专利技术属性】
技术研发人员：李新民，王鑫，张徐浩，贾玲普，
申请(专利权)人：成都大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人