一种强化学习跨国电力市场报价竞标策略选择方法及系统技术方案

技术编号：25045508 阅读：18 留言：0更新日期：2020-07-29 05:35

本发明专利技术提供一种强化学习跨国电力市场报价竞标策略选择方法及系统，获取竞标策略集合；将竞标策略集合代入预先建立的强化学习RE算法模型中，采用轮盘方式计算所选竞标策略对应的行为倾向；根据电力交易运营商选取的竞标策略对应的行为倾向，迭代计算竞标策略集合中各竞标策略的概率选择函数，直到满足收敛条件为止；基于满足收敛条件的概率选择函数选择报价竞标策略。

全部详细技术资料下载

【技术实现步骤摘要】
一种强化学习跨国电力市场报价竞标策略选择方法及系统
本专利技术涉及一种方法和系统，具体涉及一种强化学习跨国电力市场报价竞标策略选择方法及系统。
技术介绍
在全球能源互联网中，市场联合是促进跨国电力交易的重要手段，市场联合发生在国家与国家之间、区域与国家之间及区域与区域之间，但全球电力市场联合中，多电力市场运营商之间决策过程和多发电商之间的相互作用过程是个复杂动态问题，很难用传统的解析方法进行分析计算,这在中长期电力市场交易时尤为突出。目前，解决跨国电力市场交易主要有两方法，一种方法是依据传统最优化理论，运用多层次架构，以发电商的生产效益优化问题为核心，通过跨洲电力运行骨干电力网的最优潮流，实现电力交易市场最优化。另外一种方法是基于随机优化的基础上，运用蒙特卡罗方法，从运营商最优报价出发，在非完全信息情况下，开展交易博弈，使博弈结果达到纳什均衡。然而，由于电力市场的特殊性，电力市场交易受多方条件的约束，即使完全信息和单时段交易的假设下，纳什均衡的存在性/唯一性是一个受到普遍关注的难点，另外，全球能源互联网在市场联合中，模型复杂，在多交易时段和非完全信息情况下，实现运营商报价最优，发电商生产效益最优是很难从解析的数学模型角度去求解的。随着人工智能技术的发展，增强学习是处理上述最优策略问题的一种新型有效计算方法，增强学习是一种基于动物学习条件反射原理的机器学习方法，强化学习系统主要有环境和代理组成，常用强化学习主要算法有Q-learning法、(Roth-Erev)RE法等，基本框架如图2所示。r>Agent包括三个部分：输入模块I、强化模块R及策略模块P。输入模块I把描述环境的状态转换成适应Agent所能接受的状态，为策略模块提供输入X；强化模块把环境的每一个状态赋给一个值r，强化信号可以从环境的状态直接或间接得到，和主观的目标紧密相关；策略模块P是最为关键的模块，其主要功能是通过学习机制来更新Agent的知识，同时使Agent根据某种策略选择一个动作并作用于环境。而在跨国电力市场电力联合场景中，基于上述学习机制模型会存在以下两个问题：第一，如果某策略的行为导致一个非常大的负值利润出现，则其对应的行为倾向为负值，则很有可能会使得其选择概率为负，这不符合概率定义；第二，如果收益为0时就会导致各行为策略的行为倾向以相同的比例减小，从而其各行为策略对应的选择概率保持不变，导致学习停止。
技术实现思路
为了解决上述问题，本专利技术提供及一种强化学习跨国电力市场报价竞标策略选择方法及系统，通过优化RE强化学习算法，并将该算法应用在跨国电力市场联合场景中，在多交易时段和非完全信息情况下，实现所有电力交易市场联合中总体价格最优、发电商生产效益最优。为了实现上述专利技术目的，本专利技术采取如下技术方案：一种强化学习跨国电力市场报价竞标策略选择方法，所述方法包括：获取竞标策略集合；将所述竞标策略集合代入预先建立的强化学习RE算法模型中，采用轮盘方式计算所选竞标策略对应的行为倾向；根据电力交易运营商选取的竞标策略对应的行为倾向，迭代计算竞标策略集合中各竞标策略的概率选择函数，直到满足收敛条件为止；基于满足收敛条件的概率选择函数选择报价竞标策略。优选的，所述强化学习RE算法模型的构建包括：基于电力交易运营商在当前轮次的竞标收益，确定强化学习RE算法模型的响应函数；基于强化学习RE算法模型的响应函数，获得所述强化学习RE算法模型。进一步地，所述强化学习RE算法模型中的响应函数通过下式确定；式中，Rim(D)为强化学习RE算法模型的响应函数，M为运营商的总数量，profitik(D)为电力交易运营商在第D轮的竞标收益，D表示当前轮次；k为竞标策略数量。进一步地，获得所述电力交易运营商在当前轮次的竞标收益包括：基于所述竞标策略集合中每个竞标策略，分别生成报价；基于所述报价对应的出清信息和竞标策略，确定电力交易运营商在当前轮次的竞标收益。进一步地，所述基于竞标策略集合中每个竞标策略，分别生成报价包括：初始化电力交易运营商的竞标策略集合初始函数ci(qGi)、初始行为倾向qim(0)，初始选择概率pim(0)、约束条件和价格，i为第i个电力交易运营商；电力交易运营商根据所选竞标策略生成相应报价fi(qGi)＝ci(qGi)；其中，初始行为倾向qim(0)＝qi(0)，初始选择概率pim(0)为1/M，M为总运营商的数量。进一步地，所述基于报价对应的出清信息和竞标策略，确定电力交易运营商在当前轮次的竞标收益包括：所有全部运营商均提交报价后，根据预先定义的出清规则制定出清信息，将出清信息反馈至电力交易运营商，由电力交易运营商将所述出清信息发送给发电商；电力交易运营商根据出清信息和选取的竞标策略，获得当前轮次的竞标收益；其中，所述出清信息包括：出清价格和中标电量。优选的，通过下式确定所选竞标策略对应的行为倾向：qim(D+1)＝[1-r]qim(D)+Rim(D)式中，qim(D)表示在第D轮中选择竞标策略im的行为倾向，qim(D+1)表示在第D轮的下一轮次中选择竞标策略im的行为倾向，r表示某个行为，Rim(D)为强化学习RE算法模型的响应函数。进一步地，通过下式确定竞标策略集合中各竞标策略的概率选择函数：式中，pim(D)表示电力交易运营商选取竞标策略am的概率选择函数，k为竞标策略数量，c为冷却系数；qij(D)表示第j个电力交易运营商在第D轮中选取的竞标策略对应的行为倾向；M为电力交易运营商的总数量，e为经验参数。一种强化学习跨国电力市场报价竞标策略选择系统，所述系统包括：获取模块，用于获取竞标策略集合；确定模块，用于将所述竞标策略集合代入预先建立的强化学习RE算法模型中，采用轮盘方式计算所选竞标策略对应的行为倾向；迭代计算模块，用于根据电力交易运营商选取的竞标策略对应的行为倾向，迭代计算竞标策略集合中各竞标策略的概率选择函数，直到满足收敛条件为止；选择模块，用于基于满足收敛条件的概率选择函数选择报价竞标策略。优选的，所述确定模块包括：确定单元，基于电力交易运营商在当前轮次的竞标收益，确定强化学习RE算法模型的响应函数；获取单元，用于基于强化学习RE算法模型的响应函数，获得所述强化学习RE算法模型。与最接近的现有技术相比，本专利技术提供的技术方案具有以下有益效果：本专利技术提供可应用于跨国电力市场电力联合场景中的一种强化学习跨国电力市场报价竞标策略选择方法及系统，获取竞标策略集合；将竞标策略集合代入预先建立的强化学习RE算法模型中，采用轮盘方式计算所选竞标策略对应的行为倾向；解决了强化学习RE通用算法模型存在的负值行为倾向问题及学习中断，使得本专利技术在跨国电力市场电力联合场景中的出清价格选择稳定，能够为运营商价格策略提供有力的技术支持。本文档来自技高网...

【技术保护点】
1.一种强化学习跨国电力市场报价竞标策略选择方法，其特征在于，所述方法包括：/n获取竞标策略集合；/n将所述竞标策略集合代入预先建立的强化学习RE算法模型中，采用轮盘方式计算所选竞标策略对应的行为倾向；/n根据电力交易运营商选取的竞标策略对应的行为倾向，迭代计算竞标策略集合中各竞标策略的概率选择函数，直到满足收敛条件为止；/n基于满足收敛条件的概率选择函数选择报价竞标策略。/n

【技术特征摘要】
1.一种强化学习跨国电力市场报价竞标策略选择方法，其特征在于，所述方法包括：
获取竞标策略集合；
将所述竞标策略集合代入预先建立的强化学习RE算法模型中，采用轮盘方式计算所选竞标策略对应的行为倾向；
根据电力交易运营商选取的竞标策略对应的行为倾向，迭代计算竞标策略集合中各竞标策略的概率选择函数，直到满足收敛条件为止；
基于满足收敛条件的概率选择函数选择报价竞标策略。

2.如权利要求1所述的方法，其特征在于，所述强化学习RE算法模型的构建包括：
基于电力交易运营商在当前轮次的竞标收益，确定强化学习RE算法模型的响应函数；
基于强化学习RE算法模型的响应函数，获得所述强化学习RE算法模型。

3.如权利要求2所述的方法，其特征在于，所述强化学习RE算法模型中的响应函数通过下式确定；

式中，Rim(D)为强化学习RE算法模型的响应函数，M为运营商的总数量，profitik(D)为电力交易运营商在第D轮的竞标收益，D表示当前轮次；k为竞标策略数量。

4.如权利要求3所述的方法，其特征在于，获得所述电力交易运营商在当前轮次的竞标收益包括：
基于所述竞标策略集合中每个竞标策略，分别生成报价；
基于所述报价对应的出清信息和竞标策略，确定电力交易运营商在当前轮次的竞标收益。

5.如权利要求4所述的方法，其特征在于，所述基于竞标策略集合中每个竞标策略，分别生成报价包括：
初始化电力交易运营商的竞标策略集合初始函数ci(qGi)、初始行为倾向qim(0)，初始选择概率pim(0)、约束条件和价格，i为第i个电力交易运营商；
电力交易运营商根据所选竞标策略生成相应报价fi(qGi)＝ci(qGi)；
其中，初始行为倾向qim(0)＝qi(0)，初始选择概率pim(0)为1/M，M为总运营商的数量。

6.如权利要求4所述的方法，其特征在于，所述基于报价对应的出清信息和竞标策略，确定...

【专利技术属性】
技术研发人员：李俊辉，白小保，周海明，张志峰，茹海波，张帅，郑磊，
申请(专利权)人：中国电力科学研究院有限公司，国家电网有限公司，国网山东省电力公司电力科学研究院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人