一种深度强化学习分组调度方法、系统、终端及介质技术方案

技术编号:38822419 阅读:14 留言:0更新日期:2023-09-15 20:01
本发明专利技术公开了一种深度强化学习分组调度方法,并公开了具有深度强化学习分组调度方法的系统、终端及介质,其中深度强化学习分组调度方法包利用通感算一体化思想,采用多智能体深度强化学习的方法,实现多种QoS业务的分组调度问题。实际考虑了电力计量设备的不同业务类型特性,建立了业务分类模型,将业务划分为若干优先级类别,并设置了业务优先级动态调整机制,通过深度强化学习算法建立了业务数据包调度模型,基于神经网络设计了面向时延的数据包调度方法,通过神经网络的不断训练,使得不同优先级数据包的时延得到优化,可以使多用户能够公平的共享链路带宽,提高网络利用率,保证各类电力计量业务的时延,实现多业务的高质量传输。量传输。量传输。

【技术实现步骤摘要】
一种深度强化学习分组调度方法、系统、终端及介质


[0001]本专利技术涉及移动通信领域,特别涉及一种面向电力海量计量设备业务的深度强化学习分组调度方法。

技术介绍

[0002]电能计量装置的准确可靠是保障电力现货交易结算公平公正的基础。随着高比例新能源和高比例电力电子设备的接入,电网运行方式更加复杂,对计量准确性提出了更高要求。需建设广域在线监测体系,开展面向关口电能表、互感器等设备的在线监测,建立广域节点模型,实现云端协同分析。
[0003]随着智能电网的飞速发展,现有的无线网络资源已经无法满足通信业务种类多样化的需求。认知无线传感器网络理念的引入有效地解决了智能电网无线传感器网络面临的异构无线网络共存、频谱资源紧张、频谱资源利用率较低等问题。由于电力通信业务异构性强且QoS要求差异性大,如何运用高效的调度算法以充分利用通信资源的时变特性,满足资源利用率和业务传输质量的要求,成为电力通信网亟需解决的问题之一。
[0004]传统的调度算法没有考虑频谱资源的动态调整,不能在可用传输资源实时变化的情况下为用户提供可靠的服务质量保障;改进的QoS路由算法和Neely.提出的一种具有分组时延保证的机会调度算法在一定程度上满足了网络的时延和可靠性要求。现有的认知无线调度机制仅考虑了主用户的绝对优先权,并没有考虑各次级用户的相对优先权,不能满足智能电力通信网中为异构业务提供差异化QoS服务的需求。
[0005]近年来,机器学习领域得到了迅速的发展。运用机器学习的方法进行电力计量设备业务的数据传输调度,可以得到很好的收益。基于5G大接入技术的百万级数据采集系统的数据短时高并发特征,采用机器学习的方法提取数据短时高并发业务的规律;其次,分析短时高并发业务的业务组成,构建适应短时高并发业务接入的动态分组策略;最后,分析数据需求的优先级,建立基于数据分组的调度管理机制。

技术实现思路

[0006]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种深度强化学习分组调度方法,能够按照其网络业务QoS要求和重要程度划分优先级,对各个优先级业务设置合理高效的数据分组调度策略,来提高较高优先级次级用户数据分组的传输性能。
[0007]本专利技术还提出一种具有上述深度强化学习分组调度方法的装置、终端及介质。
[0008]根据本专利技术的第一方面实施例的深度强化学习分组调度方法,其特征在于,包括以下步骤:
[0009]基于采集到的业务数据划分为若干个优先级类别并建立系统模型,其中每个优先级类别都包含有QoS需求业务;
[0010]根据系统状态做出相应的策略,即通过某个信道将业务数据传输调度到目标位
置,需要进行计算的业务数据传输至边缘计算节点,系统状态包括当前业务数据的优先级和各个信道的可用性;
[0011]将第k和k+1调度周期的系统状态分别输入到价值网络中,分别得到两个阶段的近似系统成本,从而得到目标损失函数;
[0012]将损失函数反向输入价值网络,用于更新价值网络的权重参数。
[0013]根据本专利技术实施例的深度强化学习分组调度方法,至少具有如下有益效果:
[0014]该方法利用通感算一体化思想,采用多智能体深度强化学习的方法,实现多种QoS业务的分组调度问题。实际考虑了电力计量设备的不同业务类型特性,建立了业务分类模型,将业务划分为若干优先级类别,并设置了业务优先级动态调整机制,通过深度强化学习算法建立了业务数据包调度模型,基于神经网络设计了面向时延的数据包调度方法,通过神经网络的不断训练,使得不同优先级数据包的时延得到优化,可以使多用户能够公平的共享链路带宽,提高网络利用率,保证各类电力计量业务的时延,实现多业务的高质量传输。
[0015]根据本专利技术的一些实施例,所述基于采集到的业务数据划分为若干个优先级类别并建立系统模型,其中每个优先级类别都包含有QoS需求业务的步骤,包括:
[0016]根据电力通信业务的异构性特点,对业务流进行分类、整形和聚合,将单一流转化为聚集流;
[0017]将通信网络中的用户分为控制用户PU与其他用户SU,控制用户PU发送智能电网中用于控制、保护和管理的重要信息,对应最高优先级等级0;
[0018]将其他用户SU发送的信息不同优先级;
[0019]基于上述条件建立系统模型。
[0020]根据本专利技术的一些实施例,所述其他用户的不同优先级包括四种:
[0021]实时性要求高的业务,如高级测量体系,用SU1表示;
[0022]有计算需求的业务,如平均用电量,用SU2表示;
[0023]实时性和数据速率要求一般,可靠性要求较高的业务,如数据采集与监视控制,用SU3表示;
[0024]对实时性和速率要求较低的业务,如智能电表抄表,可用SU4表示。
[0025]根据本专利技术的一些实施例,所述基于上述条件建立系统模型的步骤,包括:
[0026]假设1个认知频段由P个正交且同构的子信道构成,并被P个PU和N个SU共享;系统可看作是一个单跳的认知通信网络,所有用户向认知通信基站发送信息;由于对系统中的SU进行了优先级的划分,因而各优先级类SU对信道的接入能力也有所不同;优先级更高的SU比优先级较低的用户,对可用信道有更高的接入能力;
[0027]SU利用空闲的频谱资源进行数据分组的传输,如果在SU信息传输过程中PU再出现,SU应该从该信道中被丢弃或切换到其他空闲信道上继续传输,SU接入和切换时,较高优先级的SU可占用较低优先级SU信道,并尽量占用优先级最低的SU用户信道,以避免发生多次切换;
[0028]对于每类优先级数据包,都存在一个数据包的缓存队列,当所有可用信道都被PU或更高优先级的SU占用时,此优先级的数据包将会被阻塞,被阻塞的数据包重新进入缓存队列等待下次传输调度;
[0029]当有些紧急情况发生时,将此类业务的数据包提高其优先级,以保障智能电网的可靠性。
[0030]根据本专利技术的一些实施例,所述根据系统状态做出相应的策略,即通过某个信道将业务数据传输调度到目标位置,需要进行计算的业务数据传输至边缘计算节点,系统状态包括当前业务数据的优先级和各个信道的可用性的步骤,包括:
[0031]建立深度强化学习神经网络模型;
[0032]初始化价值网络、策略网络、经验缓冲池参数和其他参数;
[0033]更新调度周期k=1;
[0034]获取状态函数x(k),当前状态包括频段可用性和数据包的优先级;
[0035]通过策略网络得到策略u(k);
[0036]智能体执行策略u(k),获取价值函数R[x(k),u(k)]和下一时刻系统状态函数x(k+1);
[0037]将调度周期k时刻的e
k
=[x(k),u(k),R,x(k+1)]存储到经验回放池;
[0038]通过价值函数R[x(k),u(k)]计算得到系统成本J[x(k)];
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度强化学习分组调度方法,其特征在于,包括以下步骤:基于采集到的业务数据划分为若干个优先级类别并建立系统模型,其中每个优先级类别都包含有QoS需求业务;根据系统状态做出相应的策略,即通过某个信道将业务数据传输调度到目标位置,需要进行计算的业务数据传输至边缘计算节点,系统状态包括当前业务数据的优先级和各个信道的可用性;将第k和k+1调度周期的系统状态分别输入到价值网络中,分别得到两个阶段的近似系统成本,从而得到目标损失函数;将损失函数反向输入价值网络,用于更新价值网络的权重参数。2.根据权利要求1所述的方法,其特征在于,所述基于采集到的业务数据划分为若干个优先级类别并建立系统模型,其中每个优先级类别都包含有QoS需求业务的步骤,包括:根据电力通信业务的异构性特点,对业务流进行分类、整形和聚合,将单一流转化为聚集流;将通信网络中的用户分为控制用户PU与其他用户SU,控制用户PU发送智能电网中用于控制、保护和管理的重要信息,对应最高优先级等级0;将其他用户SU发送的信息不同优先级;基于上述条件建立系统模型。3.根据权利要求2所述的方法,其特征在于,所述其他用户的不同优先级包括四种:实时性要求高的业务,如高级测量体系,用SU1表示;有计算需求的业务,如平均用电量,用SU2表示;实时性和数据速率要求一般,可靠性要求较高的业务,如数据采集与监视控制,用SU3表示;对实时性和速率要求较低的业务,如智能电表抄表,可用SU4表示。4.根据权利要求2所述的方法,其特征在于,所述基于上述条件建立系统模型的步骤,包括:假设1个认知频段由P个正交且同构的子信道构成,并被P个PU和N个SU共享;系统可看作是一个单跳的认知通信网络,所有用户向认知通信基站发送信息;由于对系统中的SU进行了优先级的划分,因而各优先级类SU对信道的接入能力也有所不同;优先级更高的SU比优先级较低的用户,对可用信道有更高的接入能力;SU利用空闲的频谱资源进行数据分组的传输,如果在SU信息传输过程中PU再出现,SU应该从该信道中被丢弃或切换到其他空闲信道上继续传输,SU接入和切换时,较高优先级的SU可占用较低优先级SU信道,并尽量占用优先级最低的SU用户信道,以避免发生多次切换;对于每类优先级数据包,都存在一个数据包的缓存队列,当所有可用信道都被PU或更高优先级的SU占用时,此优先级的数据包将会被阻塞,被阻塞的数据包重新进入缓存队列等待下次传输调度;当有些紧急情况发生时,将此类业务的数据包提高其优先级,以保障智能电网的可靠性。5.根据权利要求1所述的方法,其特征在于,所述根据系统状态做出相应的策略,即通
过某个信道将业务数据传输调度到目标位置,需要进行计算的业务数据传输至边缘计算节点,系统状态包括当前业务数据的优先级和各个信道的可用性的步骤,包括:建立深度强化学习神经网络模型;初始化价值网络、策略网络、经验缓冲池参数和其他参数;更新调度周期k=1;...

【专利技术属性】
技术研发人员:祝恩国张海龙郑国权刘岩阿辽沙
申请(专利权)人:中国电力科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1