一种基于MAPPO算法的WiFi网络资源调度方法及系统技术方案

技术编号：40141468 阅读：14 留言：0更新日期：2024-01-23 23:41

本发明专利技术属于网络资源调度技术领域，尤其涉及一种基于MAPPO算法的WiFi网络资源调度方法及系统，AP获取每个STA对应的缓存队列的相关信息；将OFDMA资源调度问题建模为一个部分可见马尔可夫决策过程，并定义其中的状态、动作以及奖励函数；采用MAPPO深度强化学习算法求解最优策略；根据最优策略来控制OFDMA资源单元的调度本发明专利技术可以在有效地保证时延敏感节点可靠性的同时，最大化带宽型业务节点的吞吐量。本发明专利技术通过合理地设置全局奖励函数中的权重参数，在网络带宽为20MHz且总数据输入速率不超过20Mbps的情况下能够保障高达92.67％的可靠性。本发明专利技术在时延敏感业务和带宽型业务节点共存的上行网络场景中展现出良好的稳定性与泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于网络资源调度，尤其涉及一种基于mappo算法的wifi网络资源调度方法。

技术介绍

1、在无线局域网中，wifi协议是最常用的无线接入技术，已成为家庭和办公场所主要的网络接入方式。然而，在实际的家庭wifi网络环境中，多个设备连接到同一个wifi网络的情况十分普遍，而且这些设备通常具有不同的网络需求。在这种背景下，如何有效地管理和分配网络资源，以满足时延敏感业务与带宽型业务的共存问题，已成为学术界广泛关注的问题。随着无线流量的持续增长，wifi网络面临着容量和服务质量的挑战，尤其是在需要同时支持时延敏感业务和带宽密集型业务的场景下。传统的wifi网络在这种复杂情况下往往难以完美地满足不同类型业务的需求。针对这个问题，ofdma技术的引入成为提升wifi网络容量和服务质量的一个重要研究方向。通过合理的ofdma资源调度方法，可以优化网络资源的利用，降低数据传输的延迟，从而提高用户的网络体验。然而，在当前的研究中主要主要集中在优化整体吞吐量方面，而在时延敏感网络场景中保证端到端时延的研究还相对较少。因此，有必要进一步深入研究和开发一种自适应的ofdma资源调度器，以满足不同业务需求并优化网络整体性能。

2、通过上述分析，现有技术存在的问题及缺陷为：在时延敏感业务与带宽型业务共存的场景下，传统的wifi网络往往难以完美满足不同需求。

3、解决上述问题的难点在于：不同类型的节点必须在有限的网络资源(如带宽、缓存和路由器)上展开竞争。因此，在确保时延敏感节点的服务质量的同时，尽可能提高带宽型业务节点的

4、解决上述问题和缺陷的意义在于：可以有效地保障时延敏感节点的可靠性，同时最大化带宽型业务节点的吞吐量，为构建高效可靠的网络提供了切实可行的解决方案。这种方法有助于有效地保障不同类型用户的服务质量，为面向时延敏感wifi网络的智能ofdma资源调度提供一定的指导意义。通过解决这些问题，可以为无线网络中的混合业务场景带来更出色的性能和用户体验。

技术实现思路

1、针对现有技术存在的问题，本专利技术提供了一种基于mappo算法的wifi网络资源调度方法，专注于面向时延敏感和带宽型业务节点共存的wifi网络场景。

2、本专利技术是这样实现的，一种基于mappo算法的wifi网络资源调度方法，包括：

3、s1，ap获取每个sta对应的缓存队列的相关信息；

4、s2，将ofdma资源调度问题建模为一个部分可见马尔可夫决策过程(pomdp)，并定义其中的状态、动作以及奖励函数；

5、s3，采用mappo深度强化学习算法求解最优策略；

6、s4，根据最优策略来控制ofdma资源单元的调度。

7、进一步，上行网络场景存在两种不同类型的节点，sta的个数为6，其中5个sta的业务均属于时延敏感类型，即每个sta均要求自己发送或接收的数据包的端到端时延在一定阈值内，另外还有1个sta是带宽型业务，其数据速率要求高，需要更大的带宽来满足需求。

8、进一步，缓存队列信息包括缓存队列的长度和各个缓存队列中头包的排队时延。

9、进一步，建立路口拥堵畅通状态模型具体为：

10、ofdma资源调度智能体采用多智能体深度强化学习方法，存在对时延敏感节点进行资源调度的智能体agent-ts和对带宽型业务节点进行资源调度的智能体agent-th，每个智能体有自己的actor网络，但是共享同一个全局critic网络，通过一个中心化的函数来考虑全局信息，从而使得单个的ppo智能体能够相互配合；使用全局critic网络的优点是能够简化多智能体问题为一个mdp，从而简化值函数的学习过程。在训练阶段，全局critic会获取智能体的本地观察和各自的动作的集合且智能体能够通过bsr帧中的相关信息计算出全局的奖励值rt，并将这些数据全部存储到经验回放池，用来分别更新actor和critic网络；和分别是智能体agent-ts和agent-th的actor网络，全局的critic网络则表示为vω；

11、构建神经网络和为策略网络，并构造一个相同结构的和作为旧的策略网络，所构建的神经网络包括输入层、两个全连接层和输出层，输入层为缓存队列的相关信息，输出层为当前状态s采取所有动作的概率分布；此外，构建神经网络vω为价值函数网络，其结构与策略网络的区别是，输出层为状态s的预期收益；经验回放池用于记录所有的样本其中表示当前本地观察，则分别表示智能体agent-ts和agent-th当前缓存队列状态下执行的动作，rt表示在当前缓存队列状态s下执行动作得到的立即回报，表示在状态s下执行动作后迁移到的下一个状态时获得的本地观察。

12、进一步，将时延敏感业务节点和带宽型业务节点共存的上行网络场景中的资源调度问题抽象为一个部分可见马尔可夫决策过程，并定义了其中的状态、动作以及立即奖赏函数，具体为：

13、状态(state)表示为st，在t时刻，智能体u能够观察到的状态这个状态包括了所有时延敏感节点的缓存队列长度以及队列头包的排队时延的集合；全局状态是智能体的本地观察集，在环境的全局状态可观测时，因为智能体能够完全了解系统状态，此时

14、动作(action)表示为at。对时延敏感节点进行资源调度的智能体agent-ts的动作空间用表示，对带宽型业务节点进行资源调度的智能体agent-th的动作空间用表示；agent-ts的动作空间的定义与仅存在时延敏感节点的场景一致，为选择参与本次数据传输的sta个数；agent-th的动作空间定义为：若在本次传输机会中带宽型业务节点不参与传输，则反之为1。最终所有智能体的联合动作为

15、奖励函数(reward)表示为rt，所有智能体在t时刻的奖励函数由两部分构成，分别是时延敏感节点的奖励和带宽型业务节点的奖励具体定义为：

16、

17、

18、

19、其中，nt,success表示端到端时延满足时延要求的数据包数量，nt,fail表示端到端时延不满足时延要求的数据包数量，nt,sum＝nt,success+nt,fail，β则用于调整两种用户的优先级，其取值范围为[0,1]；β越大，表示智能体更倾向于优先满足时延敏感节点的信道资源需求。

20、进一步，所述利用mappo深度强化学习算法求解最优策略，具体为：

21、初始化智能体模型

22、初始化全局经验回放池dg；

23、将缓存队列的状态信息通过当前策略网络和得到任意状态s下的策略并根据该策略选择动作，每一次状态转移，即根据状态做出动作本文档来自技高网...

【技术保护点】

1.一种基于MAPPO算法的WiFi网络资源调度方法，其特征在于，包括：

2.如权利要求1所述的基于MAPPO算法的WiFi网络资源调度方法，其特征在于，上行网络场景存在两种不同类型的节点，STA的个数为6，其中5个STA的业务均属于时延敏感类型，即每个STA均要求自己发送或接收的数据包的端到端时延在一定阈值内，另外还有1个STA是带宽型业务，其数据速率要求高，需要更大的带宽来满足需求。

3.如权利要求1所述的基于MAPPO算法的WiFi网络资源调度方法，其特征在于，缓存队列信息包括缓存队列的长度和各个缓存队列中头包的排队时延。

4.如权利要求1所述的基于MAPPO算法的WiFi网络资源调度方法，其特征在于，建立路口拥堵畅通状态模型具体为：

5.如权利要求1所述的基于MAPPO算法的WiFi网络资源调度方法，其特征在于，将时延敏感业务节点和带宽型业务节点共存的场景中的资源调度问题，成功地抽象为一个部分可见马尔可夫决策过程；定义状态、动作以及立即奖赏函数；状态包含所有时延敏感节点的缓存队列长度和队列头包的排队时延的集合，动作则定义为不

6.如权利要求1所述的基于MAPPO算法的WiFi网络资源调度方法，其特征在于，所述利用MAPPO深度强化学习算法求解最优策略，具体为：

7.一种基于MAPPO算法的WiFi网络资源调度系统，其特征在于，包括：

8.一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如权利要求1～6任意一项所述的基于MAPPO算法的WiFi网络资源调度方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如权利要求1～6任意一项所述的基于MAPPO算法的WiFi网络资源调度方法的步骤。

10.一种信息数据处理终端，信息数据处理终端用于实现如权利要求7所述的基于MAPPO算法的WiFi网络资源调度系统。

...

【技术特征摘要】

1.一种基于mappo算法的wifi网络资源调度方法，其特征在于，包括：

2.如权利要求1所述的基于mappo算法的wifi网络资源调度方法，其特征在于，上行网络场景存在两种不同类型的节点，sta的个数为6，其中5个sta的业务均属于时延敏感类型，即每个sta均要求自己发送或接收的数据包的端到端时延在一定阈值内，另外还有1个sta是带宽型业务，其数据速率要求高，需要更大的带宽来满足需求。

3.如权利要求1所述的基于mappo算法的wifi网络资源调度方法，其特征在于，缓存队列信息包括缓存队列的长度和各个缓存队列中头包的排队时延。

4.如权利要求1所述的基于mappo算法的wifi网络资源调度方法，其特征在于，建立路口拥堵畅通状态模型具体为：

5.如权利要求1所述的基于mappo算法的wifi网络资源调度方法，其特征在于，将时延敏感业务节点和带宽型业务节点共存的场景中的资源调度问题，成功地抽象为一个部分可见马尔可夫决策过程；定义状态、动作以及立即奖赏函数；状态包含所有时延敏感节点的缓存队列...

【专利技术属性】
技术研发人员：高雅玙，贺俊杰，谭清煜，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人