当前位置: 首页 > 专利查询>厦门大学专利>正文

一种信道绑定WiFi网络的信道分配方法组成比例

技术编号:38542814 阅读:22 留言:0更新日期:2023-08-19 17:10
本发明专利技术涉及一种信道绑定WiFi网络的信道分配方法,其包括训练阶段:通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息,并将其存储在数据缓冲区中,构建神经网络,并使用PPO算法对神经网络进行训练;部署阶段:通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息,利用训练后的神经网络生成每个AP的信道选择动作,并将其下发到每个AP进行执行。本发明专利技术不依赖先验干扰模型,只通过实际吞吐量的反馈信息训练神经网络,并用于多AP信道参数的选择,在难以获取干扰模型的隐藏终端和隐藏信道场景下有更好的吞吐量表现。更好的吞吐量表现。更好的吞吐量表现。

【技术实现步骤摘要】
一种信道绑定WiFi网络的信道分配方法


[0001]本专利技术涉及无线网络领域,具体涉及一种信道绑定WiFi网络的信道分配方法。

技术介绍

[0002]WiFi网络能提供越来越高的传输速率,其中关键技术之一是信道绑定(channel bonding)。在信道绑定WiFi网络中,接入点(Access Point,AP)会确定一个主信道,同时设置一个最大的信道绑定带宽用于选择次信道。在信道接入时,AP会根据实际信道使用情况,绑定主信道与次信道进行数据传输。另一方面,多个AP组成的WiFi网络也越来越普遍,多个AP共同为一个区域内的WiFi终端节点服务。但是在这种大规模网络下,进行信道绑定参数分配存在严峻的挑战。由于AP数量多于可用信道数量,不可避免地会进行信道重用,不恰当的信道选择会造成严重的干扰导致网络吞吐量的下降。
[0003]此外,WiFi网络的动态性也会给信道分配带来巨大的挑战。一方面,每个AP服务的区域的流量需求存在动态性,如何为多个AP分配适当的信道绑定参数以满足不断变化的流量需求同时达到较高的吞吐量存在挑战。另一方面,网络部署环境复杂,常常存在隐藏终端和隐藏信道的情况,且存在动态性。隐藏终端问题主要由于AP在彼此监听范围之外,同时发送数据包造成的,如果接收终端节点刚好处于两个AP的通信范围内,则导致碰撞,否则两AP可同时传输。隐藏信道问题主要是因为AP选择了不同的信道配置,产生了不对称的干扰关系,随着所选信道配置的变化,彼此之间的干扰关系也在变化。
[0004]为了进行信道分配,现有的方法主要是传统的启发式算法或基于模型驱动的强化学习方法。传统的启发式算法(Abraham N, Winston P P E, Vadivel M. Adaptive channel allocation algorithm for WiFi networks, 2014 International Conference on Circuits, Power and Computing Technologies. IEEE, 2014: 1307

1311.)以最小化网络干扰为优化目标,需要准确的信道干扰模型。但在复杂网络环境中(比如隐藏信道和隐藏终端),很难获得准确的干扰模型。此外现有方法往往依赖确定的流量模型,不适用于流量变化场景。
[0005]基于模型的强化学习方法net2seq (Iacoboaiea O, Krolikowski J, Houidi Z B, et al. Real

time channel management in WLANs: Deep reinforcement learning versus heuristics, 2021 IFIP Networking Conference (IFIP Networking). IEEE, 2021: 1

9 )是通过干扰模型来进行信道分配的。虽然适用于流量变化场景,但是依赖固定的干扰模型,在复杂网络环境中(比如隐藏信道和隐藏终端),难以适用。

技术实现思路

[0006]针对现有技术存在的问题,本专利技术的目的在于提供一种信道绑定WiFi网络的信道分配方法,其依靠吞吐量的反馈识别存在冲突的信道配置,依靠深度强化学习自适应动态干扰关系与流量变换,使用PPO算法训练神经网络实现稳定的收敛,从而解决隐藏终端和隐藏信道场景下的信道分配策略问题,并且适用于流量动态变换的场景。
[0007]为实现上述目的,本专利技术采用的技术方案是:一种信道绑定WiFi网络的信道分配方法,其包括以下阶段:训练阶段:通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息,并将其存储在数据缓冲区中,构建神经网络,并使用PPO算法对神经网络进行训练;部署阶段:通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息,利用训练后的神经网络生成每个AP的信道选择动作,并将其下发到每个AP进行执行。
[0008]所述训练阶段包括以下几个步骤:步骤1.1、构造训练集:在训练阶段,通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量,并将其存储在数据缓冲区中;步骤1.2、构造神经网络:构造两个全连接网络分别作为Actor网络和Critic网络,Actor网络用于生成每个AP的信道选择动作,Critic网络用于生成信道选择动作的状态价值,并复制一个old_Actor网络用于信道选择动作的对数概率计算,其中,为old_Actor网络参数下的策略表示,用于计算状态下动作的对数概率,并在每轮训练结束后将Actor网络参数复制给old_Actor网络;步骤1.3、训练神经网络:将观测信息归一化处理后构建观测状态向量作为输入状态,将每个AP的所有信道选择组合作为动作空间,将累计吞吐量作为奖励函数,通过PPO算法训练神经网络。
[0009]所述步骤1.3中,训练神经网络过程具体包括:步骤1.31、将观测信息归一化处理后构建观测状态向量作为输入状态;步骤1.32、将每个AP的所有信道选择组合作为动作空间,即表示为每个AP分配的主信道,表示为每个AP分配的最大允许绑定信道数量;步骤1.33、将累积吞吐量作为奖励函数,表示AP的数量,表示第j个AP在t时刻的吞吐量;步骤1.34、通过PPO算法训练神经网络;步骤1.3.1中,将观测信息归一化的操作具体为:(1)信道选择:,其中表示可用信道数量,表示信道是否被所选择,表示第j个AP;
(2)流量负载:,表示当前周期 生成的数据包数量和最大可发送数据包数量的比例,并将其剪切在0和1之间;(3)吞吐量:,表示在当前周期的吞吐量,表示可以实现的最大吞吐量。
[0010]所述步骤1.34中,通过PPO算法训练神经网络的过程具体包括以下步骤:(1)根据数据缓冲区中的数据,计算每一条数据的累计奖励值,将观测状态向量输入到Critic网络获取状态价值;然后计算优势值,表示当前Actor网络生成的信道选择动作的好坏程度;(2)将观测状态向量输入到old_Actor网络和Actor网络分别计算信道选择动作的对数概率和,然后计算重要性采样系数;(3)根据Actor网络的损失函数计算损失值,并使用梯度下降方法更新Actor网络;(4)根据累计奖励值和状态价值计算Critic网络的损失值,并使用梯度下降方法更新Critic网络。
[0011]所述部署阶段包括以下几个步骤:步骤2.1、部署神经网络:将训练好的PPO智能体部署在WiFi网络的中央控制器上;步骤2.2、收集输入状态:通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息,归一化处理后构成观测状态向量;步骤2.3、生成并执行动作:将观测状态向量输入训练后的Actor网络生成每个AP的信道选择动作,并下发到每个AP执行。
[0012]采用上述方案后,本专利技术不依赖先验干扰模型,只通过实际吞吐量的反馈信息训练神经网络,并用于多AP信道参数的选择,在难以获取干扰模型的隐藏终端和隐藏本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信道绑定WiFi网络的信道分配方法,其特征在于:包括以下阶段:训练阶段:通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息,并将其存储在数据缓冲区中,构建神经网络,并使用PPO算法对神经网络进行训练;部署阶段:通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息,利用训练后的神经网络生成每个AP的信道选择动作,并将其下发到每个AP进行执行。2.如权利要求1所述的一种信道绑定WiFi网络的信道分配方法,其特征在于:所述训练阶段包括以下几个步骤:步骤1.1、构造训练集:在训练阶段,通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量,并将其存储在数据缓冲区中;步骤1.2、构造神经网络:构造两个全连接网络分别作为Actor网络和Critic网络,Actor网络用于生成每个AP的信道选择动作,Critic网络用于生成信道选择动作的状态价值,并复制一个old_Actor网络用于信道选择动作的对数概率计算,其中,为old_Actor网络参数下的策略表示,用于计算状态下动作的对数概率,并在每轮训练结束后将Actor网络参数复制给old_Actor网络;步骤1.3、训练神经网络:将观测信息归一化处理后构建观测状态向量作为输入状态,将每个AP的所有信道选择组合作为动作空间,将累计吞吐量作为奖励函数,通过PPO算法训练神经网络。3.如权利要求2所述的一种信道绑定WiFi网络的信道分配方法,其特征在于:所述步骤1.3中,训练神经网络过程具体包括:步骤1.31、将观测信息归一化处理后构建观测状态向量作为输入状态;步骤1.32、将每个AP的所有信道选择组合作为动作空间,即,表示为每个AP分配的主信道,表示为每个AP分配的最大允许绑定信道数量;步骤1.33、将累积吞吐量作为奖励函数,表示A...

【专利技术属性】
技术研发人员:刘苇钟琰游理钊舒继武
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1