基于深度强化学习的智能感知双向节点拥塞控制方法技术

技术编号：38472640 阅读：30 留言：0更新日期：2023-08-11 14:49

本发明专利技术为了解决现有技术中节点拥塞的问题，提供了一种基于深度强化学习的智能感知双向节点拥塞控制方法，包括以下步骤：拥塞检测；用于检测节点自身的缓冲队列长度，以及检测节点的上行节点的缓冲队列长度；拥塞通知，将能够与环境交互的智能体部署在终端传感器节点上，智能体需要上行节点告知其局部拥塞情况，采用隐式的拥塞通知来传递拥塞情况；拥塞控制；包括一种基于DRL(的感知双向节点的拥塞控制方法，采用DDQN作为训练模型来动态改变节点的数据包发送速率。本发明专利技术通过感知下行节点和上行节点双方的拥塞关系以此做全局的拥塞考虑，此举可以有效避免因为局部观察的盲区而导致速率调整存在偏差进而加重网络拥塞。致速率调整存在偏差进而加重网络拥塞。致速率调整存在偏差进而加重网络拥塞。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的智能感知双向节点拥塞控制方法

[0001]本专利技术属于物联网中的网络节点控制
，具体涉及基于深度强化学习的智能感知双向节点拥塞控制方法。

技术介绍

[0002]无线传感器网络(WSNs)中的传感器节点通常由电池供电且无法更换，其具有计算、存储、带宽和能源受限等特点。每个传感器节点的主要任务是收集和处理环境中的各种数据信息，再通过簇头节点转发给下一跳或者直接传输给汇聚节点，其中汇聚节点也称为sink节点。
[0003]无线传感器网络中的拥塞大致可以分为：基于节点级别的拥塞和基于链路级别的拥塞。其中基于节点级别的拥塞主要体现在节点的缓冲队列溢出的情况，具体如附图1所示。该拥塞会导致网络中数据包的丢失，数据包递送时间的增加和网络吞吐量下降等一系列问题。
[0004]为了进一步控制拥塞，通常包含三阶段：拥塞检测，拥塞通知和拥塞控制。拥塞检测阶段中，普遍用于进行拥塞检测的参数有：缓冲队列占用情况、信道负载和数据包服务时间。在节点级别的拥塞问题中，主要以传感器节点的缓冲队列作为参考，具体表现在：当缓冲队列值达到某一特定阈值时则意味网络发生了拥塞。
[0005]当网络检测到拥塞后，拥塞信息可以通过显示或者隐式的方式传播给上行节点。显示拥塞通知是通过发送额外的控制数据包来传递拥塞信息，这势必会造成额外的开销，这可能会进一步的导致网络拥塞程度的增加。相反，隐式通知利用拥塞信息的捎带达到拥塞通知的目的，这一举措不会增加额外的开销。
[0006]拥塞信息通知完毕后网络进入拥塞控制阶...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的智能感知双向节点拥塞控制方法，其特征在于：包括以下步骤，拥塞检测；用于检测节点自身的缓冲队列长度，以及检测节点的上行节点的缓冲队列长度，通过双向感知自身与其上行节点的缓冲队列长度用于判断目前网络的拥塞情况，并使用固定阈值作为节点拥塞发生的标志；拥塞通知；将能够与环境交互的智能体部署在终端传感器节点上，智能体需要上行节点告知其局部拥塞情况，采用隐式的拥塞通知来传递拥塞情况；上行节点在接收来自某个下行节点的数据包之后返回一个ACK确认帧，ACK确认帧中会捎带上行节点当前时刻的缓冲队列长度；拥塞控制；包括一种基于DRL的感知双向节点的拥塞控制方法，采用Double DQN作为训练模型来动态改变节点的数据包发送速率，所述DDQN包括评估网络和目标网络，所述评估网络用于根据当前的策略选择动作，目标网络用于评估当前状态的价值；所述智能体(Agent)与环境的交互包括状态空间、动作空间和奖励；所述状态空间S
t
包含四部分，即：其中，表示在时刻t时下行节点的缓冲队列长度，表示在时刻t时上行节点缓冲队列长度，R
t
表示在时刻t时数据包发送速率，N
t
表示在时刻t时下行节点数目；所述动作空间为发送速率变化的倍数，其设置为：a＝{2,1....

【专利技术属性】
技术研发人员：王国伟，朱红坤，贺光华，李奇隆，
申请(专利权)人：重庆川南环保科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人