基于多智能体强化学习的通信网络速率控制系统及方法技术方案

技术编号：38359795 阅读：9 留言：0更新日期：2023-08-05 17:29

本发明专利技术公开了一种基于多智能体强化学习的通信网络速率控制系统及方法，其中系统包括：源节点，用于根据中心服务器发送的第一发送速率发送数据包；多个中间节点，用于根据接收到的观测值，通过策略网络获取自身的第二发送速率；根据获得的第二发送速率转发数据包；中心服务器，用于收集所有节点的观测值和动作值，根据所有节点的观测值和动作值学习函数网络和策略网络，将学习到的策略网络的参数发送给中间节点，将第一发送速率发送给源节点。本发明专利技术对网络参数进行集中式训练，并将学习到的参数下发给节点，实现节点间的协同与合作，提高网络的吞吐量和降低网络延时，进而提升网络性能。本发明专利技术可广泛应用于无线网络拥塞控制的技术领域。技术领域。技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
基于多智能体强化学习的通信网络速率控制系统及方法

[0001]本专利技术涉及无线网络拥塞控制的
，尤其涉及一种基于多智能体强化学习的通信网络速率控制系统及方法。

技术介绍

[0002]现有的网络体系采用典型的IP/TCP五层架构体系，从下往上依次为：物理层、数据链路层、网络层、运输层以及应用层，运输层使用面向连接的TCP(Transmission Control Protrol)协议，ACK可以保证数据的可靠性传输，同时有拥塞窗口(cwdm)采用慢开始和AIDM(加法增大，乘法减小)的算法进行有效的流量控制。
[0003]TCP在有线网络中表现出了优异的性能，在多跳无线网络中大打折扣。这是因为TCP利用ACK的有序到达作为网络拥塞的依据，所以如果网络中经常出现数据包的丢失，但又不是由网络拥塞引起的，如高误码率、信道冲突、路由失效等其他因素，那么TCP层的发送窗口会频繁减小，进而导致网络的吞吐量大大降低。Semi
‑
TCP的提出解决了上述问题，Semi
‑
TCP把拥塞控制功能从TCP层解耦到下层(链路层或网络层)，这样端到端的流量控制转变为逐跳的控制，比传输层更准确、迅速的了解网络的拥塞状况，避免误判。
[0004]目前Semi
‑
TCP的实现主要有以下两种机制：1)在源端进行通信网络速率控制，采用二分搜索算法，找到MAC层最优的发送速率。2)基于拥塞反馈的机制，到达拥塞门限后向上游节点发送拥塞反馈，调节发送速率，避免拥塞。以上两种方法都只在单...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的通信网络速率控制系统，其特征在于，包括：源节点，用于根据中心服务器发送的第一发送速率发送数据包；多个中间节点，将每一个中间节点作为一个智能体，用于根据接收到的观测值，通过策略网络获取自身的第二发送速率；根据获得的第二发送速率转发数据包；目的节点，用于接收数据包；中心服务器，用于在预设时隙间隔内收集所有节点的观测值和动作值，根据所有节点的观测值和动作值学习函数网络和策略网络，将学习到的策略网络的参数发送给中间节点，将第一发送速率发送给源节点；所述策略网络的参数包括观测值；其中，在初始状态下，源节点和中间节点均随机产生一个动作值作为自身的发送速率。2.根据权利要求1所述的一种基于多智能体强化学习的通信网络速率控制系统，其特征在于，所述智能体中设有值函数网络、策略网络以及学习所需的目标值函数网络、目标策略网络；其中，所述值函数网络用于评估价值；所述策略网络用于输出策略；所述目标值函数网络用于估计下一状态的价值，所述目标策略网络用于估计下一动作。3.根据权利要求1所述的一种基于多智能体强化学习的通信网络速率控制系统，其特征在于，所述源节点和中间节点中设有存储空间，用于保存观测值和动作值；所述观测值包括：节点的队列长度、数据包接收速率、发送速率和数据包平均停留时间；所述动作值为发送速率。4.根据权利要求3所述的一种基于多智能体强化学习的通信网络速率控制方法，所述源节点和中间节点采用加权移动平均的方式定期更新观测值。5.根据权利要求1所述的一种基于多智能体强化学习的通信网络速率控制系统，其特征在于，节点通过以下方式控制发送速率：设置一个发送计时器，所述发送计时器的超时时间为发送速率的倒数；当设置的发送计时器超时时，发送数据包，并重启所述发送计时器；其中所述发送计时器的超时时间根据策略网络得出的发送速率不断更新。6.根据权利要求5所述的一种基于多智能体强化学习的通信网络速率控制系统，其特征在于，在源节点上，若传输层...

【专利技术属性】
技术研发人员：官权升，叶余辉，陈伟琦，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人