基于多智能体强化学习的通信网络速率控制系统及方法技术方案

技术编号:38359795 阅读:9 留言:0更新日期:2023-08-05 17:29
本发明专利技术公开了一种基于多智能体强化学习的通信网络速率控制系统及方法,其中系统包括:源节点,用于根据中心服务器发送的第一发送速率发送数据包;多个中间节点,用于根据接收到的观测值,通过策略网络获取自身的第二发送速率;根据获得的第二发送速率转发数据包;中心服务器,用于收集所有节点的观测值和动作值,根据所有节点的观测值和动作值学习函数网络和策略网络,将学习到的策略网络的参数发送给中间节点,将第一发送速率发送给源节点。本发明专利技术对网络参数进行集中式训练,并将学习到的参数下发给节点,实现节点间的协同与合作,提高网络的吞吐量和降低网络延时,进而提升网络性能。本发明专利技术可广泛应用于无线网络拥塞控制的技术领域。技术领域。技术领域。

【技术实现步骤摘要】
基于多智能体强化学习的通信网络速率控制系统及方法


[0001]本专利技术涉及无线网络拥塞控制的
,尤其涉及一种基于多智能体强化学习的通信网络速率控制系统及方法。

技术介绍

[0002]现有的网络体系采用典型的IP/TCP五层架构体系,从下往上依次为:物理层、数据链路层、网络层、运输层以及应用层,运输层使用面向连接的TCP(Transmission Control Protrol)协议,ACK可以保证数据的可靠性传输,同时有拥塞窗口(cwdm)采用慢开始和AIDM(加法增大,乘法减小)的算法进行有效的流量控制。
[0003]TCP在有线网络中表现出了优异的性能,在多跳无线网络中大打折扣。这是因为TCP利用ACK的有序到达作为网络拥塞的依据,所以如果网络中经常出现数据包的丢失,但又不是由网络拥塞引起的,如高误码率、信道冲突、路由失效等其他因素,那么TCP层的发送窗口会频繁减小,进而导致网络的吞吐量大大降低。Semi

TCP的提出解决了上述问题,Semi

TCP把拥塞控制功能从TCP层解耦到下层(链路层或网络层),这样端到端的流量控制转变为逐跳的控制,比传输层更准确、迅速的了解网络的拥塞状况,避免误判。
[0004]目前Semi

TCP的实现主要有以下两种机制:1)在源端进行通信网络速率控制,采用二分搜索算法,找到MAC层最优的发送速率。2)基于拥塞反馈的机制,到达拥塞门限后向上游节点发送拥塞反馈,调节发送速率,避免拥塞。以上两种方法都只在单一的节点进行速率的控制,上游节点的发送往往过于激进,进而导致下游节点的拥塞,通过这种逐跳调节的反馈机制可以使网络的性能得到一定的提升,但是这样的调节机制过于被动,往往在拥塞发生以后才进行反馈和调节,节点之间缺乏协同与合作。

技术实现思路

[0005]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种基于多智能体强化学习的通信网络速率控制系统及方法。
[0006]本专利技术所采用的技术方案是:
[0007]一种基于多智能体强化学习的通信网络速率控制系统,包括:
[0008]源节点,用于根据中心服务器发送的第一发送速率发送数据包;
[0009]多个中间节点,将每一个中间节点作为一个智能体,用于根据接收到的观测值,通过策略网络获取自身的第二发送速率;根据获得的第二发送速率转发数据包;
[0010]目的节点,用于接收数据包;
[0011]中心服务器,用于在预设时隙间隔内收集所有节点的观测值和动作值,根据所有节点的观测值和动作值学习函数网络和策略网络,将学习到的策略网络的参数发送给中间节点,将第一发送速率发送给源节点;所述策略网络的参数包括观测值;
[0012]其中,在初始状态下,源节点和中间节点均随机产生一个动作值作为自身的发送速率。
[0013]进一步地,所述智能体中设有值函数网络、策略网络以及学习所需的目标值函数网络、目标策略网络;其中,所述值函数网络(Critic)用于评估价值;所述策略网络(Actor)用于输出策略;所述目标值函数网络用于估计下一状态的价值,所述目标策略网络用于估计下一动作;所述目标值函数网络和目标策略网络使用软更新的方法得到。
[0014]进一步地,所述源节点和中间节点中设有存储空间,用于保存观测值和动作值;
[0015]所述观测值包括:节点的队列长度、数据包接收速率、发送速率和数据包平均停留时间;所述动作值为发送速率。
[0016]进一步地,所述源节点和中间节点采用加权移动平均的方式定期更新观测值,以避免剧烈波动。
[0017]进一步地,节点通过以下方式控制发送速率:
[0018]设置一个发送计时器,所述发送计时器的超时时间为发送速率的倒数;
[0019]当设置的发送计时器超时时,发送数据包,并重启所述发送计时器;其中所述发送计时器的超时时间根据策略网络得出的发送速率不断更新。
[0020]进一步地,若传输层是UDP协议,通过发送计时器控制数据包向下发送的速率,发送计时器的超时时间是中心服务器反馈的发送速率的倒数;若传输层是TCP协议,去掉发送窗口的控制机制,通过发送计时器控制发送速率;
[0021]在中间节点,网络层采用去尾方法接收数据包,当队列满时数据包丢失,通过设置发送计时器控制数据包的发送速率。
[0022]进一步地,所述中心服务器通过最小化评估值与目标值之间的误差更新函数网络(Critic),通过最大化累积期望回报更新策略网络(Actor),以及采用软更新方法更新函数网络和策略网络两者的目标网络。
[0023]本专利技术所采用的另一技术方案是:
[0024]一种基于多智能体强化学习的通信网络速率控制方法,包括以下步骤:
[0025]初始化:在源节点中随机产生一个动作值作为自身的发送速率,在中间节点中随机产生一个动作值作为自身的发送速率;
[0026]中心服务器在预设时隙间隔内收集所有节点的观测值和动作值,根据所有节点的观测值和动作值学习价值函数和策略网络参数,将学习到的策略网络的参数发送给中间节点,将第一发送速率发送给源节点;
[0027]源节点根据接收到的第一发送速率发送数据包;
[0028]将每一个中间节点作为一个智能体,中间节根据接收到的观测值,通过策略网络获取自身的第二发送速率,并根据第二发送速率转发数据包;
[0029]目的节点接收数据包,实现数据的传输。
[0030]进一步地,所述中心服务器通过最小化评估值与目标值之间的误差更新函数网络(Critic),通过最大化累积期望回报更新策略网络(Actor),以及采用软更新方法更新函数网络和策略网络两者的目标网络。
[0031]进一步地,节点通过以下方式控制发送速率:
[0032]设置一个发送计时器,所述发送计时器的超时时间为发送速率的倒数;
[0033]当设置的发送计时器超时时,发送数据包,并重启所述发送计时器;其中所述发送计时器的超时时间根据策略网络得出的发送速率不断更新。
[0034]本专利技术的有益效果是:本专利技术使用多智能体强化学习框架,对网络参数进行集中式训练,并将学习到的参数下发给节点,实现节点间的协同与合作,提高网络的吞吐量和降低网络延时,进而提升网络性能。
附图说明
[0035]为了更清楚地说明本专利技术实施例或者现有技术中的技术方案,下面对本专利技术实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本专利技术的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
[0036]图1是本专利技术实施例中一种基于多智能体强化学习的通信网络速率控制系统的示意图;
[0037]图2是本专利技术实施例中一种基于多智能体强化学习的通信网络速率控制系统的网络模型框图;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的通信网络速率控制系统,其特征在于,包括:源节点,用于根据中心服务器发送的第一发送速率发送数据包;多个中间节点,将每一个中间节点作为一个智能体,用于根据接收到的观测值,通过策略网络获取自身的第二发送速率;根据获得的第二发送速率转发数据包;目的节点,用于接收数据包;中心服务器,用于在预设时隙间隔内收集所有节点的观测值和动作值,根据所有节点的观测值和动作值学习函数网络和策略网络,将学习到的策略网络的参数发送给中间节点,将第一发送速率发送给源节点;所述策略网络的参数包括观测值;其中,在初始状态下,源节点和中间节点均随机产生一个动作值作为自身的发送速率。2.根据权利要求1所述的一种基于多智能体强化学习的通信网络速率控制系统,其特征在于,所述智能体中设有值函数网络、策略网络以及学习所需的目标值函数网络、目标策略网络;其中,所述值函数网络用于评估价值;所述策略网络用于输出策略;所述目标值函数网络用于估计下一状态的价值,所述目标策略网络用于估计下一动作。3.根据权利要求1所述的一种基于多智能体强化学习的通信网络速率控制系统,其特征在于,所述源节点和中间节点中设有存储空间,用于保存观测值和动作值;所述观测值包括:节点的队列长度、数据包接收速率、发送速率和数据包平均停留时间;所述动作值为发送速率。4.根据权利要求3所述的一种基于多智能体强化学习的通信网络速率控制方法,所述源节点和中间节点采用加权移动平均的方式定期更新观测值。5.根据权利要求1所述的一种基于多智能体强化学习的通信网络速率控制系统,其特征在于,节点通过以下方式控制发送速率:设置一个发送计时器,所述发送计时器的超时时间为发送速率的倒数;当设置的发送计时器超时时,发送数据包,并重启所述发送计时器;其中所述发送计时器的超时时间根据策略网络得出的发送速率不断更新。6.根据权利要求5所述的一种基于多智能体强化学习的通信网络速率控制系统,其特征在于,在源节点上,若传输层...

【专利技术属性】
技术研发人员:官权升叶余辉陈伟琦
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1