基于多智能体强化学习的负载均衡方法技术

技术编号:33922813 阅读:77 留言:0更新日期:2022-06-25 21:17
本发明专利技术公开了基于多智能体强化学习的负载均衡方法,包括以下步骤:第一步:收集网络信息,初始化参数;第二步:进行多智能体深度确定性策略梯度训练学习最优用户切换策略,具体包括:初始化当前训练步数;统计当前步网络状态;根据策略网络选取当前动作;对每个用户执行动作;统计当前执行动作后的网络状态和奖励;将当前样本存入经验回放池;若经验回放池样本数量大于批量大小,则对每个智能体的Q网络和策略网络权值进行更新;然后判断当前训练步数是否可整除每轮互动次数,若是则初始化网络环境,开启新一轮训练,直到每轮累计奖励值收敛到最大值,获得n个最优策略网络。本发明专利技术能够改善网络负载不均衡性,以更精细化方式降低网络负载。负载。负载。

【技术实现步骤摘要】
基于多智能体强化学习的负载均衡方法


[0001]本专利技术属于无线通信中的负载均衡领域,具体涉及基于多智能体强化学习的负载均衡方法。

技术介绍

[0002]无线通信中通过将重载基站中部分用户切换到轻载基站,实现各基站之间负载均衡。现有的负载均衡方法主要依据用户的服务基站参考信号接收功率(Reference Signal Receiving Power,RSRP)判定用户是否需要进行切换,实际上影响用户切换的因素还有基站负载状态、用户数据速率要求。

技术实现思路

[0003]专利技术目的:为了解决上述
技术介绍
存在的不足,本专利技术提出基于多智能体强化学习的负载均衡方法,将负载均衡问题抽象为随机博弈过程(Stochastic Game),然后使用多智能体深度确定性策略梯度(Multi

agent Deep Deterministic Policy Gradient,MADDPG)方法进行求解,能够改善网络负载不均衡性,以更精细化方式降低网络负载。
[0004]技术方案:为了实现上述专利技术目的,本专利技术的一种基于多智能体强化学习的负载均衡方法,包括以下步骤:
[0005]第一步:收集网络信息,包括参与负载均衡基站集合M、根据重载基站中满足A4事件用户生成与用户一一对应的智能体集合N={u1,u2,...,u
i
,...,u
n
},其中u
i
表示第i个智能体,n为智能体个数;初始化强化学习参数;
[0006]第二步:进行多智能体深度确定性策略梯度训练学习最优用户切换策略,包括如下步骤:
[0007]步骤2.1、用t表示当前训练步数,初始化t=1;初始化所有目标策略网络权值和所有目标Q网络权值;
[0008]步骤2.2、收集智能体集合N中所有智能体对应用户的服务基站的负载状态和参考信号接收功率,当前t训练步第i个智能体状态为s
i
(t)=(ρ
i
(t),RSRP
i
(t)),其中ρ
i
(t)、RSRP
i
(t)分别为第i个智能体对应用户的服务基站负载、参考信号接收功率;当前t训练步整个通信网络环境的状态由所有智能体的状态组成:s
total
(t)=(s1(t),s2(t),...,s
i
(t),...,s
n
(t));
[0009]步骤2.3、根据策略网络为智能体集合N中所有智能体选取当前动作,当前t训练步第i个智能体动作为其中ε(t)是奥恩斯坦

乌伦贝克(Ornstein

Uhlenbeck,OU)随机过程,为第i个智能体策略网络;当前t训练步整个通信网络环境的动作由所有智能体的动作组成:a
total
(t)=(a1(t),a2(t),...,a
i
(t),...,a
n
(t));
[0010]步骤2.4、执行所有智能体的动作a
total
(t)=(a1(t),a2(t),...,a
i
(t),...,a
n
(t)),a
i
(t)∈{A0,A1},当a
i
(t)=A0,第i个智能体对应的用户不进行切换操作,保留在当前服务基站,当a
i
(t)=A1,第i个智能体对应的用户切换到参考信号接收功率最大的邻基站,
如果切换后导致邻基站超载,该用户切换回服务基站,如果切换后没有导致邻基站超载,则留在邻基站;
[0011]步骤2.5、整个通信网络环境中所有智能体的奖励为r
total
(t)=(r1(t),r2(t),...,r
i
(t),...,r
n
(t)),其中r
i
(t)表示当前t训练步第i个智能体的奖励,所有智能体的奖励满足r1(t)=...=r
i
(t)=...=r
n
(t)=r(t),r(t)为奖励值;
[0012]步骤2.6、收集智能体集合N中所有智能体执行动作a
total
(t)后对应用户的服务基站的负载状态和参考信号接收功率,更新智能体下一步即t+1步状态,t+1步第i个智能体状态为s
i
(t+1)=(ρ
i
(t+1),RSRP
i
(t+1)),整个通信网络环境的下一步状态为s
total
(t+1)=(s1(t+1),s2(t+1),...,s
i
(t+1),...,s
n
(t+1));
[0013]步骤2.7、将当前样本(s
total
(t),a
total
(t),r
total
(t),s
total
(t+1))存入经验回放池D中;
[0014]步骤2.8、如果当前经验回放池D存储样本数量大于批量大小batch_size,则转入步骤2.9,完成智能体集合N中所有智能体的目标Q网络和目标策略网络权值更新过程;如果当前经验回放池D存储样本数量小于批量大小batch_size,则转入步骤2.10;
[0015]步骤2.9、利用梯度下降法对智能体集合N中每一个智能体的Q网络权值、策略网络权值、目标Q网络权值和目标策略网络的权值进行更新;
[0016]步骤2.10、如果t%steps_per_episode=0,其中%表示取模值,steps_per_episode为每轮互动次数,计算此轮训练的累计奖励值,初始化环境,开启新一轮训练;
[0017]步骤2.11、令t=t+1;
[0018]步骤2.12、重复步骤2.2

步骤2.11直到每轮累计奖励值收敛到最大值;
[0019]步骤2.13、退出迭代,获得n个最优策略网络;
[0020]步骤2.14、根据最优策略网络能够在用户的任意状态下决策用户是否需要切换,来改善网络负载不均衡性,以更精细化方式降低网络负载。
[0021]进一步的,第一步所述初始化强化学习参数,包括:
[0022]学习速率lr、折扣因子γ、神经网络层数h、每层神经元个数p、每轮互动次数steps_per_episode、批量大小batch_size、经验回放池D的大小replay_size;
[0023]针对智能体集合N定义n个策略网络,对各个策略网络的权值进行初始化,所有智能体的策略网络权值集合为φ={φ1,φ2,...,φ
i
,...,φ
n
},其中φ
i
为智能体集合N中第i个智能体的策略网络权值,则所有智能体的策略网络集合为其中为智能体集合N中第i个智能体策略网络;针对智能体集合N定义n个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的负载均衡方法,其特征在于,包括以下步骤:第一步:收集网络信息,包括参与负载均衡基站集合M、根据重载基站中满足A4事件用户生成与用户一一对应的智能体集合N={u1,u2,...,u
i
,...,u
n
},其中u
i
表示第i个智能体,n为智能体个数;初始化强化学习参数;第二步:进行多智能体深度确定性策略梯度训练学习最优用户切换策略,包括如下步骤:步骤2.1、用t表示当前训练步数,初始化t=1;初始化所有目标策略网络权值和所有目标Q网络权值;步骤2.2、收集智能体集合N中所有智能体对应用户的服务基站的负载状态和参考信号接收功率,当前t训练步第i个智能体状态为s
i
(t)=(ρ
i
(t),RSRP
i
(t)),其中ρ
i
(t)、RSRP
i
(t)分别为第i个智能体对应用户的服务基站负载、参考信号接收功率;当前t训练步整个通信网络环境的状态由所有智能体的状态组成:s
total
(t)=(s1(t),s2(t),...,s
i
(t),...,s
n
(t));步骤2.3、根据策略网络为智能体集合N中所有智能体选取当前动作,当前t训练步第i个智能体动作为其中ε(t)是奥恩斯坦

乌伦贝克(Ornstein

Uhlenbeck,OU)随机过程,为第i个智能体策略网络;当前t训练步整个通信网络环境的动作由所有智能体的动作组成:a
total
(t)=(a1(t),a2(t),...,a
i
(t),...,a
n
(t));步骤2.4、执行所有智能体的动作a
total
(t)=(a1(t),a2(t),...,a
i
(t),...,a
n
(t)),a
i
(t)∈{A0,A1},当a
i
(t)=A0,第i个智能体对应的用户不进行切换操作,保留在当前服务基站,当a
i
(t)=A1,第i个智能体对应的用户切换到参考信号接收功率最大的邻基站,如果切换后导致邻基站超载,该用户切换回服务基站,如果切换后没有导致邻基站超载,则留在邻基站;步骤2.5、整个通信网络环境中所有智能体的奖励为r
total
(t)=(r1(t),r2(t),...,r
i
(t),...,r
n
(t)),其中r
i
(t)表示当前t训练步第i个智能体的奖励,所有智能体的奖励满足r1(t)=...=r
i
(t)=...=r
n
(t)=r(t),r(t)为奖励值;步骤2.6、收集智能体集合N中所有智能体执行动作a
total
(t)后对应用户的服务基站的负载状态和参考信号接收功率,更新智能体下一步即t+1步状态,t+1步第i个智能体状态为s
i
(t+1)=(ρ
i
(t+1),RSRP
i
(t+1)),整个通信网络环境的下一步状态为s
total
(t+1)=(s1(t+1),s2(t+1),...,s
i
(t+1),...,s
n
(t+1));步骤2.7、将当前样本(s
total
(t),a
total
(t),r
total
(t),s
total
(t+1))存入经验回放池D中;步骤2.8、如果当前经验回放池D存储样本数量大于批量大小batch_size,则转入步骤2.9,完成智能体集合N中所有智能体的目标Q网络和目标策略网络权值更新过程;如果当前经验回放池D存储样本数量小于批量大小batch_size,则转入步骤2.10;步骤2.9、利用梯度下降法对智能体集合N中每一个智能体的Q网络权值、策略网络权值、目标Q网络权值和目标策略网络的权值进行更新;步骤2.10、如果t%steps_per_episode=0,其中%表示取模值,steps_per_episode为每轮互动次数,计算此轮训练的累计奖励值,初始化环境,开启新一轮训练;步骤2.11、令t=t+1;
步骤2.12、重复步骤2.2

步骤2.11直到每轮累计奖励值收敛到最大值;步骤2.13、退出迭代,获得n个最优策略网络;步骤2.14、根据最优策略网络能够在用户的任意状态下决策用户是否需要切换,来改善网络负载不均衡性,以更精细化方式降低网络负载。2.根据权利要求1所述的基于多智能体强化学习的负载均衡方法,其特征在于,第一步所述初始化强化学习参数,包括:学习速率lr、折扣因子γ、神经网络层数h、每层神经元个数p、每轮互动次数steps_per_episode、...

【专利技术属性】
技术研发人员:潘志文李紫誉刘楠尤肖虎
申请(专利权)人:网络通信与安全紫金山实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1