当前位置: 首页 > 专利查询>东南大学专利>正文

面向无蜂窝网络用户调度与资源配置的多智能体学习方法技术

技术编号:39718923 阅读:8 留言:0更新日期:2023-12-17 23:25
本发明专利技术公开了一种面向无蜂窝网络用户调度与资源配置的多智能体学习方法,构建无蜂窝网络系统模型,建立联合用户调度

【技术实现步骤摘要】
面向无蜂窝网络用户调度与资源配置的多智能体学习方法


[0001]本专利技术涉及无蜂窝网络中的用户调度与资配置
,特别涉及一种面向无蜂窝网络用户调度与资源配置的多智能体学习方法


技术介绍

[0002]无蜂窝
(cell

free)
网络是第6代
(6G)
移动通信通信中的新兴网络架构

在这种网络中,大量的接入点
(AP)
通过前传链路连接到中央处理单元
(CPU)
,消除了传统蜂窝网络中的小区边缘的概念

相较于传统蜂窝网络,无蜂窝网络可以为用户设备
(UE)
提供更好的服务质量
(QoS)
,从而提高系统吞吐量

频谱效率和覆盖范围

合理的用户连接和调度是影响无蜂窝网络性能的关键因素

此外,随着服务的用户数量增加,有效配置有限的资源以实现更高的系统性能仍然是亟待解决的难题

[0003]许多文献已经针对用户调度问题进行了研究,并提出了各种有效的方法

例如在确保用户服务质量的同时,采用连续凸逼近的方法最大化无蜂窝网络的系统和速率;在保证用户最小数据速率的情况下最大化多输入多输出干扰广播系统的和速率等

同时,诸如频谱分配和功率控制等的资源配置问题,也受到了广泛的研究

一些方法比如加权最小均方误差
(WMMSE)
,分式规划
(FP)
等被提出

尽管这些方法性能良好,但需要瞬时的全局信道状态信息
(CSI)
,同时需要一定次数的迭代才能得到最优解

当系统规模增加时,实现复杂度会急剧增加

因此,在实际系统中使用这些方法非常具有挑战性

另一方面,基于数据驱动的机器学习
(ML)
方法,例如监督学习等,可以在降低计算复杂度的同时实现良好的性能

但是,它们需要收集大量的训练数据,在实际中也很难实现

[0004]与传统方法不同,强化学习
(RL)
不需要预先生成训练数据集

智能体通过与环境的交互学习最优策略,因此对于动态无线环境尤为适用

多智能体强化学习
(MARL)
包括多个智能体,以分布式的方式学习最优策略,并在仅使用部分系统信息时获得良好的性能

近来,强化学习也被广泛应用于无线通信领域解决资源配置等问题,取得了不错的效果

[0005]目前,虽然存在很多关于用户调度和资源配置的文章,但是很多都是解决这些问题中的某个问题或者某两个问题,联合考虑这三个问题的研究并不多

此外,很多基于强化学习的功率控制方法都是将发射功率量化成几个级别,通过深度
Q
学习方法来解决,这对于功率控制这一连续问题来说,很可能求解得到的不是最优解

所以需要在考虑实际情况的基础上,设计联合解决用户调度和资源配置问题的方法,降低算法的实现复杂度,并获得显著的系统性能


技术实现思路

[0006]本专利技术提供一种面向无蜂窝网络用户调度与资源配置的多智能体学习方法,用以联合解决无蜂窝网络中的用户调度和资源配置问题

针对系统性能的要求,本专利技术将
AP
视为智能体,使用深度
Q
学习
(Q

learning)
和深度确定性策略梯度
(DDPG)
两种强化学习算法,设计级联的两层网络结构,并设计合理的状态空间

动作空间以及奖励函数,通过集中式训
练分布式执行
(CTDE)
的方法,训练一个部署在中央处理单元
(CPU)
处的神经网络并获得可用于其他
AP
的全局最优策略,以确定每个时隙每个
AP
所调度的用户

所选择的子频带以及使用的发射功率

[0007]本专利技术实施例提供一种面向无蜂窝网络用户调度与资源配置的多智能体学习方法,包括以下步骤:
[0008]步骤
S1
,构建包括多个接入点和用户的无蜂窝网络系统模型;
[0009]步骤
S2
,根据所述无蜂窝网络系统模型建立联合用户调度

子频带选择和功率控制的混合整数线性规划
(MILP)
问题,其中,所述混合整数线性规划问题以最大化无蜂窝网络系统的平均加权和速率为目标,以每个时隙每个接入点调度一个用户

选择一个子频带以及每个接入点的最大发射功率为约束;
[0010]步骤
S3
,使用深度
Q
学习和深度确定性策略梯度算法,解决所述混合整数线性规划问题,并设计智能体

状态空间

动作空间和奖励函数;
[0011]步骤
S4
,在每个接入点和中央处理单元处均部署结构相同的级联的两层网络,分别是深度
Q
网络和深度确定性策略梯度网络;
[0012]步骤
S5
,初始化环境,初始化多智能体强化学习的参数,将所述多智能体强化学习的参数分别复制给深度
Q
网络和深度确定性策略梯度网络中的目标深度
Q
网络

目标动作网络和目标评价网络;
[0013]步骤
S6
,在每个回合的每个时隙内,确定每个接入点中待调度的用户集合,对于每个智能体,获得当前在所有可选子频带上的状态作为本地深度
Q
网络的输入,通过本地深度
Q
网络得到相应的动作,确定当前时隙调度的用户以及分配到的子频带,获得当前在所选子频带上的状态作为深度确定性策略梯度网络中动作网络的输入,并通过动作网络获得这一状态下的动作,即所选择的发射功率因子,当所有智能体执行相应的动作后,计算当前的奖励,即系统的平均加权和速率,对于每个智能体,得到在所有子频带上的下一时隙的状态,并将这一状态与上一时刻在所有子频带上的状态

通过深度
Q
网络选择的动作以及奖励依次存储到用于收集训练深度
Q
网络的经验池中,获得每个智能体在当前所选子频带上的下一时隙的状态,并将这一状态与上一时刻在所选子频带上的状态,动作网络选择的动作以及当前时刻的奖励依次存储到用于收集训练
DDPG
网络的经验池中;
[0014]步骤
S7
,当两个经验池中的经验数量足够时,对步骤
S4
中构建的深度
...

【技术保护点】

【技术特征摘要】
1.
一种面向无蜂窝网络用户调度与资源配置的多智能体学习方法,其特征在于,包括以下步骤:步骤
S1
,构建包括多个接入点和用户的无蜂窝网络系统模型;步骤
S2
,根据所述无蜂窝网络系统模型建立联合用户调度

子频带选择和功率控制的混合整数线性规划问题,其中,所述混合整数线性规划问题以最大化无蜂窝网络系统的平均加权和速率为目标,以每个时隙每个接入点调度一个用户

选择一个子频带以及每个接入点的最大发射功率为约束;步骤
S3
,使用深度
Q
学习和深度确定性策略梯度算法,解决所述混合整数线性规划问题,并设计智能体

状态空间

动作空间和奖励函数;步骤
S4
,在每个接入点和中央处理单元处均部署结构相同的级联的两层网络,分别是深度
Q
网络和深度确定性策略梯度网络;步骤
S5
,初始化环境,初始化多智能体强化学习的参数,将所述多智能体强化学习的参数分别复制给深度
Q
网络和深度确定性策略梯度网络中的目标深度
Q
网络

目标动作网络和目标评价网络;步骤
S6
,在每个回合的每个时隙内,确定每个接入点中待调度的用户集合,对于每个智能体,获得当前在所有可选子频带上的状态作为本地深度
Q
网络的输入,通过本地深度
Q
网络得到相应的动作,确定当前时隙调度的用户以及分配到的子频带,获得当前在所选子频带上的状态作为深度确定性策略梯度网络中动作网络的输入,并通过动作网络获得这一状态下的动作,即所选择的发射功率因子,当所有智能体执行相应的动作后,计算当前的奖励,即系统的平均加权和速率,对于每个智能体,得到在所有子频带上的下一时隙的状态,并将这一状态与上一时刻在所有子频带上的状态

通过深度
Q
网络选择的动作以及奖励依次存储到用于收集训练深度
Q
网络的经验池中,获得每个智能体在当前所选子频带上的下一时隙的状态,并将这一状态与上一时刻在所选子频带上的状态,动作网络选择的动作以及当前时刻的奖励依次存储到用于收集训练
DDPG
网络的经验池中;步骤
S7
,当两个经验池中的经验数量足够时,对步骤
S4
中构建的深度
Q
网络以及深度确定性策略梯度网络进行训练;步骤
S8
,重复步骤
S6
和步骤
S7
直至获得训练好的神经网络,并将训练好的神经网络的参数复制到每个接入点处的网络上,基于训练好的深度学习网络进行用户调度

子频带选择以及功率控制问题的求解
。2.
根据权利要求1所述的方法,其特征在于,所述无蜂窝网络系统模型包括
N
个接入点和
U
个单天线用户,
N
个接入点共享
M
个可分配的频谱,接入点到用户的信道增益包含大尺度衰落和小尺度衰落,大尺度衰落包含路径损耗和阴影衰落,小尺度衰落服从一阶高斯马尔可夫过程
。3.
根据权利要求1所述的方法,其特征在于,根据所述无蜂窝网络系统模型建立联合用户调度

子频带选择和功率控制的混合整数线性规划问题包括:在每个回合开始时,根据用户到接入点的距离确定每个接入点的用户集合,接入点
i
的用户集合记为维度为
K
i
,在
t
时刻,每个接入点从对应的用户集合中调度一个用户,并选择一个子频带,同时确定自身的发射功率,分别使用二进制变量和表示在时隙
t
,接
入点
i
是否调度其用户集合中的用户
j
以及接入点
i
在时隙
t
内是否选择子频带
m
,使用表示接入点
i
在时隙
t
的发射功率,使用和和分别表示子频带选择向量

用户调度向量和功率控制向量,所述混合整数线性规划问题为:规划问题为:规划问题为:规划问题为:规划问题为:规划问题为:其中,表示接入点
i
中的用户
j
在时刻
t
的权重,表示在接入点
i
中的用户
j
在时刻
t
的可达速率,公式
(1a)
表示接入点发射功率限制,
P
max
为接入点最大发射功率,
(1d)
表示每个接入点在每个时隙只调度一个用户,
(1e)
说明每个接入点在时隙
t
只选择一个子频带;基于比例公平方法根据接入点
i
中的用户
j
在时刻
t
是否被调度计算其权重是否被调度计算其权重其中,
t
c
表示使用的平均窗口大小
。4.
根据权利要求3所述的方法,其特征在于,所述步骤
S3
包括:步骤
S301
,将每个接入点视为一个智能体;步骤
S302
,获得每个智能体在时刻
t
的状态,其中,深度
Q
网络的状态为每个接入点在所有子频带上的状态的合集,深度确定性策略梯度网络的状态为使用深度
Q
网络确定所选子频带后,使用每个接入点在所选子频带上的状态作为深度确定性策略梯度网络的状态,采用集中式训练分布式执行方法训练智能体并获得一个全局策略,每个智能体将自身的本地信息作为状态,在每个时隙开始之前,每个接入点从其用户集合中选择具有最高权重的前
O
个用户组成待调度的用户集合,用表示在时隙
t
,接入点
i
待调度的用户集合,在每个时隙
t
开始时,智能体
i
根据其信道增益与接收到的总干扰功率之比对所有子带进行排序,排序表示为接入点
i
在时隙
t
子频带
m
上的状态,包括以下组成部分:
a)
在时刻
t
时,接入点
i
到中所有用户在子频带
m
上的信道增益;
b)
集合中的用户在
t
‑1时刻的加权速率;
c)
智能体
i

t
‑1时刻受到的干扰;
d)
在时刻
t
时,智能体
i
对子频带
m
的排序值;
e)

t
‑1时刻智能体
i
在子频带
m
上使用的发射功率;在时刻
t
,接入点
i
在子频带
m...

【专利技术属性】
技术研发人员:许威张薇钱玉蓉
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1