一种基于深度强化学习的异构网络资源能效优化方法技术

技术编号:38470746 阅读:16 留言:0更新日期:2023-08-11 14:47
本发明专利技术提供了一种基于深度强化学习的异构网络资源能效优化方法,针对实际环境迅速变化的通信场景,使用多Actor网络和单Critic网络的架构来分配传输功率和子载波,实现了通过与环境交互获得信息,并通过不断的深度强化学习获得长期最大化收益,解决了Actor

【技术实现步骤摘要】
一种基于深度强化学习的异构网络资源能效优化方法


[0001]本专利技术涉及无线通信
,具体但不限于涉及一种基于深度强化学习的异构网络资源能效优化方法。

技术介绍

[0002]随着5G的正式商用,无线通信的发展也进入了新阶段。根据爱立信的预测,到2022年,物联网设备将达到290亿部,到2024年,移动数据流量将以每年35%的速度增长。随着社会通信需求的增加,对目前的无线网络构成了巨大的压力,同时也对通信技术提出了更高的要求。异构网络的出现,减轻了这方面的压力。异构网络是一种可以扩大网络覆盖面积、提高频谱使用效率和系统容量的网络架构技术。为满足无线通信需求,异构组网技术在传统蜂窝网络覆盖的前提下,通过增加多类型小型基站,对特定区域进行覆盖,实现消除盲区和覆盖热点区域,减少终端设备与基站间距离,使得更多的设备在接入网络时可以获得较好的通信质量。异构网络可以在一个宏基站内部署多个小覆盖的微基站或毫微微基站,以提高频谱利用效率和网络覆盖。具体来说,微基站和毫微微基站可以与宏基站复用并共享同一频谱,提高频谱效率。因此异构网络不仅提高了网络容量,而且满足了未来无线网络中用户日益增长的通信需求,并且降低了部署成本。
[0003]然而,小基站的密集随机部署会产生严重的干扰和较高能耗问题,为降低网络干扰、保证用户网络服务质量(QoS)并提高网络能源效率,需要针对异构网络构建资源分配和能源效率优化的框架。然而,考虑到实际环境情况,用户大多都是以动态的方式存在,而且考虑到无线网络的巨大状态空间,例如位置信息、信道增益、功率等,利用传统的强化学习方法并不适用。传统强化学习中的Q

learning方法,由于现实中巨大的状态空间,会导致存储Q值的Q值表巨大,在查找和存储都需要消耗大量的时间和空间,算法的收敛速度大大降低。
[0004]有鉴于此,需要提供一种新的方法,以期解决上述至少部分问题。

技术实现思路

[0005]针对现有技术中的一个或多个问题,本专利技术提出了一种基于深度强化学习的异构网络资源能效优化方法,解决了传统算法不能处理状态空间大的问题,解决了Actor

Critic神经网络每次参数更新前后都存在的相关性,增强了鲁棒性。
[0006]实现本专利技术目的的技术解决方案为:
[0007]一种基于深度强化学习的异构网络资源能效优化方法,包括:
[0008]S1、建立异构网络模型,初始化通信环境并设定模拟环境区域,包括基站布局、基站数量、用户设备数量和子载波数量,其中,用户设备和基站之间基于最大信号与干扰加噪声比SINR原则进行关联,基站采用正交频分多址将资源分配给相关用户设备;
[0009]S2、根据用户设备的信噪比、网络的容量及能源效率,确定优化目标;
[0010]S3、引入马尔科夫模型,确定智能体、状态空间、动作空间和奖励函数;
[0011]S4、构建改进的深度确定性策略梯度算法DDPG,所述改进DDPG算法采用多策略网络Actor和单价值网络Critic进行分配传输功率和子载波的训练和输出,其中,Actor网络的输入为当前智能体的状态,输出为子载波分配策略和子载波上的发射功率;Critic网络的输入为智能体的动作、状态,输出为动作的损失和学习到的权重参数;
[0012]S5、设置智能体训练回合数、每回合训练步数,每个智能体通过改进DDPG算法与所设定的环境产生不断的交互,优化更新网络的参数,获得最优的资源分配方案。
[0013]进一步的,本专利技术的基于深度强化学习的异构网络资源能效优化方法,所述通信环境包括一个宏基站、N个毫微微基站和M个用户设备,子载波数为K,M个用户设备和N个毫微微基站由宏基站覆盖,其中,N个毫微微基站服从泊松分布,M个用户设备均匀随机分布。
[0014]进一步的,本专利技术的基于深度强化学习的异构网络资源能效优化方法,S2确定优化目标和约束条件包括:
[0015]S2

1、确定用户所收到的干扰信号,计算用户设备的信噪比信息;
[0016]S2

2、使用高斯近似处理干扰噪声,计算网络的容量及能源效率;
[0017]S2

3、确定优化目标为:用户设备的信噪比大于最小服务质量要求,并最大化能源效率。
[0018]进一步的,本专利技术的基于深度强化学习的异构网络资源能效优化方法,S2

1中计算用户的信噪比信息具体包括:
[0019]S2
‑1‑
1、假设每个用户设备在任何时候最多只能选择一个基站,当第i个用户设备选择并连接到第l个基站时,则有:当l=n时,a
i,l
(t)=1;当l≠n时,a
i,l
(t)=0,其中,n={1,

,N},a
i,l
(t)表示在t时刻基站l与用户设备i之间的连接关系,i∈M,l∈N,N为毫微微基站数量,M为用户设备数量;
[0020]S2
‑1‑
2、在第k个子载波上,由第l个基站服务的用户设备i的信噪比为:
[0021][0022]其中,k∈K,K为子载波数,a
i,l
表示基站l与用户设备i之间的连接关系系数,和分别表示第l和l

个基站在第k个子载波上和用户之间的信道增益,σ2表示为高斯白噪声,和分别表示第l和l

个基站在第k个子载波上的发射功率。
[0023]进一步的,本专利技术的基于深度强化学习的异构网络资源能效优化方法,S2

2中计算网络的容量及能源效率具体包括:
[0024]S2
‑2‑
1、在第k个子载波上,宏基站与其关联用户设备实现的容量为:
[0025][0026]其中,表示宏基站h和用户设备i之间的信道增益,表示宏基站h在第k个子载波上的发射功率,表示毫微微基站n和用户设备i之间的信道增益,表示毫微微基站n在第k个子载波上的发射功率,σ2表示为高斯白噪声,N为毫微微基站数量;
[0027]S2
‑2‑
2、在第k个子载波上,毫微微基站与其关联用户设备实现的容量为:
[0028][0029]其中,表示毫微微基站n和用户设备i之间的信道增益,表示毫微微基站n在第k个子载波上的发射功率;
[0030]S2
‑2‑
3、宏基站和毫微微基站共存在网络中的容量C
sum
为:
[0031][0032]其中,N为毫微微基站数量;
[0033]S2
‑2‑
4、网络的能源效率η
EE
为:
[0034][0035][0036]其中,P
sum
为在网络模型中单位时间内所有基站的功耗,P
n
为毫微微基站n的发射功率,P
h
为宏基站的发射功率,P
c
为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的异构网络资源能效优化方法,其特征在于,包括:S1、建立异构网络模型,初始化通信环境并设定模拟环境区域,包括基站布局、基站数量、用户设备数量和子载波数量,其中,用户设备和基站之间基于最大信号与干扰加噪声比SINR原则进行关联,基站采用正交频分多址将资源分配给相关用户设备;S2、根据用户设备的信噪比网络的容量及能源效率η
EE
,确定优化目标;S3、引入马尔科夫模型,确定智能体、状态空间、动作空间和奖励函数;S4、构建改进的深度确定性策略梯度算法DDPG,所述改进DDPG算法采用多策略网络Actor网络和单价值网络Critic网络进行分配传输功率和子载波的训练和输出,其中,Actor网络的输入为当前智能体的状态,输出为子载波分配策略和子载波上的发射功率;Critic网络的输入为智能体的动作、状态,输出为动作的损失和学习到的权重参数;S5、设置智能体训练回合数、每回合训练步数,每个智能体通过改进DDPG算法与所设定的环境产生不断的交互,优化更新网络参数,获得最优的异构网络资源分配方案。2.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法,其特征在于,所述通信环境包括一个宏基站、N个毫微微基站和M个用户设备,子载波数为K,M个用户设备和N个毫微微基站由宏基站覆盖,其中,N个毫微微基站服从泊松分布,M个用户设备均匀随机分布。3.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法,其特征在于,S2确定优化目标和约束条件包括:S2

1、确定用户设备所收到的干扰信号,计算用户设备的信噪比信息;S2

2、使用高斯近似处理干扰噪声,计算网络的容量及能源效率;S2

3、确定优化目标为:用户设备的信噪比大于最小服务质量要求,并最大化能源效率。4.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法,其特征在于,S2

1中计算用户的信噪比信息具体包括:S2
‑1‑
1、假设每个用户设备在任何时候最多只能选择一个基站,当第i个用户设备选择并连接到第l个基站时,则有:当l=n时,a
i,l
(t)=1;当l≠n时,a
i,l
(t)=0,其中,n={1,

,N},a
i,l
(t)表示在t时刻基站l与用户设备i之间的连接关系,i∈M,l∈N,N为毫微微基站数量,M为用户设备数量;S2
‑1‑
2、在第k个子载波上,由第l个基站服务的用户设备i的信噪比为:其中,k∈K,K为子载波数,a
i,l
表示基站l与用户设备i之间的连接关系系数,和分别表示第l和l

个基站在第k个子载波上和用户之间的信道增益,σ2表示为高斯白噪声,和分别表示第l和l

个基站在第k个子载波上的发射功率。5.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法,其特征在于,S2

2中计算网络的容量及能源效率具体包括:
S2
‑2‑
1、在第k个子载波上,宏基站与其关联用户设备实现的容量为:其中,表示宏基站h和用户设备i之间的信道增益,表示宏基站h在第k个子载波上的发射功率,表示毫微微基站n和用户设备i之间的信道增益,表示毫微微基站n在第k个子载波上的发射功率,σ2表示为高斯白噪声,N为毫微微基站数量;S2
‑2‑
2、在第k个子载波上,毫微微基站与其关联用户设备实现的容量为:其中,表示毫微微基站n和用户设备i之间的信道增益,表示毫微微基站n在第k个子载波上的发射功率;S2
‑2‑
3、宏基站和毫微微基站共存在网络中的容量C
sum
为:其中,N为毫微微基站数量;S2
‑2‑
4、网络的能源效率η
EE
为:为:其中,P
sum
为在网络模型中单位时间内所有基站的功耗,P
n
为毫微微基站n的发射功率,P
h
为宏基站的发射功率,P
c
为宏基站和毫微微基站各电路的功耗。6.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法,其特征在于,S2

3中优化目标及约束条件具体包括:优化目标为:argmaxη
EE
约束条件包括:约束条件包括:约束条件包括:...

【专利技术属性】
技术研发人员:徐钰龙
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1