当前位置: 首页 > 专利查询>无锡学院专利>正文

一种基于深度强化学习算法的D2D用户资源分配方法及存储介质组成比例

技术编号:38222701 阅读:13 留言:0更新日期:2023-07-25 17:54
本发明专利技术公开了一种基于深度强化学习算法的D2D用户资源分配方法及存储介质,涉及无线通信技术领域。所述方法包括:构建无线网络模型,对D2D发射功率进行离散化处理;构建用户信噪比计算模型,以通信系统吞吐量最大为优化目标;设置预测策略网络π、预测价值网络Q、目标策略网络π

【技术实现步骤摘要】
一种基于深度强化学习算法的D2D用户资源分配方法及存储介质


[0001]本专利技术涉及无线通信
,更具体地,涉及一种基于深度强化学习算法的D2D用户资源分配方法及存储介质。

技术介绍

[0002]在当今这个科技快速发展的时代,无线通信技术已经与人们的日常生活名密不可分。人们对移动通信的需求在飞速增加,要求也变得越来越高,从之前的移动通信设备只需要具备简单的通话功能,到后来的需要进行基本的上网搜索,再到如今的刷视频、听音乐,并且对视频的清晰度、音质的要求也逐步提高。然而在用户数量密集、彼此之间通信干扰大的环境下,频谱资源匮乏的问题尤为突出,因此我们提出了许多方法来解决该问题。
[0003]设备到设备(D2D)技术就是其中之一,它是指通信网络中近邻设备之间直接交换信息的技术。使用D2D通信技术相比与传统的蜂窝通信,D2D通信无需以基站作为中继,因此它可以在距离基站较远甚至没有基站的地方进行通信,有效的降低了基站的传输压力,还可以利用D2D通信技术共享蜂窝用户的频谱资源,大大提高了频谱利用率,提升了系统的吞吐量,使整个通信系统的性能得到了提升。
[0004]在D2D通信技术中,对于D2D用户(D2D User Equipment,DUE)进行合理的功率分配以及资源块分配至关重要,DUE主要复用蜂窝用户(Cellular User Equipment,CUE)占用的频谱资源,因此DUE、CUE和基站(Base Station,BS)三者之间互相存在干扰。为了有效的避免这些干扰,提升D2D用户的服务质量(Quality of Service,QoS),许多解决方案都已经被提出。例如利用近些年来十分火热的机器学习技术来处理信道的分配以及功率的控制问题,这些大多都是考虑的一个理想的模型,即所有用户的信息都是确定的。但是考虑到在现实环境中,不管是DUE还是CUE大多都是以动态的方式存在的,例如位置信息、信道增益等,信息量巨大、场景变化迅速导致计算复杂度大,传统的优化方法无法适用。

技术实现思路

[0005]本专利技术为克服上述现有技术所述的无法适应动态环境的缺陷,提供一种基于深度强化学习算法的D2D用户资源分配方法及存储介质。
[0006]为解决上述技术问题,本专利技术的技术方案如下:
[0007]第一方面,一种基于深度强化学习算法的D2D用户资源分配方法,包括:
[0008]构建无线网络模型,对D2D发射功率进行离散化处理生成K个功率等级;所述无线网络模型中包括宏基站、宏基站网络覆盖范围内的L个蜂窝用户及N对D2D用户对,和M个正交频谱资源块,所述无线网络模型被配置的参数包括用户位置;
[0009]构建用户信噪比计算模型,用于计算D2D用户和蜂窝用户的信噪比信息,及设置D2D用户对以及蜂窝用户进行通信的QoS要求,并以D2D用户与蜂窝用户组成的通信系统吞吐量最大为优化目标对无线网络模型进行优化;所述用户信噪比包括D2D用户接收端的信
噪比及蜂窝用户的信噪比;
[0010]宏基站为每个智能体设置预测策略网络π、预测价值网络Q、目标策略网络π

和目标价值网络Q';
[0011]将D2D通信环境建模为马尔可夫决策过程,将D2D发射机视为智能体,循环加载目标策略网络的参数后生成策略与环境进行交互,确定状态空间、动作空间及奖励函数;在满足QoS要求的前提下,每个智能体在t时刻选择要采用的通信模式,根据当前观测到的状态执行动作,获得奖励并转换到下一个状态,将经验组上传至经验池用于集中式训练;其中,所述通信模式包括专用模式、复用模式和等待模式,所述状态包括D2D用户和蜂窝用户的位置信息及信噪比信息,所述动作包括选择用于通信的功率值和资源块;
[0012]采用MAAC算法对每个D2D用户进行策略优化,从经验池中小批量随机采样进行集中式训练,采用TD算法更新预测价值网络,采用梯度下降方法更新预测价值网络的参数,基于智能体执行动作获得的奖励计算累计奖励,根据累计奖励设置策略梯度,基于策略梯度采用梯度上升方法循环更新预测策略网络的参数;其中,所述MAAC算法的学习目标是为每一个智能体学习一个策略,来获得最大累计收益;
[0013]基于预测策略网络和预测价值网络的参数,采用软更新方式循环更新目标策略网络和目标价值网络的参数,直至完成学习训练;
[0014]D2D用户下载完成训练的目标策略网络的参数,进行策略改进,根据观测到的当前环境选择通信模式、资源块和/或通信功率。
[0015]第二方面,一种计算机存储介质,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行第一方面所述的方法。
[0016]与现有技术相比,本专利技术技术方案的有益效果是:
[0017](1)针对于用户数量密集,场景迅速变化的通信场景,传统的算法处理起来十分困难,本专利技术采用的无模型的强化学习算法,可以有效的解决在不确定环境下的决策问题。
[0018](2)本专利技术采用的MAAC算法框架,对多智能体之间的策略进行协调,有效的克服了多智能体环境的非平稳性,实现了通信系统的最优能效,适合于复杂多变的通信场景。
[0019](3)本专利技术采用了集中式训练、分布式执行的方式,D2D用户将与环境交互的有用信息上传至经验池,以此将复杂的训练过程转移到基站进行,使智能体的训练过程更加高效。
[0020](4)本专利技术中的D2D用户对可工作在两种模式:专用模式和复用模式。D2D用户会优先选择空闲信道进行通信,并且当选择进入复用模式前,会先提前检测D2D用户复用蜂窝用户频谱资源后蜂窝用户以及D2D用户是否还满足QoS要求,只有在满足的情况下才可以进行复用,提高了频带利用率的同时,大大降低了蜂窝用户数据传输的失败率,保证了数据传输的可靠性。
[0021](5)本专利技术中的每个D2D用户根据所提算法可以在保证QoS质量的前提下自主的选择传输功率,避免了D2D用户为了数据传输而始终工作在最高的发射功率,降低了系统的功耗。
附图说明
[0022]图1为一种基于深度强化学习算法的D2D用户资源分配方法的流程图;
[0023]图2为实施例1中无线网络模型的结构示意图;
[0024]图3为实施例1中智能体与环境交互过程示意图;
[0025]图4为实施例1中网络更新过程示意图;
[0026]图5为实施例1中相邻智能体间信息共享示意图;
[0027]图6为实施例2中训练流程示意图。
具体实施方式
[0028]附图仅用于示例性说明,不能理解为对本专利的限制;
[0029]为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0030]对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0031]下面结合附图和实施例对本专利技术的技术方案做进一步的说明。
[0032]实施例1
[0033]本实施例提供一种基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习算法的D2D用户资源分配方法,其特征在于,包括:构建无线网络模型,对D2D发射功率进行离散化处理生成K个功率等级;所述无线网络模型中包括宏基站、宏基站网络覆盖范围内的L个蜂窝用户及N对D2D用户对,和M个正交频谱资源块,所述无线网络模型被配置的参数包括用户位置;构建用户信噪比计算模型,用于计算D2D用户和蜂窝用户的信噪比信息,及设置D2D用户对以及蜂窝用户进行通信的QoS要求,并以D2D用户与蜂窝用户组成的通信系统吞吐量最大为优化目标对无线网络模型进行优化;所述用户信噪比包括D2D用户接收端的信噪比及蜂窝用户的信噪比;宏基站为每个智能体设置预测策略网络π、预测价值网络Q、目标策略网络π

和目标价值网络Q';将D2D通信环境建模为马尔可夫决策过程,将D2D发射机视为智能体,循环加载目标策略网络π

的参数后生成策略与环境进行交互,确定状态空间、动作空间及奖励函数;在满足QoS要求的前提下,每个智能体在t时刻选择要采用的通信模式,根据当前观测到的状态s执行动作a,获得奖励r并转换到下一个状态s

,将经验组(s,,

,r)上传至经验池用于集中式训练;其中,所述通信模式包括专用模式、复用模式和等待模式,所述状态包括D2D用户和蜂窝用户的位置信息及信噪比信息,所述动作包括选择用于通信的功率值和资源块;采用MAAC算法对每个D2D用户进行策略优化,从经验池中小批量随机采样进行集中式训练,采用TD算法更新预测价值网络,采用梯度下降方法更新预测价值网络的参数,基于智能体执行动作获得的奖励计算累计奖励,根据累计奖励设置策略梯度,基于策略梯度采用梯度上升方法循环更新预测策略网络的参数;其中,所述MAAC算法的学习目标是为每一个智能体学习一个策略,来获得最大累计收益;基于预测策略网络和预测价值网络的参数,采用软更新方式循环更新目标策略网络和目标价值网络的参数,直至完成学习训练;D2D用户下载完成训练的目标策略网络的参数,进行策略改进,根据观测到的当前环境选择通信模式、资源块和/或通信功率。2.根据权利要求1所述的一种基于深度强化学习算法的D2D用户资源分配方法,其特征在于,所述用户信噪比计算模型包括第m个D2D用户接收端的SINR和第l个蜂窝用户的SINR;其中,第m个D2D用户接收端的SINR,其表达式为:式中,表示D2D发射机的发射功率;表示D2D发射机和D2D接收机之间的信道增益;表示蜂窝资源共享系数,用于区分D2D通信模式,当第m个D2D用户使用空闲信道进行通信,即未复用蜂窝用户频谱资源块,此时没有蜂窝用户的干扰,则当复用了蜂窝用户的频谱资源块,则的频谱资源块,则表示蜂窝用户的发射功率;表示蜂窝用户到D2D的信道增益;表示D2D资源共享系数,若此时有其他第n个D2D用户与第m个D2D用户复用相同资源块,否则否则表示其他D2D用户的发射功率;表示其他D2D用到该D2D用户的信道增益;σ2表示高斯白噪声;
第l个蜂窝用户的SINR,其表达式为:式中,表示蜂窝用户的发射功率;表示宏基站到蜂窝用户的信道增益;表示资源块复用系数,若表示有D2D用户复用蜂窝用户资源块,否则为表示有D2D用户复用蜂窝用户资源块,否则为表示第n个D2D的发射功率;表示D2D用户n到蜂窝用户l的信道增益;σ2表示高斯白噪声;所述系统吞吐量Tp表达式为:式中,代表蜂窝用户和宏基站之间的带宽,代表D2D发送机与D2D接收机之间的带宽;Tp
C
表示蜂窝用户侧的吞吐量;Tp
D
表示D2D用户侧的吞吐量;所述设置D2D用户对以及蜂窝用户进行通信的QoS要求,并以D2D用户与蜂窝用户组成的通信系统吞吐量最大为优化目标对无线网络模型进行优化,描述为如下表达式:maxTp(3a)maxTp(3a)maxTp(3a)p
C
=(3e)其中,式(3a)表示系统吞吐量最大的优化目标,式(3b)、(3c)表示D2D接收机和蜂窝用户的SINR要求,式(3d)、(3e)表示对D2D发射机以及蜂窝用户发射功率的限定条件;γ
d*
表示D2D最低信噪比要求;γ
C*
表示表示蜂窝用户最低信噪比要求;表示D2D最低传输功率;表示D2D最大传输功率;表示第n个D2D对的发射功率;p
C
表示蜂窝用户的发射功率;C为常数,代表环境中的所有蜂窝用户的发射功率为固定值。3.根据权利要求2所述的一种基于深度强化学习算法的D2D用户资源分配方法,其特征在于,将D2D通信环境建模为马尔可夫决策过程,将D2D发射机视为智能体,循环加载目标策略网络π

的参数后生成策略与环境进行交互,确定状态空间、动作空间及奖励函数,在满足QoS要求的前提下,每个智能体在t时刻选择要采用的通信模式,根据当前观测到的状态s执行动作a,获得奖励r并转换到下一个状态s

,将经验组(,a,s

,r)上传至经验池用于集中式训练,具体为:将D2D通信环境建模为马尔可夫决策过程,将D2D发射机视为智能体;智能体循环加载目标策略网络π

的参数后生成策略与环境进行交互,在t时刻选择要采用的通信模式,根据t时刻观测到的状态s执行动作a,获得奖励r并转换到下一个状态s

;其中,智能体执行的动作都在QoS要求的约束下进行;将第m个D2D用户对t时刻的状态空间定义为其中,表示t时刻D2D用户自身基本信息,包括D2D用户的位置信息以及用户信噪比信息即
表示蜂窝用户基本信息,包括蜂窝用户用户的位置信息以及用户信噪比信息即即将第m个D2D用户对t时刻的动作空间定义为其中,表示D2D用户选择第x个资源块,共有M维;表示选择第z个功率等级进行通信,共有K个选择;将第m个用户对t时刻执行动作所获得的奖励定义为:其中,是一个小于0的常数;是一个小于0的常数;表示第m个D2D用户t时刻的信噪比,表示D2D用户带宽;将转换前的环境s、执行的动作a、转换后的环境s

和奖励r以经验组(s,a,s

,r)的形式上传至经验池。4.根据权利要求1所述一种基于深度强化学习算法的D2D用户资源分配方法,其特征在于,所述每个智能体在t时刻选择要采用的通信模式,包括:判断系统中是否有空闲信道:若是,则采用专用模式进行通信;否则,判断复用资源块后是否满足D2D用户及蜂窝用户的QoS要求:若是,D2D用户进入专用模式,共享蜂窝用户资源进行通信;否则,进入等待模式,不进行通信,直到系统中有空闲信道后再次发起通信请求。5.根据权利要求1所述的一种基于深度强化学习算法的D2D用户资源分配方法,其特征在于,所述累计奖励表达式为:式中,γ
n
...

【专利技术属性】
技术研发人员:李君刘兴鑫刘子怡沈国丽张茜茜李晨
申请(专利权)人:无锡学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1