一种基于深度强化学习算法的D2D用户资源分配方法及存储介质组成比例

技术编号：38222701 阅读：13 留言：0更新日期：2023-07-25 17:54

本发明专利技术公开了一种基于深度强化学习算法的D2D用户资源分配方法及存储介质，涉及无线通信技术领域。所述方法包括：构建无线网络模型，对D2D发射功率进行离散化处理；构建用户信噪比计算模型，以通信系统吞吐量最大为优化目标；设置预测策略网络π、预测价值网络Q、目标策略网络π

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习算法的D2D用户资源分配方法及存储介质

[0001]本专利技术涉及无线通信
，更具体地，涉及一种基于深度强化学习算法的D2D用户资源分配方法及存储介质。

技术介绍

[0002]在当今这个科技快速发展的时代，无线通信技术已经与人们的日常生活名密不可分。人们对移动通信的需求在飞速增加，要求也变得越来越高，从之前的移动通信设备只需要具备简单的通话功能，到后来的需要进行基本的上网搜索，再到如今的刷视频、听音乐，并且对视频的清晰度、音质的要求也逐步提高。然而在用户数量密集、彼此之间通信干扰大的环境下，频谱资源匮乏的问题尤为突出，因此我们提出了许多方法来解决该问题。
[0003]设备到设备(D2D)技术就是其中之一，它是指通信网络中近邻设备之间直接交换信息的技术。使用D2D通信技术相比与传统的蜂窝通信，D2D通信无需以基站作为中继，因此它可以在距离基站较远甚至没有基站的地方进行通信，有效的降低了基站的传输压力，还可以利用D2D通信技术共享蜂窝用户的频谱资源，大大提高了频谱利用率，提升了系统的吞吐量，使整个通信系统的性能得到了提升。
[0004]在D2D通信技术中，对于D2D用户(D2D User Equipment，DUE)进行合理的功率分配以及资源块分配至关重要，DUE主要复用蜂窝用户(Cellular User Equipment，CUE)占用的频谱资源，因此DUE、CUE和基站(Base Station，BS)三者之间互相存在干扰。为了有效的避免这些干扰，提升D2D用户的服务质量(...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习算法的D2D用户资源分配方法，其特征在于，包括：构建无线网络模型，对D2D发射功率进行离散化处理生成K个功率等级；所述无线网络模型中包括宏基站、宏基站网络覆盖范围内的L个蜂窝用户及N对D2D用户对，和M个正交频谱资源块，所述无线网络模型被配置的参数包括用户位置；构建用户信噪比计算模型，用于计算D2D用户和蜂窝用户的信噪比信息，及设置D2D用户对以及蜂窝用户进行通信的QoS要求，并以D2D用户与蜂窝用户组成的通信系统吞吐量最大为优化目标对无线网络模型进行优化；所述用户信噪比包括D2D用户接收端的信噪比及蜂窝用户的信噪比；宏基站为每个智能体设置预测策略网络π、预测价值网络Q、目标策略网络π
′
和目标价值网络Q'；将D2D通信环境建模为马尔可夫决策过程，将D2D发射机视为智能体，循环加载目标策略网络π
′
的参数后生成策略与环境进行交互，确定状态空间、动作空间及奖励函数；在满足QoS要求的前提下，每个智能体在t时刻选择要采用的通信模式，根据当前观测到的状态s执行动作a，获得奖励r并转换到下一个状态s
’
，将经验组(s,,
’
,r)上传至经验池用于集中式训练；其中，所述通信模式包括专用模式、复用模式和等待模式，所述状态包括D2D用户和蜂窝用户的位置信息及信噪比信息，所述动作包括选择用于通信的功率值和资源块；采用MAAC算法对每个D2D用户进行策略优化，从经验池中小批量随机采样进行集中式训练，采用TD算法更新预测价值网络，采用梯度下降方法更新预测价值网络的参数，基于智能体执行动作获得的奖励计算累计奖励，根据累计奖励设置策略梯度，基于策略梯度采用梯度上升方法循环更新预测策略网络的参数；其中，所述MAAC算法的学习目标是为每一个智能体学习一个策略，来获得最大累计收益；基于预测策略网络和预测价值网络的参数，采用软更新方式循环更新目标策略网络和目标价值网络的参数，直至完成学习训练；D2D用户下载完成训练的目标策略网络的参数，进行策略改进，根据观测到的当前环境选择通信模式、资源块和/或通信功率。2.根据权利要求1所述的一种基于深度强化学习算法的D2D用户资源分配方法，其特征在于，所述用户信噪比计算模型包括第m个D2D用户接收端的SINR和第l个蜂窝用户的SINR；其中，第m个D2D用户接收端的SINR，其表达式为：式中，表示D2D发射机的发射功率；表示D2D发射机和D2D接收机之间的信道增益；表示蜂窝资源共享系数，用于区分D2D通信模式，当第m个D2D用户使用空闲信道进行通信，即未复用蜂窝用户频谱资源块，此时没有蜂窝用户的干扰，则当复用了蜂窝用户的频谱资源块，则的频谱资源块，则表示蜂窝用户的发射功率；表示蜂窝用户到D2D的信道增益；表示D2D资源共享系数，若此时有其他第n个D2D用户与第m个D2D用户复用相同资源块，否则否则表示其他D2D用户的发射功率；表示其他D2D用到该D2D用户的信道增益；σ2表示高斯白噪声；
第l个蜂窝用户的SINR，其表达式为：式中，表示蜂窝用户的发射功率；表示宏基站到蜂窝用户的信道增益；表示资源块复用系数，若表示有D2D用户复用蜂窝用户资源块，否则为表示有D2D用户复用蜂窝用户资源块，否则为表示第n个D2D的发射功率；表示D2D用户n到蜂窝用户l的信道增益；σ2表示高斯白噪声；所述系统吞吐量Tp表达式为：式中，代表蜂窝用户和宏基站之间的带宽，代表D2D发送机与D2D接收机之间的带宽；Tp
C
表示蜂窝用户侧的吞吐量；Tp
D
表示D2D用户侧的吞吐量；所述设置D2D用户对以及蜂窝用户进行通信的QoS要求，并以D2D用户与蜂窝用户组成的通信系统吞吐量最大为优化目标对无线网络模型进行优化，描述为如下表达式：maxTp(3a)maxTp(3a)maxTp(3a)p
C
＝(3e)其中，式(3a)表示系统吞吐量最大的优化目标，式(3b)、(3c)表示D2D接收机和蜂窝用户的SINR要求，式(3d)、(3e)表示对D2D发射机以及蜂窝用户发射功率的限定条件；γ
d*
表示D2D最低信噪比要求；γ
C*
表示表示蜂窝用户最低信噪比要求；表示D2D最低传输功率；表示D2D最大传输功率；表示第n个D2D对的发射功率；p
C
表示蜂窝用户的发射功率；C为常数，代表环境中的所有蜂窝用户的发射功率为固定值。3.根据权利要求2所述的一种基于深度强化学习算法的D2D用户资源分配方法，其特征在于，将D2D通信环境建模为马尔可夫决策过程，将D2D发射机视为智能体，循环加载目标策略网络π
′
的参数后生成策略与环境进行交互，确定状态空间、动作空间及奖励函数，在满足QoS要求的前提下，每个智能体在t时刻选择要采用的通信模式，根据当前观测到的状态s执行动作a，获得奖励r并转换到下一个状态s
’
，将经验组(,a,s
’
,r)上传至经验池用于集中式训练，具体为：将D2D通信环境建模为马尔可夫决策过程，将D2D发射机视为智能体；智能体循环加载目标策略网络π
′
的参数后生成策略与环境进行交互，在t时刻选择要采用的通信模式，根据t时刻观测到的状态s执行动作a，获得奖励r并转换到下一个状态s
’
；其中，智能体执行的动作都在QoS要求的约束下进行；将第m个D2D用户对t时刻的状态空间定义为其中，表示t时刻D2D用户自身基本信息，包括D2D用户的位置信息以及用户信噪比信息即
表示蜂窝用户基本信息，包括蜂窝用户用户的位置信息以及用户信噪比信息即即将第m个D2D用户对t时刻的动作空间定义为其中，表示D2D用户选择第x个资源块，共有M维；表示选择第z个功率等级进行通信，共有K个选择；将第m个用户对t时刻执行动作所获得的奖励定义为：其中，是一个小于0的常数；是一个小于0的常数；表示第m个D2D用户t时刻的信噪比，表示D2D用户带宽；将转换前的环境s、执行的动作a、转换后的环境s
’
和奖励r以经验组(s,a,s
’
,r)的形式上传至经验池。4.根据权利要求1所述一种基于深度强化学习算法的D2D用户资源分配方法，其特征在于，所述每个智能体在t时刻选择要采用的通信模式，包括：判断系统中是否有空闲信道：若是，则采用专用模式进行通信；否则，判断复用资源块后是否满足D2D用户及蜂窝用户的QoS要求：若是，D2D用户进入专用模式，共享蜂窝用户资源进行通信；否则，进入等待模式，不进行通信，直到系统中有空闲信道后再次发起通信请求。5.根据权利要求1所述的一种基于深度强化学习算法的D2D用户资源分配方法，其特征在于，所述累计奖励表达式为：式中，γ
n
...

【专利技术属性】
技术研发人员：李君，刘兴鑫，刘子怡，沈国丽，张茜茜，李晨，
申请(专利权)人：无锡学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人