一种用户公平性通信传输方法技术

技术编号:32551978 阅读:31 留言:0更新日期:2022-03-05 11:52
本发明专利技术公开了一种用户公平性通信方法,利用深度学习估计信道参数,该方法首次考虑了大规模无小区通信中利用IRS的用户公平性最大化问题,在用户服务质量和功率约束以及相位约束条件下,设计了一种混合波束形成方案,包括在基站上的数字波束形成和基于IRS的模拟波束形成。在此基础上,利用DDPG和DDQL的深度强化学习算法训练模型。基站上的数字波束形成和基于IRS的模拟波束形成以及深度强化学习网络的不同设计权衡提供了新的思路。同设计权衡提供了新的思路。同设计权衡提供了新的思路。

【技术实现步骤摘要】
一种用户公平性通信传输方法


[0001]本专利技术属于无线通信领域,尤其涉及一种用户公平性通信传输方法。

技术介绍

[0002]无小区的大规模多输入多输出网络通过部署大量分散的基站来进行分布式部署,与经典的以小区为中心的设计原则不同,无小区网络利用了以用户为中心的传输设计,即网络中的所接入点AP共同服务于所有用户,所有的接入点都连接到一个中央处理器(Central Processing Unit,CPU),没有小区边界。无小区大规模多输入多输出网络(Cell

Free Massive Multiple Input Multiple Output,CF

mMIMO)中的用户很接近AP。比常规的MIMO有更简单的功率控制、更高的光谱效率和更高的能源效率。CF

mMIMO每个用户接收到来自不同的接入点的信号,因此这种分布式系统可以为覆盖范围内的所有用户提供良好的服务质量。为了进一步提高覆盖面积,将CF

mMIMO与可重构智能反射表面(Intelligent Reconfigurable Surface,IRS)结合能够提供一种低成本的节能方案来提高用户传输质量。
[0003]用户公平性是无线网络中的一个重要方面。CF

mMIMO通过不同接入点为边缘用户进行服务,IRS能够通过调整相位加强边缘用户信息,从而有利于提高用户公平性。因此,针对无线通信需要设计其用户公平性,以适应每个用户传输速率的要求。

技术实现思路

[0004]为了提高区域内用户传输速率,实现数据的传输公平性,本申请提供了一种用户公平性通信传输方法。本申请是在物联网大规模接入条件下控制传输的背景下,提出了大规模天线Cell

free IRS用户公平性通信传输方法。
[0005]一种用户公平性通信传输方法,基于大规模天线无小区(Cell

free,CF)可重构智能反射表面(Intelligent Reconfigurable Surface,IRS)系统,并基于基站的数字波束形成算法和IRS的模拟波束形成算法,包括下步骤:
[0006]步骤A,提出一种深度学习的信道估计算法,利用非盲降噪网络,通过接收信号估计原始信道增益;
[0007]步骤B,建立接入点到用户的直接/间接链路的信道模型,在其噪声方面服从标准复高斯噪声;
[0008]步骤C,建立马尔可夫学习过程;
[0009]步骤D,提出了一种基于深度确定策略梯度网络(Deep Deterministic Policy Gradient,DDPG)的算法;
[0010]步骤E,提出了一种基于深度双层Q学习(Deep Double Q

Learning,DDQL)的算法。
[0011]其中,步骤A具体包括:
[0012]A1,建立基于下行链路(Down Link,DL)的信道估计器,使用一个全连接神经网络来解决导频功率分配问题,输入数据是k个用户的信道矩阵向量。第L层为输出层,中间的第
2至L

1层为隐藏层,用于计算和分析信道状态信息和导频功率之间的映射关系,使用线性整流函数(Rectified Linear Unit,ReLU)作为神经网络的激活函数;
[0013]A2,在输出神经元后加入归一化指数函数(soft version of max,Softmax)函数,使Softmax函数之后的神经网络输出之和为1,将输出值乘以总功率P,得到功率分配结果;
[0014]A3,误差补偿过程:得到初始信道估计值或者第l

1个信道估计值后,抽取信道值的实部和虚部,构成输入向量x
l
,将x
l
输入训练好的长短期记忆

多层感知器(Long short

term memory

Multilayer Perceptron,LSTM

MLP)网络中,得到网络输出y
l
=f
LSTM

MLP
(x
l
;θ
LM
),f
LSTM

MLP
(.)为LSTM

MLP网络的计算过程;θ
LM
表示离线训练过程中所确定的网络系数。
[0015]其中,步骤B具体包括:
[0016]B1,计算用户k的可实现速率表达式w为预编码,σ2为高斯噪声,B为基站数量,为等效信道向量;G
b
、分别表示从第b个BS到用户k、从第b个BS到IRS、从IRS到用户k的信道;β
m
为幅值,θ为IRS的反射角度,N为反射元数量。
[0017]B2,定义用户公平性指标其中x
k
代表用户k所分得的资源量,即可实现速率,在发射端的传输功率约束、IRS的角度约束,以及用户服务质量的约束下,最大化系统的用户公平性。
[0018]其中,步骤C具体包括:
[0019]C1,建立一个马尔可夫决策过程(Markov Decision Process,MDP),包括一个元组其中S表示状态空间,是包含代理可以选择的有限动作集的动作空间,包括基站和IRS的波束形成,是一个转移概率,是处于状态S并采取动作a
t
后的预期奖励,ζ∈[0,1)是折扣因子;
[0020]C2,初始化所有的神经网络及其目标的波束形成问题,以及一个重放缓冲区,对于每一节,通过将初始状态s0设置为一个关于安全速率的随机向量,来初始化环境,在一节的每一个时间步,DDQL和DDPG代理分别选择一个动作和动作
[0021]C3,联合动作被发送到CF网络环境,该环境将返回一个新的状态s
t+1
,这个新的状态将与即刻奖励r
t
一起返回;
[0022]C4,在将转换元组(s
t
,a
t
,r
t
,s
t+1
)存储在经验重放缓冲区R后,从经验重放缓冲区中随机采样,以训练DDPG和DDQL网络。
[0023]其中,步骤D具体包括:
[0024]D1,计算时间差分(Temporal Difference,TD)误差
通过最小化损失更新评论家网络参数θ
Q
,其中r
i
为第i个智能体奖励,Q(.)为Q网络,Q'(.)为目标网络,s为状态,μ'(.)为策略近似网络(演员),θ为相应网络的参数;
[0025]D2,使用蒙特卡罗近似,通过确定性梯度策略来更新演员策略μ(s|θ
μ
):其中J为损失函数,θ
μ
为演员网络参数,为样本大小,s
i
为时隙i的状态本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户公平性通信传输方法,其特征在于,基于大规模天线无小区(Cell

free,CF)可重构智能反射表面(Intelligent Reconfigurable Surface,IRS)系统,并基于基站的数字波束形成算法和IRS的模拟波束形成算法,包括下步骤:步骤A,提出一种深度学习的信道估计算法,利用非盲降噪网络,通过接收信号估计原始信道增益;步骤B,建立接入点到用户的直接/间接链路的信道模型,在其噪声方面服从标准复高斯噪声;步骤C,建立马尔可夫学习过程;步骤D,提出了一种基于深度确定策略梯度网络(Deep Deterministic Policy Gradient,DDPG)的算法;步骤E,提出了一种基于深度双层Q学习(Deep Double Q

Learning,DDQL)的算法。2.根据权利要求1所述的方法,其特征在于,步骤A具体包括:A1,建立基于下行链路(Down Link,DL)的信道估计器,使用一个全连接神经网络来解决导频功率分配问题,输入数据是k个用户的信道矩阵向量。第L层为输出层,中间的第2至L

1层为隐藏层,用于计算和分析信道状态信息和导频功率之间的映射关系,使用线性整流函数(Rectified Linear Unit,ReLU)作为神经网络的激活函数;A2,在输出神经元后加入归一化指数函数(soft version of max,Softmax)函数,使Softmax函数之后的神经网络输出之和为1,将输出值乘以总功率P,得到功率分配结果;A3,误差补偿过程:得到初始信道估计值或者第l

1个信道估计值后,抽取信道值的实部和虚部,构成输入向量x
l
,将x
l
输入训练好的长短期记忆

多层感知器(Long short

term memory

Multilayer Perceptron,LSTM

MLP)网络中,得到网络输出y
l
=f
LSTM

MLP
(x
l
;θ
LM
),f
LSTM

MLP
(.)为LSTM

MLP网络的计算过程;θ
LM
表示离线训练过程中所确定的网络系数。3.根据权利要求1所述的方法,其特征在于,步骤B具体包括:B1,计算用户k的可实现速率表达式w为预编码,σ2为高斯噪声,B为基站数量,为等效信道向量;G
b
、分别表示从第b个BS到用户k、从第b个BS到IRS、从IRS到用户k的信道;β
m
为幅值,θ为IRS的反射角度,N为反射元数量。B2,定义用户公平性指标其中x
k
代表用户k所分得的资...

【专利技术属性】
技术研发人员:贾玲玲曲德阳刘依依
申请(专利权)人:中央民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1