一种毫米波系统中的动态资源分配方法技术方案

技术编号:24945469 阅读:38 留言:0更新日期:2020-07-17 22:44
本发明专利技术提出一种毫米波系统中的动态资源分配方法,该方法包括初始化动态场景相关的系统参数;观测动态环境中信道状态、波束分配状态和功率分配状态构建的状态;判断当前状态下采取的动作是否满足优化问题中的各约束条件;根据是否满足约束条件,设定不同的收益值;将数据存入经验池;训练Eval‑Net Q网络;更新Target‑Net Q网络;随机产生数值与探索概率比较;进而更新基站波束与用户连接状态和用户功率分配状态以及探索概率;经过一段时间训练学习直至收敛,输出最终基站波束与用户连接状态和用户功率分配状态。该方法解决了现有技术中不能在动态信道环境中联合分配波束和功率实现动态资源分配和长期用户公平性的技术问题。

【技术实现步骤摘要】
一种毫米波系统中的动态资源分配方法
本专利技术涉及移动通信技术的
,尤其涉及一种毫米波系统中的动态资源分配方法。
技术介绍
目前,移动通信系统工作频率主要集中在700MHz-2.6GHz的微波频段,频谱资源紧张现象日趋严重。而毫米波通信以工作在30GHz-300GHz频段极大地丰富了频谱资源。然而,由于毫米波信号穿透性差、易被吸收、衰减快等缺点,导致毫米波通信系统中信号路径损耗大、基站覆盖范围小等问题。大规模天线技术通过在基站侧配置大量的天线(十根以上甚至上百根天线)可提升系统容量、频谱效率、系统抗干扰能力等优势,且可使毫米波信号获得高波束增益来抵制严重的路径损失问题。非正交多址接入技术(Non-OrthogonalMultipleAccess,NOMA)通过引入功率域实现多址接入,使多个用户可以共享相同的时间、频率和扩频码等传统的正交资源。在毫米波系统中引入大规模天线和NOMA技术可提高系统增益、用户接入量和资源利用率,满足未来通信应用场景以及业务的需求。在毫米波系统中引入大规模天线和NOMA技术能带来具有巨大的优势,同时也在无线资源分配方面面临挑战。在基于大规模天线和NOMA的毫米波系统中,基站侧配置的大量天线使信号获取了较高的波束赋形增益。然而,当发送波束无法对准用户时,用户只能接收到较低功率的信号,影响通信质量;当指向多个用户的发送波束相互冲突时,同样导致多用户间干扰极强,系统容量大幅度下降,那么研究波束分配具有重要意义。另外,合理的功率分配对于NOMA的解调、以及降低波束间和波束内用户干扰来说非常重要。因此,在基于大规模天线和NOMA的毫米波系统中如何使用户匹配到合适的波束且以高效的功率进行信号传输是需要解决的关键问题。目前,在基于大规模天线和NOMA的毫米波系统中的无线资源分配问题研究,都是在静态信道环境中进行静态资源分配,仅能获得瞬时系统性能最优化。但动态资源分配的研究不仅考虑当前时刻的收益,还考虑未来一段时间内的收益,更加适合实际移动通信中多变信道环境。另外,系统用户间不公平将影响用户体验,尤其是对于蜂窝小区内的边缘用户。通常用户间不公平由不合理的资源分配引起,因此,本专利技术提出基于大规模天线和NOMA的毫米波系统中的波束和功率动态分配方法,保证动态信道环境的长期用户公平性。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供一种毫米波系统中的动态资源分配方法。在该毫米波系统中,解决现有技术中不能在动态信道环境中联合分配波束和功率实现动态资源分配和长期用户公平性的技术问题。为实现上述目的,本专利技术提供了一种毫米波系统中的动态资源分配方法,包括如下步骤:初始化动态场景相关的系统参数;初始化系统状态:信道矩阵H0、波束分配b0和功率分配p0;初始化经验池为空,容量Nmax;初始化网络参数θ=θ0,θ-=θ,智能体动作探索概率ε=ε0;观测动态环境中信道状态Ht、波束分配状态bt和功率分配状态pt构建的状态st=(Ht,bt,pt);判断当前状态st下采取的动作at是否满足优化问题中的约束条件C1-C5,其中,优化问题表示为:其中,bt表示基站波束与用户连接状态,pt表示用户功率分配状态,其中FR.J表示RajJain系数,表征用户间传输速率的公平性,表示t时刻用户k在波束m上的连接状态,表示t时刻用户k在波束m上的传输功率,表示t时刻的波速m调度的用户k的传输速率,约束条件C1表示为基站下行网络总传输功率的约束,Pmax表示基站最大传输功率;约束条件C2表示每个用户最小的传输速率是Rmin;约束条件C3保证每个用户的传输功率为正值;约束条件C4表示每个用户至多被一个波束调度;约束条件C5表示每个波束至多调度的用户数为Bmax(Bmax≥2);如果不满足约束条件,则收益值设定为:rt=-1;如果满足约束条件,则收益值设定为:rt=FR.J(bt,pt);将数据存入经验池;当经验池容量达到Ns,随机选取Nm个历史数据,进行误差计算,并反向传递训练Eval-NetQ网络;更新Target-NetQ网络,每n步,把Eval-NetQ网络复制给Target-NetQ网络,即θ-=θ;随机产生数值εr与探索概率ε比较;若εr<ε,从动作集合中随机选取动作at,否则at=argmaxaQ(s,a;θ),其中a表示动作,θ表示参数;更新基站波束与用户连接状态bt和用户功率分配状态pt以及探索概率ε=max(ε-εi,εe),其中εi表示探索概率衰减因子,εe表示最终探索概率的大小;经过一段时间训练学习直至收敛,输出最终基站波束与用户连接状态b、用户功率分配状态p。所述的毫米波系统中动态资源分配方法,在初始化动态场景相关的系统参数步骤之前,还包括:设计基于深度增强学习的联合波束和功率分配DQN-JBPA方法的模型的步骤。所述的毫米波系统中动态资源分配方法,其中设计该模型的步骤包括:设计Q网络的架构;其中Q网络即动作价值函数用于智能体执行动作之后输出相应的Q值,即其中θ表示参数;设计Q网络训练过程,在训练过程中通过Target-NetQ网络获得目标值,之后根据当前Q值和目标值进行误差计算:其中,E表示期望,yt为目标值,rt+1表示下一时刻的增益,γ表示折扣因子,a表示动作,A(st+1)表示下一状态下的动作集,θ-表示参数,st+1表示下一个状态。所述的毫米波系统中动态资源分配方法,其中,在设计Q网络的架构步骤之前,还包括:设计状态,其中状态st=(Ht,bt,pt),表示用户k在时刻t的信道矩阵;设计动作,其中动作分别表示波束和功率选取空间;设计收益rt:所述的毫米波系统中动态资源分配方法,其中,动作选取策略主要依据ε-greedy思想,以概率ε进行新动作探索,随机从动作集中选取新动作,以1-ε的概率在网络中选取最大Q值的动作。所述的毫米波系统中动态资源分配方法,在设计DQN-JBPA方法的模型的步骤之前还进一步包括:定义用户传输速率的步骤,该步骤具体为:假设用户k被波束m调度,那么用户k的信干比SINR定义为:其中pm,i表示用户i在波束m上的传输功率,pm,k表示用户k在波束m上的传输功率,σk表示用户k的高斯白噪声,bm,k表示用户k在波束m上的连接状态;其中用户i,k∈bm,表示用户k在波束m上的信道增益,其中表示用户k的信道矩阵,wm表示波束m的波束成形向量,gn,k表示用户k在波束n上的信道增益,pn=∑i=1bn,ipn,i表示波束n的传输功率,其中bn,i表示用户i在波束m上的连接状态,pn,i表示用户i在波束m上的传输功率,bm,i表示用户i在波束m上的被调度的状态;波束m调度的用户k的传输速率定义为:rm,k=log(1+γm,k)。所述的毫米波系统中动态资源分配方法,定义用户传输速率的步骤的具体步骤为:在接收端,采用本文档来自技高网
...

【技术保护点】
1.一种毫米波系统中动态资源分配方法,包括以下步骤:/n初始化动态场景相关的系统参数;初始化系统状态:信道矩阵H

【技术特征摘要】
1.一种毫米波系统中动态资源分配方法,包括以下步骤:
初始化动态场景相关的系统参数;初始化系统状态:信道矩阵H0、波束分配b0和功率分配p0;初始化经验池为空,容量Nmax;初始化网络参数θ=θ0,θ-=θ,智能体动作探索概率ε=ε0;
观测动态环境中信道状态Ht、波束分配状态bt和功率分配状态pt构建的状态st=(Ht,bt,pt);
判断当前状态st下采取的动作at是否满足优化问题中的约束条件C1-C5,其中,优化问题表示为:



s.t.C1:
C2:
C3:
C4:
C5:
其中,bt表示基站波束与用户连接状态,pt表示用户功率分配状态,其中FR.J表示RajJain系数,表征用户间传输速率的公平性,表示t时刻用户k在波束m上的连接状态,表示t时刻用户k在波束m上的传输功率,表示t时刻的波速m调度的用户k的传输速率,约束条件C1表示为基站下行网络总传输功率的约束,Pmax表示基站最大传输功率;约束条件C2表示每个用户最小的传输速率是Rmin;约束条件C3保证每个用户的传输功率为正值;约束条件C4表示每个用户至多被一个波束调度;约束条件C5表示每个波束至多调度的用户数为Bmax(Bmax≥2);
如果不满足约束条件,则收益值设定为:rt=-1;
如果满足约束条件,则收益值设定为:rt=FR.J(bt,pt);
将数据存入经验池;
当经验池容量达到Ns,随机选取Nm个历史数据,进行误差计算,并反向传递训练Eval-NetQ网络;
更新Target-NetQ网络,每n步,把Eval-NetQ网络复制给Target-NetQ网络,即θ-=θ;
随机产生数值εr与探索概率ε比较;若εr<ε,从动作集合中随机选取动作at,否则at=argmaxaQ(s,a;0),其中a表示动作,θ表示参数;
更新基站波束与用户连接状态bt和用户功率分配状态pt以及探索概率ε=max(ε-εi,εe),其中εi表示探索概率衰减因子,εe表示最终探索概率的大小;
经过一段时间训练学习直至收敛,输出最终基站波束与用户连接状态b、用户功率分配状态p。


2.根据权利要求1所述的毫米波系统中动态资源分配方法,在初始化动态场景相关的系统参数步骤之前,还包括:设计基于深度增强学习的联合波束和功率分配DQN-JBPA方法的模型的步骤。


3.根据权利要求2所述的毫米波系统中动态资源分配方法,其中设计该模型的步骤包括:
设计Q网络的架构;其中Q网络即动作价值函数用于智能体执行动作之后输出相应的Q值,即其中θ表示参数;
设计Q网络训练过程,在训练过程中通过Target-NetQ网络获得目标值,之后根据当前Q值和目标值进行误差计算:Terror(θ)=E[(yt-Q(st,at;θ))2],其中,E表示期望,yt为目标值,rt+1表示下一时刻的增益,γ表示折扣因子,a表示动作,A(st+1)表示下一状态下的动作集,θ-表示参数,st+1表示下一个状态。


4.根据权利要求3所述的毫米波系统中动态资源分配方法,其中,在设计Q网络的架构步骤之前,还包括:
设计状态,其中状态st=(Ht,bt,pt),表示用户k在时刻t的信道矩阵;
设计动作,其中动作分别表示波束和功率选取空间;
设计收益rt:


5.根据权利要求4所述的毫米波系统中动态资源分配方法,其中,动作选取策略主要依据ε-greedy思想,以概率ε进行新动作探索,随机从动作集中选取新动作,以1-ε的概率在网络中选取最大Q值的动作。


6.根据权利要求2所述的毫米波系统中动态资源分配方法,在设计DQN...

【专利技术属性】
技术研发人员:张天魁陈丹丹张颖慧郭彩丽
申请(专利权)人:北京邮电大学内蒙古大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1