当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于深度强化学习的毫米波通信波束训练方法技术

技术编号:30081785 阅读:20 留言:0更新日期:2021-09-18 08:39
本发明专利技术公开了一种基于深度强化学习的毫米波通信波束训练方法,该方法通过定义强化学习模型中的状态、目标、奖励等要素在波束训练这一实际问题中的具体表示来对毫米波信道进行追踪;将状态定义为图像的形式,使用卷积神经网络对强化学习中的值函数进行近似,动作定义为基于上一时刻信道最优波束组合的移动方向、距离以及波束覆盖范围的三元组形式;在设计奖励函数时,将一个时间片内有效的数据可达速率作为目标值;在神经网络的训练过程中,使用了Q学习的方法来更新网络参数;利用训练的深度Q网络进行预测,选择Q值最大的动作,该动作对应下一时刻需要测试的波束组合。作对应下一时刻需要测试的波束组合。作对应下一时刻需要测试的波束组合。

【技术实现步骤摘要】
一种基于深度强化学习的毫米波通信波束训练方法


[0001]本专利技术涉及毫米波无线通信
,特别是涉及一种基于深度强化学习的毫米波通信 波束训练方法。

技术介绍

[0002]随着无线通信技术的不断发展,一些频段较低的频谱资源几乎已全部被占用。为了满足 通信性能的要求,获得更多的频谱资源,人们的关注点转移到频段更高的频带上,即毫米波 频段。该频段是指频率在30~300GHz范围内的频带,频带内的频谱资源丰富、传输速率较高, 能够满足一些带宽需求较高的应用的需要。然而由于毫米波信号的传播特性,与微波信道相 比,毫米波信道的路损较高。考虑到毫米波信号的波长相比于微波信号较短,而天线的间隔 与信号波长通常是正相关的,所以可以将大量的天线集中于较小的空间内形成大规模的天线 阵来提高较高的增益。大规模MIMO技术与毫米波通信是互相补充的,毫米波通信解决了大 规模MIMO技术的频谱资源短缺问题,同时大规模MIMO技术弥补了毫米波通信的路径损 耗,因此毫米波大规模MIMO通信的应用前景十分广阔。
[0003]在现有的研究工作中,通常会在发送端和接收端均预先设定一个码本,码本中包含若干 波束成形矢量(也称码字),收发端遍历码本中的码字来收发导频信号,将接收功率最大的码 字组合作为正式发送和接收信号的波束成形矢量组合,该过程称为波束训练。然而,大规模 天线阵列和定向窄波束的使用导致这种遍历码本的训练算法是非常耗时的。尤其是在动态的 场景中,毫米波信道是不断变化的,实现频繁而精确的波束对准十分困难,到目前为止都是 一个非常具有挑战性的问题。因此如果能够使波束训练的过程感知到信道环境的变化,并根 据该变化及时调整训练的波束,那么将会大大减小训练的开销,节约通信系统的资源。
[0004]为减少波束训练开销,文献[1]“使用自适应分层码本进行毫米波大规模MIMO同步多 用户波束训练”(Chen K,Qi C,Dobre O A,et al.Simultaneous multiuser beam training usingadaptive hierarchical codebook for mmWave massive MIMO[C]//2019IEEE GlobalCommunications Conference(GLOBECOM).IEEE,2019:1

6.)采用自适应的方式设计分层码本, 根据上一层的波束训练结果设计当前层的码字,从而为不同用户使用相同的分层码本进行波 束训练。除底层外,所设计的自适应分层码本每层只有两个码字,无论BS服务多少个用户, 都只需要对所有用户同时进行两次波束训练。该项工作的难点在于码字的设计问题,因为波 束训练的分层码本开始不是固定的,而是在波束训练过程中不断构建的,因此码本的构造较 为复杂,增加训练的难度。
[0005]文献[2]“基于深度强化学习的毫米波通信智能波束训练”(Zhang J,Huang Y,Wang J,et al. Intelligent beam training for millimeter

wave communications via deep reinforcementlearning[C]//2019IEEE Global Communications Conference.IEEE,2019:1

7.)提出了一种基于 环境感知的深度强化学习波束训练算法。该算法能够感知环境的变化,从环境中学习所需的 潜在概率信息,以较低的开销实现对波
束的智能训练。此外,该算法不需要任何动态信道建 模的先验知识,因此适用于各种复杂的场景。但是该方法只适用于接收端单天线的情况,适 用范围比较小,不支持类似基站之间的毫米波通信等。

技术实现思路

[0006]有鉴于此,本专利技术的目的在于提供一种基于深度强化学习的毫米波通信波束训练方法, 该方法在波束训练中引入强化学习的框架,使训练的波束随信道的变化及时做出调整,对信 道的状态进行追踪,在有效减少了波束训练开销的同时保证了波束训练的性能,解决了现有 波束训练方法训练开销大、硬件复杂度及功耗大的技术问题,同时支持收发端均为多天线的 通信场景。
[0007]为实现上述目的,本专利技术采用的方案为:
[0008]一种基于深度强化学习的毫米波通信波束训练方法,包括如下步骤:
[0009]步骤S1、构建用户端与基站端之间的毫米波通信信道模型;
[0010]步骤S2、设计用户端与基站端的码本,根据设计的码本构建最终接收信号的模型,再根 据该模型对波束训练过程进行数学建模;
[0011]步骤S3、定义状态、动作和奖励在波束训练中的表示;
[0012]步骤S4、将步骤S3中定义的状态视为多通道的图像,输入至构建好的卷积神经网络中, 得到状态对应的所有动作的值。
[0013]进一步的,所述步骤S1具体包括:
[0014]设置一个针对于单用户的毫米波大规模MIMO系统,该系统中,用户端有N
r
根天线,基 站端有N
t
根天线,天线的排列方式均采用均匀线性阵列,所述毫米波通信信道模型建模为:
[0015][0016]公式(1)中,L、α
l
、θ
l
分别表示路径数、第l条路径的信道增益、信道的到达角和 信道的离开角;定义Θ
l
和Ψ
l
为空间域的到达角和离开角,均服从[0,π]内的均匀分布,d
t
和d
r
分别表示基站端和用户端阵列天线的间隔,λ为毫米波信号的波长, u(
·
)表示信道导向矢量;信道的导向角在相邻时间间隔内的变化量服从高斯分布,表达式为:
[0017][0018]公式(2)中,θ0~u(0,π)表示t=0时刻随机的初始信道导向角,θ
t
表示t时刻的信道导 向角,表示信道导向角的变化量。
[0019]进一步的,在所述步骤S2中,所述用户端与基站端的码本的表达式为:
[0020][0021][0022]在公式(3)和公式(4)中,
[0023]所述最终接收信号的表达式为:
[0024][0025]在公式(5),分别表示基站端的发送功率、 用户端的接收码字、基站端的发送码字以及信道噪声矢量,并且‖w‖2=‖f‖2=1,|x|2=1;
[0026]因此,接收信号矩阵的表达式为:
[0027][0028]在公式(6)中,分别表示接收端和发送端的DFT码本,表示信道矩阵,x、P分别表示发送的信号和信号的功率,表示信道噪声矩阵, 表示接收信号矩阵,矩阵中第m行、第n列的元素Y(m,n)表示发送端使用码本F中 的第n(n=1,2,

,N
t
)个码字发送、接收端使用码本W中的第m(m=1,2,

,N
r
)个码字接收所 得到的信号;波束本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的毫米波通信波束训练方法,其特征在于,包括如下步骤:步骤S1、构建用户端与基站端之间的毫米波通信信道模型;步骤S2、设计用户端与基站端的码本,根据设计的码本构建最终接收信号的模型,再根据该模型对波束训练过程进行数学建模;步骤S3、定义状态、动作和奖励在波束训练中的表示;步骤S4、将步骤S3中定义的状态视为多通道的图像,输入至构建好的卷积神经网络中,得到状态对应的所有动作的值。2.根据权利要求1所述一种基于深度强化学习的毫米波通信波束训练方法,其特征在于,所述步骤S1具体包括:设置一个针对于单用户的毫米波MIMO通信系统,该系统中,用户端有N
r
根天线,基站端有N
t
根天线,天线的排列方式均采用均匀线性阵列,所述毫米波通信信道模型建模为:公式(1)中,L、α
l
、θ
l
分别表示路径数、第l条路径的信道增益、信道的到达角和信道的离开角;定义Θ
l
和Ψ
l
为空间域的到达角和离开角,均服从[0,π]内的均匀分布,d
t
和d
r
分别表示基站端和用户端阵列天线的间隔,λ为毫米波信号的波长,u(
·
)表示信道导向矢量;信道的导向角在相邻时间间隔内的变化量服从高斯分布,表达式为:公式(2)中,θ0~u(0,π)表示t=0时刻随机的初始信道导向角,θ
t
表示t时刻的信道导向角,表示信道导向角的变化量。3.根据权利要求1所述一种基于深度强化学习的毫米波通信波束训练方法,其特征在于,在所述步骤S2中,所述用户端与基站端的码本的表达式为:所述用户端与基站端的码本的表达式为:在公式(3)和公式(4)中,所述最终接收信号的表达式为:在公式(5),分别表示基站端的发送功率、用户端的接收码字、基站端的发送码字以及信道噪声矢量,并且‖w‖2=‖f‖2=1,|x|2=1;因此,接收信号矩阵的表达式为:在公式(6)中,分别表示接收端和发送端的DFT码本,表示信道矩阵,x、P分别表示发送的信号和信号的功率,表示信道噪
声矩阵,表示接收信号矩阵,矩阵中第m行、第n列的元素Y(m,n)表示发送端使用码本F中的第n(n=1,2,

,N
t
)个码字发送、接收端使用码本W中的第m(m=1,2,

,N
r
)个码字接收所得到的信号;波束训练过程表示为以下优化问题:波束训练过程表示为以下优化问题:4.根据权利要求3所述一种基于深度强化学习的毫米波通信波束训练方法,其特征在于,在所述步骤S3中,定义状态在波束训练中的表示,具体包括:设t时刻信道矩阵为H
t
,与其对应的接收信号矩阵为Y
t
,定义矩阵Z
t
为Y
t
的模,将连续几个时刻的接收信号强度矩阵Z
t
定义为一个状态S
t
,具体表示如下:S
t
(i)=Z
ttt

C
,i=1,2,

,C
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)公式(7)中,S
t
是一个三维矩阵,第三维度大小为C,C表示连续时刻的数目,Z
t+i

C
表示在时刻t...

【专利技术属性】
技术研发人员:戚晨皓姜国力王宇杰
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1