一种基于深度强化学习的自适应导频方法技术

技术编号:37150354 阅读:24 留言:0更新日期:2023-04-06 22:05
本发明专利技术公开了一种基于深度强化学习的自适应导频方法,方法包括:发送端获取接收端返回的信道统计信息;基于信道统计信息,利用预训练好的基于深度强化学习的导频决策模型进行决策,得到导频决策结果;根据所述导频决策结果,调整时

【技术实现步骤摘要】
一种基于深度强化学习的自适应导频方法


[0001]本专利技术属于信息通信
,涉及正交频分复用OFDM系统中一种基于深度强化学习的自适应导频方法。

技术介绍

[0002]信道估计对于无线通信系统性能的提升发挥关键作用。为了克服信道条件带来的不良影响,通信系统需要根据信道状态信息进行链路自适应、信道均衡、自适应传输等来提高系统性能。在实际OFDM系统中,发送方在数据符号中插入导频符号,接收方可通过信道估计算法获得时

频域的完整信道状态信息。但是在高度动态变化的信道环境中,例如车对车信道或空对地信道,由于复杂的地形环境、电磁传播环境、障碍物以及收发双方的移动性,无线信道的呈现出显著的动态变化特性和非平稳特性,信道的转移概率,路径的数目和功率,最大多径时延和最大多普勒频移均是不确定的。因此,预先制定好的导频样式难以适应信道环境的变化,需要探索更加有效和灵活导频样式以满足动态的信道环境。
[0003]目前大多数的导频样式都是基于最差的信道条件进行设计,以较大的导频的密度和导频功率换取信道估计的精度。比如在LTE标准里中,导频间隔和功率是固定的,其专门为中心频率为2Ghz,均方根时延为τ
rms
=991ns,终端速度为v=500km/h的情况设计。但对于时频域平坦信道而言,其信道之间的相关性较强,无需过多的导频进行估计。因为导频处无法传输数据信息,过多的导频会造成较大的系统开销,会降低了频谱效率和通信系统的性能。
[0004]信道估计的原理主要依赖于导频符号和数据符号之间具有一定的相关性。时域上相关性的变化主要由于多普勒频移变化引起的时变相干时间。而频域上的相关性则是由于移动过程中收发周围的散射环境的变化导致多径时延扩展发生变化,从而带来时变的相干带宽。另外,收发之间存在障碍物时,视距链路消失,信道会处于深衰落状态,此时受到深衰落的影响,接收到的参考信号能量极低,无法准确估计信道的幅度和相位信息,影响信道的估计性能。因此在深衰落信道条件下,需要配置更高功率的导频符号来保证信道估计性能。
[0005]综上所述,导频间距受信道相干时间和相干带宽的影响,而导频的功率配置受信道衰落程度的影响。因此不同的信道条件下对于导频的间隔和功率的需求是不同的。导频数量过少,会导致信道估计性能下降。但是,过多的导频会占据有限的时

频资源,使得通信系统性能下降。在总功率和有限的情况下,分配给导频符号的功率越大,相应的数据符号功率就会降低,影响实际信息比特的译码与解调。传统的固定导频样式没有考虑动态变化的非平稳信道特性,因此无法自适应地调整导频样式以满足系统的性能需求。

技术实现思路

[0006]目的:为了克服现有技术中存在的不足,针对现有的导频样式与信道环境不匹配的问题,本专利技术提供一种基于深度强化学习的自适应导频方法,发送端能够根据接收端估计的信道统计信息自适应地选择不同的导频间隔和功率。
[0007]技术方案:为解决上述技术问题,本专利技术采用的技术方案为:
[0008]第一方面,本专利技术提供一种基于深度强化学习的自适应导频方法,包括:
[0009]发送端获取接收端返回的信道统计信息;
[0010]基于所述信道统计信息,利用预训练好的基于深度强化学习的导频决策模型进行决策,得到导频决策结果;
[0011]根据所述导频决策结果,调整时

频域的导频间距和导频功率;
[0012]其中所述基于深度强化学习的导频决策模型包括两个结构相同的评估神经网络和目标神经网络;采用ε

greedy贪婪算法来进行训练至达到预设条件,得到训练好的基于深度强化学习的导频决策模型。
[0013]在一些实施例中,获取接收端返回的信道统计信息,包括:
[0014]将第k个帧中的状态表示为其中分别表示第k个帧中时域相关向量、频域相关向量以及信噪比统计特性;
[0015]信道统计信息的计算公式如下所示:
[0016]时域上的相关性系数:
[0017][0018]频域上的相关性系数:
[0019][0020]信噪比统计特性:
[0021][0022]其中,表示第n帧中的非平稳信道矩阵,其中包含了N
D
个OFDM符号和N
S
个子载波;diag
m
[
·
]矩阵X中第m个对角线进行向量化;{diag
m
[]}
q
表示第m个对角线向量中的第q个元素;p
k
和分别表示第k帧功率和平均信道增益;
[0023]根据信道时、频域上的相关性系数,获得非平稳信道在时、频域上的相关向量:
[0024][0025][0026]在一些实施例中,基于深度强化学习的导频决策模型的训练方法,包括:
[0027]步骤S1.初始化深度强化学习DQN网络参数和迭代数k=1,设定经验回放单元大小和最大帧数k
max

[0028]步骤S2.智能体接收第k帧中的信道统计信息s
k
,以概率1

ε随机选择一个动作a
k
=a
k
',否则选择输出Q值最大的动作其中θ为评估网络参数;
[0029]步骤S3.执行动作a
k
,并更新下一个状态为s
k+1

[0030]步骤S4.评估第k帧的信道归一化估计误差函数NMSE
k
和代价函数基于所述信道归一化估计误差函数NMSE
k
和代价函数得到奖励函数r
k
(s
k
,a
k
);
[0031]步骤S5.将(s
k
,a
k
,r
k
,s
k+1
)存入经验回放单元;
[0032]步骤S6.从经验回放单元随机抽取mini

batch小批量大小的历史数据计算目标值,利用RMSProp优化器最小化损失函数,并迭代更新评估网络参数θ;在1000次迭代后,用评估网络参数θ替代目标网络参数θ


[0033]步骤S7.k=k+1,若k>k
max
,则训练结束;否则,返回步骤2。
[0034]进一步地,在一些实施例中,将第k帧的动作表示为a
k
={D
f
(k),D
t
(k),ρ(k)},其中D
f
(k)和D
t
(k)分别表示导频符号在时域和频域的间隔;基于可能出现的相干带宽和相干时间用和分别表示可选的时频域导频间隔集合;ρ(k)是导频符号功率和数据符号功率的比值,其可选空间为因此智能体的动作空间大小为T*F*Q,T和F分别为时域和频域可选导频间隔数量,Q为可选功率比数量。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的自适应导频方法,其特征在于,包括:发送端获取接收端返回的信道统计信息;基于所述信道统计信息,利用预训练好的基于深度强化学习的导频决策模型进行决策,得到导频决策结果;根据所述导频决策结果,调整时

频域的导频间距和导频功率;其中所述基于深度强化学习的导频决策模型包括两个结构相同的评估神经网络和目标神经网络;采用ε

greedy贪婪算法来进行训练至达到预设条件,得到训练好的基于深度强化学习的导频决策模型。2.根据权利要求1所述的基于深度强化学习的自适应导频方法,其特征在于,获取接收端返回的信道统计信息,包括:将第k个帧中的状态表示为其中其中分别表示第k个帧中时域相关向量、频域相关向量以及信噪比统计特性;信道统计信息的计算公式如下所示:时域上的相关性系数:频域上的相关性系数:信噪比统计特性:其中,表示第n帧中的非平稳信道矩阵,其中包含了N
D
个OFDM符号和N
S
个子载波;diag
m
[X]表示矩阵X中第m个对角线进行向量化;{diag
m
[X]}
q
表示第m个对角线向量中的第q个元素;p
k
和分别表示第k帧的发送功率和平均信道增益;根据信道时、频域上的相关性系数,获得非平稳信道在时、频域上的相关向量:根据信道时、频域上的相关性系数,获得非平稳信道在时、频域上的相关向量:3.根据权利要求1所述的基于深度强化学习的自适应导频方法,其特征在于,基于深度强化学习的导频决策模型的训练方法,包括:步骤S1.初始化深度强化学习DQN网络参数和迭代数k=1,设定经验回放单元大小和最大帧数k
max
;步骤S2.智能体接收第k帧中的信道统计信息s
k
,以概率1

ε随机选择一个动作a
k
=a
k
',否则选择输出Q值最大的动作其中θ为评估网络参数;步骤S3.执行动作a
k
,并更新下一个状态为s
k+1

步骤S4.评估第k帧的信道归一化估计误差函数NMSE
k
和代价函数基于所述信道归一化估计误差函数NMSE
k
和代价函数得到奖励函数r
k
(s
k
,a
k
);步骤S5.将(s
k
,a
k
,r
k
,s
k+1
)存入经验回放单元;步骤S6.从经验回放单元随机抽取mini

batch小批量大小的历史数据计算目标值,利用RMSProp优化器最小化损失函数,并迭代更新评估网络参数θ;在1000次迭代后,用评估网络参数θ替代目标网络参数θ

;步骤S7.k=k+1,若k...

【专利技术属性】
技术研发人员:林鑫刘爱军梁小虎李洋洋高志祥
申请(专利权)人:中国人民解放军陆军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1