一种基于深度强化学习的自适应导频方法技术

技术编号：37150354 阅读：34 留言：0更新日期：2023-04-06 22:05

本发明专利技术公开了一种基于深度强化学习的自适应导频方法，方法包括：发送端获取接收端返回的信道统计信息；基于信道统计信息，利用预训练好的基于深度强化学习的导频决策模型进行决策，得到导频决策结果；根据所述导频决策结果，调整时

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的自适应导频方法

[0001]本专利技术属于信息通信
，涉及正交频分复用OFDM系统中一种基于深度强化学习的自适应导频方法。

技术介绍

[0002]信道估计对于无线通信系统性能的提升发挥关键作用。为了克服信道条件带来的不良影响，通信系统需要根据信道状态信息进行链路自适应、信道均衡、自适应传输等来提高系统性能。在实际OFDM系统中，发送方在数据符号中插入导频符号，接收方可通过信道估计算法获得时
‑
频域的完整信道状态信息。但是在高度动态变化的信道环境中，例如车对车信道或空对地信道，由于复杂的地形环境、电磁传播环境、障碍物以及收发双方的移动性，无线信道的呈现出显著的动态变化特性和非平稳特性，信道的转移概率，路径的数目和功率，最大多径时延和最大多普勒频移均是不确定的。因此，预先制定好的导频样式难以适应信道环境的变化，需要探索更加有效和灵活导频样式以满足动态的信道环境。
[0003]目前大多数的导频样式都是基于最差的信道条件进行设计，以较大的导频的密度和导频功率换取信道估计的精度。比如在LTE标准里中,导频间隔和功率是固定的，其专门为中心频率为2Ghz，均方根时延为τ
rms
＝991ns，终端速度为v＝500km/h的情况设计。但对于时频域平坦信道而言，其信道之间的相关性较强，无需过多的导频进行估计。因为导频处无法传输数据信息，过多的导频会造成较大的系统开销，会降低了频谱效率和通信系统的性能。
[0004]信道估计的原理主要依赖于导频符号和数据符号之...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的自适应导频方法，其特征在于，包括：发送端获取接收端返回的信道统计信息；基于所述信道统计信息，利用预训练好的基于深度强化学习的导频决策模型进行决策，得到导频决策结果；根据所述导频决策结果，调整时
‑
频域的导频间距和导频功率；其中所述基于深度强化学习的导频决策模型包括两个结构相同的评估神经网络和目标神经网络；采用ε
‑
greedy贪婪算法来进行训练至达到预设条件，得到训练好的基于深度强化学习的导频决策模型。2.根据权利要求1所述的基于深度强化学习的自适应导频方法，其特征在于，获取接收端返回的信道统计信息，包括：将第k个帧中的状态表示为其中其中分别表示第k个帧中时域相关向量、频域相关向量以及信噪比统计特性；信道统计信息的计算公式如下所示：时域上的相关性系数:频域上的相关性系数：信噪比统计特性：其中，表示第n帧中的非平稳信道矩阵，其中包含了N
D
个OFDM符号和N
S
个子载波；diag
m
[X]表示矩阵X中第m个对角线进行向量化；{diag
m
[X]}
q
表示第m个对角线向量中的第q个元素；p
k
和分别表示第k帧的发送功率和平均信道增益；根据信道时、频域上的相关性系数，获得非平稳信道在时、频域上的相关向量：根据信道时、频域上的相关性系数，获得非平稳信道在时、频域上的相关向量：3.根据权利要求1所述的基于深度强化学习的自适应导频方法，其特征在于，基于深度强化学习的导频决策模型的训练方法，包括：步骤S1.初始化深度强化学习DQN网络参数和迭代数k＝1，设定经验回放单元大小和最大帧数k
max
；步骤S2.智能体接收第k帧中的信道统计信息s
k
，以概率1
‑
ε随机选择一个动作a
k
＝a
k
'，否则选择输出Q值最大的动作其中θ为评估网络参数；步骤S3.执行动作a
k
，并更新下一个状态为s
k+1
；
步骤S4.评估第k帧的信道归一化估计误差函数NMSE
k
和代价函数基于所述信道归一化估计误差函数NMSE
k
和代价函数得到奖励函数r
k
(s
k
,a
k
)；步骤S5.将(s
k
,a
k
,r
k
,s
k+1
)存入经验回放单元；步骤S6.从经验回放单元随机抽取mini
‑
batch小批量大小的历史数据计算目标值，利用RMSProp优化器最小化损失函数，并迭代更新评估网络参数θ；在1000次迭代后，用评估网络参数θ替代目标网络参数θ
‑
；步骤S7.k＝k+1，若k...

【专利技术属性】
技术研发人员：林鑫，刘爱军，梁小虎，李洋洋，高志祥，
申请(专利权)人：中国人民解放军陆军工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人