一种基于LSTM和Q-Learning融合的快速收敛动态诱导频谱接入方法技术

技术编号：43000916 阅读：2 留言：0更新日期：2024-10-15 13:28

本发明专利技术中提出了一种基于LSTM和Q‑Learning融合的快速收敛动态频谱接入方法，该方法首先采用长短时记忆网络(LSTM)构建认知用户的在线学习模型，根据信道接入的实时ACK消息反馈，将其作为模型输入，得到所有可接入信道的预测占用概率，其次将在线学习模型学到的信道占用预测概率和Q‑Learning强化学习算法的状态动作Q值表相结合，得到新的Q值策略矩阵，认知用户根据该联合策略矩阵进行动态频谱接入，经多次接入迭代后，得到每一种频谱状态条件下的最优频谱接入策略，达到快速收敛到系统最优性能的目的。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及基于强化学习的认知无线电技术，应用于无线通信与网络。

技术介绍

1、在当今无线通信中，移动设备的激增和新的应用的需求，如工业互联网、增强现实、数字孪生，导致了移动数据的爆炸式增长，频谱的稀缺成为制约通信发展的挑战。目前，几乎大部分频谱都被授权给特殊应用使用，如军事通信、广播电视等。用户只能自由接入非授权频谱，如ism和u-nii频段。但是，用户数量的激增导致非授权频谱的拥堵问题日益严重。而在授权频谱中却存在大量的频谱空洞，近年来已有较多研究探讨频谱资源的高效利用，但在如何提高频谱接入算法的收敛速度上研究较少，因此频谱资源并未被很好的利用。

2、动态频谱接入技术(dsa)作为一种有前景的方法被提出以解决频谱稀缺的问题，其允许认知无线电用户(也称为次要用户，secondary users，sus)在授权频谱和非授权频谱共存的环境中，在不干扰授权用户(也称为主要用户，primary users，pus)的情况下动态接入频谱，从而提高频谱利用率和缓解频谱拥挤的现状。如图1所示，在认知无线电网络(cognitive radio networks，crns)由于用户数量较多，因此分簇算法将多个用户分为若干簇网络。在单簇网络内，存在簇头(基站)用户协调簇内用户数据接入和簇间用户的数据交互。在单簇网络内，sus机会性的接入多个信道，同时尽可能避免与pus的碰撞，如图2所示。overlay模式表示相同资源块内同一时间只允许一个用户占用。在crns中，由于pus的存在，无线频谱处于动态时变状态，传统的静态频谱接入技术无法很好的适应动态环境。

3、目前，强化学习受到关注并被广泛研究，其适应动态环境的能力非常适用于认知无线电网络crns。但该方法存在收敛速度慢的弊端。原因有三点。首先，因为贪婪策略的存在，导致了收敛迭代次数增加，但该策略是为了寻找全局最优的保证。其次是学习速率的设置也是影响收敛速度的原因之一。最后，深度强化学习是采用两个神经网络对q值进行非线性近似，但dqn没有收敛性保证，容易陷入次优策略。同时，在实际通信中，用户成功发送数据后会收到接入点广播的ack消息，可以作为信道占用历史信息来被认知用户利用。因此，在su非协作的情况下，即su之间不存在信息交换，su实时观察信道状态，通过碰撞和奖励机制实现接入策略的优化。

技术实现思路

1、为了克服收敛慢的问题，本专利技术提出一种基于长短时记忆网络(lstm)和q-learning融合的快速收敛动态诱导频谱接入方法。

2、技术方案

3、首先采用长短时记忆网络(lstm)构建认知用户的在线学习模型，根据信道接入的实时ack消息反馈，将其作为模型输入，得到所有可接入信道的预测占用概率，其次将在线学习模型学到的信道占用预测概率和q-learning强化学习算法的状态动作q值表相结合，得到新的q值策略矩阵，认知用户根据该联合策略矩阵进行动态频谱接入，经多次接入迭代后，得到每一种频谱状态条件下的最优频谱接入策略，达到快速收敛到系统最优性能的目的。

4、在本专利技术充分利用实际信道占用时序信息，构建基于lstm的在线学习模型来预测信道占用概率，通过引入信道占用预测引导认知用户决策行为，从而尽可能减少用户间的碰撞，提高达到最优接入策略的收敛速度。并利用预测结果与q-learning强化学习算法的q值表相结合得到联合频谱决策矩阵，认知用户根据该决策矩阵进行频谱接入，每次接入后认知用户根据获得的奖励更新频谱接入策略。经多次迭代后，以尽量少的迭代次数达到收敛，并具有较好的稳定性。

本文档来自技高网...

【技术保护点】

1.一种基于LSTM和Q-Learning融合的快速收敛动态诱导频谱接入方法，其特征在于，首先采用长短时记忆网络(LSTM)构建认知用户的在线学习模型，根据信道接入的实时ACK消息反馈，将其作为在线学习模型输入，得到所有可接入信道的预测占用概率；

2.根据权利要求1的方法，其特征在于，其中，S1中构建认知用户在线学习模型并对信道占用概率实时预测，过程包括以下步骤：

3.根据权利要求1的方法，其特征在于，其中S2包括以下步骤：

4.根据权利要求1的方法，其特征在于，其中S2包括以下步骤：

5.根据权利要求2的方法，其特征在于，

【技术特征摘要】

1.一种基于lstm和q-learning融合的快速收敛动态诱导频谱接入方法，其特征在于，首先采用长短时记忆网络(lstm)构建认知用户的在线学习模型，根据信道接入的实时ack消息反馈，将其作为在线学习模型输入，得到所有可接入信道的预测占用概率；

2.根据权利要求1的方法，其特...

【专利技术属性】
技术研发人员：黄新林，王盛宇，刘剑锋，李鹏飞，何婉宁，兰蒙，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人