System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于LSTM和Q-Learning融合的快速收敛动态诱导频谱接入方法技术_技高网
当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于LSTM和Q-Learning融合的快速收敛动态诱导频谱接入方法技术

技术编号:43000916 阅读:2 留言:0更新日期:2024-10-15 13:28
本发明专利技术中提出了一种基于LSTM和Q‑Learning融合的快速收敛动态频谱接入方法,该方法首先采用长短时记忆网络(LSTM)构建认知用户的在线学习模型,根据信道接入的实时ACK消息反馈,将其作为模型输入,得到所有可接入信道的预测占用概率,其次将在线学习模型学到的信道占用预测概率和Q‑Learning强化学习算法的状态动作Q值表相结合,得到新的Q值策略矩阵,认知用户根据该联合策略矩阵进行动态频谱接入,经多次接入迭代后,得到每一种频谱状态条件下的最优频谱接入策略,达到快速收敛到系统最优性能的目的。

【技术实现步骤摘要】

本专利技术涉及基于强化学习的认知无线电技术,应用于无线通信与网络。


技术介绍

1、在当今无线通信中,移动设备的激增和新的应用的需求,如工业互联网、增强现实、数字孪生,导致了移动数据的爆炸式增长,频谱的稀缺成为制约通信发展的挑战。目前,几乎大部分频谱都被授权给特殊应用使用,如军事通信、广播电视等。用户只能自由接入非授权频谱,如ism和u-nii频段。但是,用户数量的激增导致非授权频谱的拥堵问题日益严重。而在授权频谱中却存在大量的频谱空洞,近年来已有较多研究探讨频谱资源的高效利用,但在如何提高频谱接入算法的收敛速度上研究较少,因此频谱资源并未被很好的利用。

2、动态频谱接入技术(dsa)作为一种有前景的方法被提出以解决频谱稀缺的问题,其允许认知无线电用户(也称为次要用户,secondary users,sus)在授权频谱和非授权频谱共存的环境中,在不干扰授权用户(也称为主要用户,primary users,pus)的情况下动态接入频谱,从而提高频谱利用率和缓解频谱拥挤的现状。如图1所示,在认知无线电网络(cognitive radio networks,crns)由于用户数量较多,因此分簇算法将多个用户分为若干簇网络。在单簇网络内,存在簇头(基站)用户协调簇内用户数据接入和簇间用户的数据交互。在单簇网络内,sus机会性的接入多个信道,同时尽可能避免与pus的碰撞,如图2所示。overlay模式表示相同资源块内同一时间只允许一个用户占用。在crns中,由于pus的存在,无线频谱处于动态时变状态,传统的静态频谱接入技术无法很好的适应动态环境。

3、目前,强化学习受到关注并被广泛研究,其适应动态环境的能力非常适用于认知无线电网络crns。但该方法存在收敛速度慢的弊端。原因有三点。首先,因为贪婪策略的存在,导致了收敛迭代次数增加,但该策略是为了寻找全局最优的保证。其次是学习速率的设置也是影响收敛速度的原因之一。最后,深度强化学习是采用两个神经网络对q值进行非线性近似,但dqn没有收敛性保证,容易陷入次优策略。同时,在实际通信中,用户成功发送数据后会收到接入点广播的ack消息,可以作为信道占用历史信息来被认知用户利用。因此,在su非协作的情况下,即su之间不存在信息交换,su实时观察信道状态,通过碰撞和奖励机制实现接入策略的优化。


技术实现思路

1、为了克服收敛慢的问题,本专利技术提出一种基于长短时记忆网络(lstm)和q-learning融合的快速收敛动态诱导频谱接入方法。

2、技术方案

3、首先采用长短时记忆网络(lstm)构建认知用户的在线学习模型,根据信道接入的实时ack消息反馈,将其作为模型输入,得到所有可接入信道的预测占用概率,其次将在线学习模型学到的信道占用预测概率和q-learning强化学习算法的状态动作q值表相结合,得到新的q值策略矩阵,认知用户根据该联合策略矩阵进行动态频谱接入,经多次接入迭代后,得到每一种频谱状态条件下的最优频谱接入策略,达到快速收敛到系统最优性能的目的。

4、在本专利技术充分利用实际信道占用时序信息,构建基于lstm的在线学习模型来预测信道占用概率,通过引入信道占用预测引导认知用户决策行为,从而尽可能减少用户间的碰撞,提高达到最优接入策略的收敛速度。并利用预测结果与q-learning强化学习算法的q值表相结合得到联合频谱决策矩阵,认知用户根据该决策矩阵进行频谱接入,每次接入后认知用户根据获得的奖励更新频谱接入策略。经多次迭代后,以尽量少的迭代次数达到收敛,并具有较好的稳定性。

本文档来自技高网...

【技术保护点】

1.一种基于LSTM和Q-Learning融合的快速收敛动态诱导频谱接入方法,其特征在于,首先采用长短时记忆网络(LSTM)构建认知用户的在线学习模型,根据信道接入的实时ACK消息反馈,将其作为在线学习模型输入,得到所有可接入信道的预测占用概率;

2.根据权利要求1的方法,其特征在于,其中,S1中构建认知用户在线学习模型并对信道占用概率实时预测,过程包括以下步骤:

3.根据权利要求1的方法,其特征在于,其中S2包括以下步骤:

4.根据权利要求1的方法,其特征在于,其中S2包括以下步骤:

5.根据权利要求2的方法,其特征在于,

【技术特征摘要】

1.一种基于lstm和q-learning融合的快速收敛动态诱导频谱接入方法,其特征在于,首先采用长短时记忆网络(lstm)构建认知用户的在线学习模型,根据信道接入的实时ack消息反馈,将其作为在线学习模型输入,得到所有可接入信道的预测占用概率;

2.根据权利要求1的方法,其特...

【专利技术属性】
技术研发人员:黄新林王盛宇刘剑锋李鹏飞何婉宁兰蒙
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1