一种基于退火Q学习的动态扩频因子抗干扰方法技术

技术编号：44156432 阅读：19 留言：0更新日期：2025-01-29 10:28

本申请提供一种基于退火Q学习的动态扩频因子抗干扰方法，方法包括：根据扩频因子确定信息传输速率；根据接收端信噪比确定系统吞吐量和优化目标；确定决策过程中的状态空间、动作空间、状态转移概率矩阵和奖励；根据宽带频谱感知结果，计算选择动作得到的奖励；通过宽带频谱感知获得当前时刻的干扰情况；根据Q值表决策下一时隙的扩频因子；根据ACK回传决策信息：用户根据决策信息选择下一时隙的动作并更新状态：根据宽带频谱感知结果，计算选择对应动作得到的奖励；根据Q值表选择下一时隙的扩频因子，并更新状态下选择动作的Q值；用户在动态干扰环境下做出最抗干扰策略。本申请最大化系统吞吐量，避免了信道切换带来的时延和开销。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及无线通信，特别涉及一种基于退火q学习的动态扩频因子抗干扰方法。

技术介绍

1、由于无线通信网络的开放共享性，且通信介质是自由电磁空间，导致它极易被干扰压制甚至被中断通信。目前，无线通信网络的抗干扰技术主要分为干扰躲避技术，干扰消除技术和干扰硬抗技术，例如切换信道、直接序列扩频、自适应滤波等来实现抗干扰。上述方法都能在特定场景中达到抗干扰的效果，其中，直接序列扩频技术作为一种硬抗干扰技术中的一种，能够无需切换信道的前提下实现抗干扰，节约了重新建立信道链路带来的时延和开销，被广泛应用于多种通信场景中，但是传统直接序列扩频通信技术的参数多为提前设定，所考虑的抗干扰模式相对固定，并且在通信决策方面智能性不强，缺乏对外界可用频谱的挖掘与研究，难以应对复杂电磁频谱环境中的动态干扰。

2、因此，研究一种动态扩频因子抗干扰策略，能够在信道资源紧张时，根据干扰强度动态调整扩频因子，以优化抗干扰策略，在干扰强度较大时选择较大的扩频因子，降低信息传输速率；在干扰强度较小时选择较小的扩频因子，提升信息传输速率，成为目前的研究热点。

技术实现思路

1、本申请提供了一种基于退火q学习的动态扩频因子抗干扰方法，可用于解决信道资源紧张时，抗干扰策略无法灵活变化的技术问题。

2、步骤1，根据扩频因子确定信息传输速率。

3、每一个传输时隙分为通信时间，频谱感知时间，q值表更新时间和确认信号ack传输时间；在第一个通信时隙内，用户选择第一个时隙传输数据的扩频因子为，得到第一

4、（1）；

5、其中，k为时隙序号，不超过总时隙数k；为第k时隙的扩频因子。

6、步骤2，根据接收端信噪比确定系统吞吐量和优化目标。

7、在当前通信场景下，通信用户的信道固定，带宽不变，码片速率不变，功率一定，通过调节m种扩频因子来应对不同干扰；用接收机输入端的信干噪比来判定受干扰程度，表示如下：

8、（2）；

9、其中，是发射机功率，为接收机处的噪声功率谱密度，为信道带宽，为干扰机的干扰功率，假设信道经历的是瑞利衰落，则通信用户的信道模型表示为，其中，为通信用户之间的传输链路距离，为该链路的路径损耗系数，为用户链路的瞬时随机分量；干扰机的信道模型表示为，其中，为干扰机到通信用户的传输链路距离，为链路的路径损耗系数，为干扰机到用户链路的瞬时随机分量；

10、为了保证接收机的正常工作，在不考虑天线损耗的前提下，接收机输入端的信干噪比要大于门限值：

11、（3）；

12、对固定信道通信而言，干扰效果等效为随时间而改变强度的干扰模型，在一个干扰时隙内，干扰强度不变，不同时隙干扰强度发生改变；

13、如果干扰引起的输入信干噪比低于，接收端的通信数据接收失败。定义当前k时隙选择的第m个扩频因子时的有效干扰函数为：

14、（4）；

15、则第k时隙的系统吞吐量定义为：

16、（5）；

17、其中，为选择扩频因子的概率，m为能够施行的扩频因子总数；

18、从q学习的角度，记所有能够施行的的策略集合为，给定k时隙的扩频因子选择策略，则由第k时隙之前的历史选择策略和第k时隙之前的吞吐量历史值决定，优化目标就是寻找最优扩频因子的选择策略使累积的期望吞吐量最大：

19、（6）。

20、步骤3：确定决策过程中的状态空间、动作空间、状态转移概率矩阵和奖励。

21、在频谱感知时间内，用户通过宽带频谱感知，获得第一时隙的信道质量，得到干扰强度，对应用户的完整状态为；

22、将抗干扰决策过程建模为马尔可夫决策过程mdp，通过求解mdp发现最优抗干扰策略；mdp定义为一个四元组，其中s代表状态空间，a代表动作空间，p代表状态转移概率矩阵，r代表奖励，定义如下：

23、定义状态空间：

24、:，，表示第个时隙用户所处的状态，表示第k时隙的扩频因子,表示第k时隙的干扰强度；

25、定义动作空间：

26、，其中第时隙做出的决策动作为，即下一时隙的扩频因子；

27、定义状态转移概率矩阵：

28、，，其中表示在状态下选择动作后转移到状态的概率；

29、定义奖励：

30、表示第k时隙在状态下选择动作得到的奖励；

31、（7）；

32、其中，为所有能够用的信息传输速率中的最大速率，引入是对当前时隙的信息传输速率进行归一化处理，为奖励-惩罚因子，定义如下：

33、（8）；

34、即第k时隙选择的动作能成功抵抗干扰，则得到一个正的奖励因子，否则得到一个负的惩罚因子。

35、步骤4，根据宽带频谱感知结果，计算选择动作得到的奖励；用户根据感知结果，得到第一个时隙选择扩频因子的奖励。

36、步骤5，通过宽带频谱感知获得下一时隙的干扰情况。

37、步骤6，根据q值表得到下一时隙的扩频因子；q值表更新时间内，用户根据q值表选择下一时隙的扩频因子。

38、在选择动作的过程中，智能体从学习到的q值对应的玻尔兹曼分布中选择动作，第k个时隙选择第m个动作的概率为：

39、（9）；

40、其中， m为可选择的扩频因子数量；为玻尔兹曼温度常数；

41、则智能体在状态为s时选择动作a的探索机制定义为：

42、（10）；

43、其中，r是随机生成的介于0到1之间的随机数；分别为第1、第2…第m个动作；

44、是玻尔兹曼温度常数，控制着动作选择概率的热度；当趋向于0时，智能体趋向于贪婪选择策略，即总是选择q值最高的动作；当趋向于无穷大时，智能体趋向于完全随机策略，即完全随机地探索环境；为使智能体在早期阶段更多的发现更好的策略，而在学习后期更多的利用已知的最佳策略，则应当随着学习的迭代逐渐减小，因此利用线性退火的方式对玻尔兹曼温度常数进行更新：

45、（11）；

46、其中，是初始温度参数，是最低温度参数，是第k时隙时的学习次数，是学习总次数。

47、步骤7，根据ack回传决策信息：最后的ack传输时间时间内，接收机将决策信息以ack的形式回传至发射机，来协调下一时隙的扩频因子。

48、步骤8，用户根据决策信息选择下一时隙的动作并更新状态：在第二个时隙内，用户根据回传的决策信息选择来传输数据，用户状态更新为。

49、步骤9，根据宽带频谱感知结果，计算选择对应动作得到的奖励；用户根据感知结果，得到第二个时隙选择扩频因子的奖励。

50、步骤10，根据q值表选择下一时隙的扩频因子，并更新状态下选择动作的q值。

51、继续通过q学习选择扩频因子，并以下方法更本文档来自技高网...

【技术保护点】

1.一种基于退火Q学习的动态扩频因子抗干扰方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，步骤1，根据扩频因子确定信息传输速率，包括：

3.根据权利要求2所述的方法，其特征在于，步骤2，根据接收端信噪比确定系统吞吐量和优化目标，包括：

4.根据权利要求3所述的方法，其特征在于，步骤3，确定决策过程中的状态空间、动作空间、状态转移概率矩阵和奖励，包括：

5.根据权利要求4所述的方法，其特征在于，步骤6，根据Q值表得到下一时隙的扩频因子；Q值表更新时间内，用户根据Q值表选择下一时隙的扩频因子，包括：

6.根据权利要求5所述的方法，其特征在于，步骤10，根据Q值表选择下一时隙的扩频因子，并更新状态下选择动作的Q值，包括：

【技术特征摘要】

1.一种基于退火q学习的动态扩频因子抗干扰方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，步骤1，根据扩频因子确定信息传输速率，包括：

3.根据权利要求2所述的方法，其特征在于，步骤2，根据接收端信噪比确定系统吞吐量和优化目标，包括：

4.根据权利要求3所述的方法，其特征在于，步骤3，确定决...

【专利技术属性】
技术研发人员：龚玉萍，刘淼，徐逸凡，崔丽，任国春，郑学强，冯智斌，刘松仪，
申请(专利权)人：中国人民解放军陆军工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人