一种面向不完整感知的动态干扰功率分配方法组成比例

技术编号：42822349 阅读：1 留言：0更新日期：2024-09-24 20:59

本发明专利技术涉及一种面向不完整感知的动态干扰功率分配方法。包括：构建用于表述不完整感知条件下动态干扰功率分配问题的部分可观测马尔可夫决策模型；收集历史观测数据并按时间顺序存储到数据集中；构建基于生成式对抗网络的数据补全模型；构建用于预测通信策略的对手模型；基于训练好的数据补全模型和对手模型对深度强化学习决策模型进行训练，以得到最佳的干扰功率分配策略；将完成训练的深度强化学习决策模型在线部署于智能干扰机上，进行在线学习和实时决策。本发明专利技术通过“离线训练、在线部署”来指导训练和部署过程，在观测信息不完整的情况下，补全实际观测数据，利用深度强化学习技术给出最优的干扰功率分配方案，实现实时有效的干扰。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及无线通信网络，尤其涉及一种面向不完整感知的动态干扰功率分配方法。

技术介绍

1、当前，高功率干扰仍然是物理层阻断用户之间通信的主要方法。特别是，在现代军事斗争中，对干扰成本、资源利用率和隐蔽性的要求越来越严格，功率分配直接影响着未来电子对抗网络的可持续性。显然，现实中恒定的最大功率或全功率压制干扰通常并不是最优策略，无法满足未来精确干扰的发展需要，因此开展动态自适应干扰功率分配研究意义重大。

2、相关技术中，深度强化学习(drl)在解决功率分配问题上表现突出，而且drl支持的智能干扰机能够在动态和未知环境中通过分析感知到的无线电传输信息，学习用户的传输模式，进而调整干扰策略。这些研究为我们开展基于drl的干扰功率分配研究提供了参考。但是值得注意，现有大多数工作都是基于干扰者拥有完美感知信息的假设。然而，在实际应用中，由于硬件故障、传输丢失或其它突发变故等原因，经常出现不完全感知的情况，导致传统基于drl的方法性能严重下降。因此，研究不完全感知信息下的动态干扰功率分配问题具有重要意义。

3、在不完全感知的情况下进行干扰功率控制是一个挑战。原因是部分感知信息缺失导致通信特征不全或消失，这使得学习通信行为规律并收敛到有效干扰功率分配策略十分困难。

4、关于上述技术方案，专利技术人发现至少存在如下一些技术问题：

5、没有针对不完全感知信息下的动态干扰功率分配问题展开研究。也没有针对在不完全感知信息的条件下如何快速准确的决策最佳干扰功率的解决方法。

6、因此，

7、需要注意的是，本部分旨在为权利要求书中陈述的本专利技术的技术方案提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

技术实现思路

1、本专利技术的目的在于提供一种面向不完整感知的动态干扰功率分配方法，进而至少在一定程度上解决上述的由于相关技术的限制和缺陷而导致的一个或者多个问题。

2、第一方面，本专利技术提供了一种面向不完整感知的动态干扰功率分配方法，包括：

3、构建用于表述不完整感知条件下动态干扰功率分配问题的部分可观测马尔可夫决策模型；

4、收集历史观测数据并按时间顺序存储到数据集中；其中，所述历史观测数据包含不完整感知信息的实际观测数据；

5、构建基于生成式对抗网络的数据补全模型；

6、构建用于预测通信策略的对手模型；

7、基于训练好的生成式对抗网络的数据补全模型和对手模型对深度强化学习决策模型进行训练，以得到最佳的干扰功率分配策略；

8、将完成训练的所述深度强化学习决策模型在线部署于智能干扰机上，进行在线学习和实时决策。

9、可选的，所述构建用于表述不完整感知条件下动态干扰功率分配问题的部分可观测马尔可夫决策模型的步骤中，还包括：

10、所述部分可观测马尔可夫决策模型为包含状态集、动作集、观测集、状态转移概率函数、观察转移概率函数和奖励函数的六元组；并以最大化累积奖励期望作为优化目标。

11、可选的，所述实际观测数据的表达式通过完美观测矢量和掩码矢量进行乘积得到；其中，所述完美观测矢量表示完整感知的观测数据；所述掩码矢量为表示观测数据是否有效的二进制矢量。

12、可选的，所述构建基于生成式对抗网络的数据补全模型的步骤中，还包括：

13、所述生成式对抗网络模型包含生成器和鉴别器；其中，所述生成器根据实际观测数据进行补全并输出完整矢量；所述鉴别器用于检测生成器输出的所述完整矢量并判断其中的真实值和生成值；以最大最小化所述鉴别器正确预测掩码矩阵的概率作为对抗目标训练所述生成器和所述鉴别器。

14、可选的，所述构建基于生成式对抗网络的数据补全模型的步骤中，还包括：

15、固定所述生成器并通过随机梯度下降法优化所述鉴别器；固定完成更新的所述鉴别器并通过随机梯度下降法优化所述生成器；依次循环直到训练完成。

16、可选的，所述生成器的损失函数为对抗损失和重构损失两部分的加权和。

17、可选的，所述构建用于预测通信策略的对手模型的步骤中，还包括：

18、通过长短时记忆网络和多层感知机构建所述对手模型，通过挖掘通信行为在时域和功率域上的潜在变化规律进行分类，预测通信策略。

19、可选的，所述基于训练好的生成式对抗网络的数据补全模型和对手模型对深度强化学习决策模型进行训练，以得到最佳的干扰功率分配策略的步骤中，还包括：

20、将所述生成式对抗网络模型补全后的观测数据，前一时刻的动作以及所述对手模型的预测结果拼接作为所述深度强化学习决策模型的输入；并根据当前时刻的输入执行当前时刻的动作，获得当前时刻的奖励；将当前时刻的输入，当前时刻的动作，当前时刻的奖励以及下一时刻的输入作为历史经验存入回放池。

21、可选的，所述基于训练好的生成式对抗网络的数据补全模型和对手模型对深度强化学习决策模型进行训练，以得到最佳的干扰功率分配策略的步骤中，还包括：

22、根据优先经验回放机制为每个所述历史经验设置优先级，并对优先级更高的历史经验设置更高的采样概率。

23、可选的，所述将完成训练的所述深度强化学习决策模型在线部署于智能干扰机上，进行在线学习和实时决策的步骤中，还包括：

24、在真实环境当中进行干扰功率决策和在线学习，并将真实数据补充到数据库中，根据预设条件通过离线训练操作更新整个所述深度强化学习决策模型，并再次在线部署于智能干扰机上。

25、本专利技术提供的技术方案可以包括以下有益效果：

26、本专利技术中，通过“离线训练、在线部署”来指导训练和部署过程，在观测信息不完整的情况下，通过对实际观测数据的补全，利用深度强化学习等技术快速地给出最优的干扰功率分配方案，从而实现实时、有效的干扰。

本文档来自技高网...

【技术保护点】

1.一种面向不完整感知的动态干扰功率分配方法，其特征在于，包括：

2.根据权利要求1所述的面向不完整感知的动态干扰功率分配方法，其特征在于，所述构建用于表述不完整感知条件下动态干扰功率分配问题的部分可观测马尔可夫决策模型的步骤中，还包括：

3.根据权利要求1所述的面向不完整感知的动态干扰功率分配方法，其特征在于，所述实际观测数据的表达式通过完美观测矢量和掩码矢量进行乘积得到；其中，所述完美观测矢量表示完整感知的观测数据；所述掩码矢量为表示观测数据是否有效的二进制矢量。

4.根据权利要求2所述的面向不完整感知的动态干扰功率分配方法，其特征在于，所述构建基于生成式对抗网络的数据补全模型的步骤中，还包括：

5.根据权利要求4所述的面向不完整感知的动态干扰功率分配方法，其特征在于，所述构建基于生成式对抗网络的数据补全模型的步骤中，还包括：

6.根据权利要求5所述的面向不完整感知的动态干扰功率分配方法，其特征在于，所述生成器的损失函数为对抗损失和重构损失两部分的加权和。

7.根据权利要求1所述的面向不完整感知的动态干扰

8.根据权利要求2所述的面向不完整感知的动态干扰功率分配方法，其特征在于，所述基于训练好的生成式对抗网络的数据补全模型和对手模型对深度强化学习决策模型进行训练，以得到最佳的干扰功率分配策略的步骤中，还包括：

9.根据权利要求8所述的面向不完整感知的动态干扰功率分配方法，其特征在于，所述基于训练好的生成式对抗网络的数据补全模型和对手模型对深度强化学习决策模型进行训练，以得到最佳的干扰功率分配策略的步骤中，还包括：

10.根据权利要求1-9任一项所述的面向不完整感知的动态干扰功率分配方法，其特征在于，所述将完成训练的所述深度强化学习决策模型在线部署于智能干扰机上，进行在线学习和实时决策的步骤中，还包括：

...

【技术特征摘要】

1.一种面向不完整感知的动态干扰功率分配方法，其特征在于，包括：

4.根据权利要求2所述的面向不完整感知的动态干扰功率分配方法，其特征在于，所述构建基于生成式对抗网络的数据补全模型的步骤中，还包括：

5.根据权利要求4所述的面向不完整感知的动态干扰功率分配方法，其特征在于，所述构建基于生成式对抗网络的数据补全模型的步骤中，还包括：

6.根据权利要求5所述的面向不完整感知的动态干扰功率分配...

【专利技术属性】
技术研发人员：许华，彭翔，齐子森，王聃，庞伊琼，
申请(专利权)人：中国人民解放军空军工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人