一种基于感知增强网络的自适应干扰资源分配方法组成比例

技术编号：41654992 阅读：5 留言：0更新日期：2024-06-14 15:18

本发明专利技术公开了一种基于感知增强网络的自适应干扰资源分配方法，属于深度强化学习技术领域。本发明专利技术所设计的感知增强网络包括状态识别网络和动作价值网络，其中状态识别网络用于识别通信方的状态价值，增强对通信方抗干扰状态的感知能力，然后将状态价值反馈给动作价值网络以选择最优干扰动作，从而帮助模型更精准地匹配最优干扰资源分配策略。并且，构建了一个双目标优化奖励函数，通过调整两个归一化后的奖励函数的相对重要性权重，达到干扰成功和资源节约之间的最佳平衡。此外，设计了动态修正的优先经验回放机制，以实现对数据样本的高效利用并确保策略的快速收敛。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度强化学习，具体涉及一种基于感知增强网络的自适应干扰资源分配方法。

技术介绍

1、无线通信干扰是指当原始信号在信号源和接收器之间的通信信道传播时，外部信号以破坏性方式影响原始信号。在理想资源条件下，可采用高功率、全频段干扰手段确保有效的干扰。然而，实际通信场景往往存在资源受限的问题，需要通过合理的资源分配策略实现理想的干扰效果。因此，如何设定合理的资源分配策略成为无线通信干扰领域的一个重要研究问题。传统的干扰资源分配算法通常需要充分的通信信号分析先验知识，以构建干扰系统的交互式决策模型。然而，在实际通信对抗场景中，往往难以获取通信方完备的先验信息，导致难以保证这类方法的干扰有效性。最近，由数据驱动的强化学习算法，可以在缺乏充分先验信息的情况下学习，但是，随着干扰机和通信方数量增加，通信方状态空间和干扰机动作空间的维度呈指数式增长，导致强化学习算法的策略搜索变得非常困难，从而限制了资源分配算法的性能。

2、对此引入神经网络的深度强化学习被应用到该问题上，深度强化学习具备了从大规模高维数据中自动提取复杂非线性特征的能力，在处理高维状态和动作空间的资源优化问题上表现了出卓越性能，然而，现有方法通常假定通信方的通信模式固定，例如调制方式、功率分配或跳频序列等参数固定不变。因此，在通信模式因干扰动态变化的动态抗干扰场景下，现有的算法难以实现合理的干扰资源分配。为此，本文设计了感知增强网络，特别利用其中的状态识别网络动态识别通信模式状态，帮助模型匹配更精准地匹配干扰资源分配策略。同时，在动态抗干扰的仿真多链路通信

技术实现思路

1、本专利技术的目的在于解决在通信模式因干扰动态变化的动态抗干扰场景下，现有的算法难以实现合理的干扰资源分配的问题。

2、为解决现有技术中存在的问题，本专利技术提供了一种基于感知增强网络的自适应干扰资源分配方法，基于现有的double dqn模型，利用本专利技术设计的感知增强网络，提出了一种基于感知增强网络的自适应干扰资源分配模型结构，能准确感知到通信方抗干扰状态，并匹配更少的干扰资源来实现成功干扰，在动态对抗场景下，干扰成功率和资源节约能力都优于现有干扰资源分配算法，解决了上述
技术介绍
中提到的问题。

3、为实现上述目的，本专利技术提供如下技术方案：

4、本专利技术提供了一种基于感知增强网络的自适应干扰资源分配方法，包括以下步骤：

5、步骤s10：构建包括状态识别网络和动作价值网络的感知增强网络，对通信方的发射机发送信号s输入到策略网络中进行处理，得到处理后的特征，将处理后的特征输入到状态识别网络，并识别通信方的状态价值，状态价值反映了通信方当前的通信能力和可能的行为模式，然后将状态价值反馈给动作价值网络，动作价值网络利用状态价值来评估不同的干扰动作的价值，以选择最优干扰动作；

6、步骤s20：利用状态识别网络的得到的识别信息，强化动作价值网络对不同干扰动作的评估能力，并结合动作价值网络输出所有干扰动作的平均动作价值，根据所有干扰动作的平均动作价值选择最优的干扰策略；

7、步骤s30：基于上述的感知增强网络的ddqn框架，并建立双目标优化奖励函数，调整相对重要性权重，通过双目标优化奖励函数约束并引导干扰方设备实现最优均衡策略的生成，最优均衡策略指导选择步骤s20中的最优的干扰策略，从而实现自适应干扰资源分配；

8、步骤s40：设计动态修正的优先经验回放机制，提高算法的效率和收敛速度。

9、上述方法中，所述步骤s10的具体步骤如下：

10、步骤s101，将状态s输入到策略网络中进行处理，得到处理后的特征，其中状态s即通信方的n个发射机发送信号的码率cr、调制样式m和扩频倍数sp；

11、步骤s102，将处理后的特征输入到状态识别网络v(s；wv，bv)，得到当前状态的识别信息

12、v(s；wv，bv)＝f(wvs+bv)

13、其中s为当前状态、wv是感知增强网络中状态识别网络的权重，bv是偏置向量，f()是非线性激活函数。

14、上述方法中，所述步骤s20的具体步骤如下：

15、步骤s201，动作价值网络用于评估干扰动作a的价值，其中干扰动作为干扰方的m个干扰机的功率pj和带宽bw；

16、步骤s202，将步骤s101处理后的特征再输入到动作价值网络a(s，a；wa，ba)，网络具体结构为：输入层，一层全连接层，非线性激活函数以及输出层然后将步骤s102状态识别网络输出的识别信息和当前动作价值网络输出的平均估计价值相加，得到当前状态下不同动作的平均动作价值：

17、a(s，a；wa，ba)＝f(wa[s；a]+ba)

18、其中s为当前状态、wa是感知增强网络中动作价值网络的权重，ba是偏置向量，f()是非线性激活函数。

19、步骤s203，根据输出平均动作价值选择合适的干扰策略。

20、上述方法中，所述步骤s30的具体步骤如下：

21、步骤s301，ddqn包括评估网络q(s，a；θ)和目标网络q(s，a；θ-)，两个网络的结构一致，参数不一样，其中评估网络用于动作选择，目标网络用于动作评估，最终网络的输出为：

22、

23、

24、其中，s为当前状态、a为当前动作，θ为评估网络的所有参数，θ为目标网络的所有参数、wv是评估网络中状态识别权重、wa是评估网络中动作价值权重、bv是评估网络中状态识别偏置、ba是评估网络中动作价值偏置、a是动作价值评估函数、是目标网络中动作价值权重、是目标网络中状态识别权重、是目标网络中状态识别偏置、是目标网络中动作价值偏置；

25、步骤s302，将奖励函数包括两个部分，一部分用于衡量对第i条链路干扰是否成功的基础奖励另一部分用于评估在干扰成功后资源节约能力的资源优化奖励再分别对这两个部分进行归一化；

26、其中定义为如果干扰误码率低于阈值，则被视为干扰失败，基础奖励为-1；如果干扰误码率高于或等于阈值，则被视为干扰成功，基础奖励为1，具体表示为：

27、

28、其中ber(i)的含义是第i条链路误码率，k为误码率阈值；

29、定义为：

30、

31、其中，表示所选干扰功率在干扰功率集合pj中从小到大的排名，是干扰功率集合中的最大排名；

32、最终总的奖励函数定义为：

33、

34、其中n表示有n条干扰路径，wr为两个函数的相对重要性权重；

35、通过双目标优化奖励函数约束并引导干扰方设备实现最优均衡策略的生成，进而实现自适应干扰资源分配。

36、上述方法中，所述步骤s40的具体步骤如下：

37、步骤s401，考虑到目标奖励函数的随机采样模式忽略了历史样本序列之间的差异，设计基于时序误差|δ|的动态修正的优本文档来自技高网...

【技术保护点】

1.一种基于感知增强网络的自适应干扰资源分配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于感知增强网络的自适应干扰资源分配方法，其特征在于：所述步骤S10的具体步骤如下：

3.根据权利要求1所述的基于感知增强网络的自适应干扰资源分配方法，其特征在于：所述步骤S20的具体步骤如下：

4.根据权利要求1所述的基于感知增强网络的自适应干扰资源分配方法，其特征在于：所述步骤S30的具体步骤如下：

5.根据权利要求1所述的基于感知增强网络的自适应干扰资源分配方法，其特征在于：所述步骤S40的具体步骤如下：

6.一种基于感知增强网络的自适应干扰资源分配装置，其特征在于，包括：

7.根据权利要求6所述的基于感知增强网络的自适应干扰资源分配装置，其特征在于：构建模块的实现具体步骤如下：

8.根据权利要求6所述的基于感知增强网络的自适应干扰资源分配装置，其特征在于：强化模块的实现具体步骤如下：

9.根据权利要求6所述的基于感知增强网络的自适应干扰资源分配装置，其特征在于：所述优化模块的实现具体步骤如下：

10.根据权利要求6所述的基于感知增强网络的自适应干扰资源分配装置，其特征在于：修正模块的实现具体步骤如下：

...

【技术特征摘要】

1.一种基于感知增强网络的自适应干扰资源分配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于感知增强网络的自适应干扰资源分配方法，其特征在于：所述步骤s10的具体步骤如下：

3.根据权利要求1所述的基于感知增强网络的自适应干扰资源分配方法，其特征在于：所述步骤s20的具体步骤如下：

4.根据权利要求1所述的基于感知增强网络的自适应干扰资源分配方法，其特征在于：所述步骤s30的具体步骤如下：

5.根据权利要求1所述的基于感知增强网络的自适应干扰资源分配方法，其特征在于：所述步骤s40的具体步骤如下：<...

【专利技术属性】
技术研发人员：刘峤，郎俊杰，黄燕文，曾悦，李淳，谢军，谢炀，刘延，庞人宁，刘宇翔，侯睿，甘洋镭，代婷婷，佟飘，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人