一种基于强化学习的干扰信号波形优化方法技术

技术编号:32926495 阅读:34 留言:0更新日期:2022-04-07 12:17
现代自适应雷达具备自主模式切换和快速波形捷变能力,导致雷达信号状态难以穷举,传统干扰方式效能下降。本发明专利技术实例研究了一种基于强化学习的干扰信号波形优化方法:首先对干扰决策过程进行马尔可夫建模,在此基础上构建双层强化学习模型,通过两个交互的Q

【技术实现步骤摘要】
一种基于强化学习的干扰信号波形优化方法


[0001]本专利技术涉及雷达干扰
,特别涉及强化学习技术以及复杂电磁环境下的自适应干扰波形优化研究。

技术介绍

[0002]在雷达干扰中,有效的波形设计是实现精准干扰的重要前提。准确的干扰不仅影响雷达的信号处理能力,而且会抑制系统的测量精度、分辨力,从而有效地保护目标躲避雷达探测。对于传统的单模式雷达,基于模板匹配的方法选择干扰波形就可以达到较好的干扰效果。如今,随着电子与计算机技术的发展,现代雷达自适应能力逐步提升。自适应雷达可以通过工作模式切换来执行各种任务,且具备不同模式下的波形捷变能力,即能够根据电磁环境状态实时改变脉冲参数。在这一场景下,多工作模式与多参数构成的复杂的雷达信号类型难以穷举。由于对目标雷达的先验知识有限,传统干扰波形设计方法难以实现有效的干扰。因此,有必要研究复杂电磁环境下的干扰波形设计方法。
[0003]近年来,受认知无线电技术的启发,智能算法在雷达对抗中的应用成为可能。配备智能算法的认知干扰机能够在复杂电磁环境中自动感知周围态势、判定威胁等级并做出最优干扰决策,进而生成最佳干扰波形。在现有的研究中,贝叶斯网络、遗传算法、粒子群优化等方法已经被用于解决干扰波形设计问题,然而,这些传统的机器学习方法往往需要提前获取大量带标签的雷达数据,这在非合作的电子对抗场景中难以实现,因此缺乏实际的应用价值。
[0004]强化学习是机器学习领域的一个重要分支,已被证明能够解决序贯决策问题。相比上述机器学习方法,强化学习应用于雷达对抗的优势在于可以在不需要先验数据的情况下进行学习,这使得它对未知环境的适应能力更强。搭载强化学习的干扰系统可以在干扰过程中获取训练样本,并根据雷达信号的变化动态更新干扰策略。目前,强化学习在电子干扰领域的研究成果较少,特别是针对自适应雷达的干扰研究。面对具备多模式与波形捷变能力的自适应雷达,通常需要较大的干扰波形参数空间来保证包含最优参数,这使得波形优化的复杂度大幅增加。由于较高的复杂度会导致强化学习的收敛时间较长且易于陷入局部最优,干扰机很难在有限的时间内决策出最优的干扰波形,这对被保护目标来说是致命的。
[0005]针对上述问题,本专利技术提出了一种新的基于双层强化学习的干扰波形优化方法,重点面向自适应雷达进行干扰有效性验证。

技术实现思路

[0006]本专利技术主要面向针对自适应雷达的干扰场景考虑基于强化学习的干扰信号波形优化方法。本专利技术的核心包括:构建雷达与干扰波形参数化表征模型,并对自适应雷达的状态转移与干扰决策过程进行马尔可夫建模;建立两级干扰决策框架,在此基础上构建双层强化学习模型进行干扰波形参数决策,并在对抗过程中完成干扰波形优化;构建干扰效果
评估指标向量空间,对每个波束驻留期间内的干扰效果进行动态评估,并将评估结果馈入双层强化学习模型,辅助模型参数实时更新。
[0007]本专利技术中的基于双层强化学习的干扰波形优化方法包括以下步骤:
[0008]步骤200,构建雷达状态参数化表征模型,并对雷达状态转移与干扰决策过程进行马尔可夫建模。
[0009]自适应雷达具备多个工作模式以完成不同的任务,通常包括搜索、跟踪和识别等。雷达在正常工作时,开始处于搜索模式对全空域进行目标搜索,当侦测到任务相关目标时转至跟踪模式,对目标保持跟踪完成确认后,雷达从跟踪模式转换至识别模式,对目标相关信息做进一步分析。为了增强抗干扰性能,在不同的工作状态下,雷达发射信号往往采用不同的参数变化方式来保证其本身的功能。雷达的工作模式与波形参数共同表征了雷达在某一时刻的状态,因此本专利技术中将雷达状态建模为:
[0010][工作模式,波形参数][0011]对比雷达在不同工作模式下脉冲参数变化范围及变化规律,建立五维向量对其波形参数进行描述:
[0012][f
r
,B
r
,pri
r
,pw
r
,P
r
][0013]其中,f
r
为雷达信号载频,B
r
为雷达信号带宽,pri
r
为雷达脉冲重复间隔,pw
r
为脉宽、P
r
为雷达信号功率。
[0014]将干扰波形参数的决策过程建模为一个有限马尔可夫决策过程(Markov decision process,MDP),用一个四元组来表示。是雷达状态的有限集;是干扰动作的有限集;是状态转移概率,用于描述当干扰机在n时刻采取动作a
(n)
时,雷达由状态s
(n)
转换至s
(n+1)
的概率;是干扰机采取干扰动作后获得的即时回报。
[0015]步骤210,构建基于双层强化学习的干扰波形优化模型,部署于干扰机决策引擎。
[0016]面向自适应雷达的复杂状态,本专利技术设计了一种基于双层Q

Learning(Dual Q

Learning,DQL)的干扰波形优化模型。
[0017]首先将干扰机的高维动作空间分解为干扰样式和脉冲参数两个子空间以降低搜索维度,在此基础上将干扰决策过程分为两个层次:第一决策层确定干扰样式,在第二决策层根据干扰样式选择频域和时域的具体信号参数。在这一框架下,构建两个交互的Q

learning模型对干扰样式和波形参数进行联合优化,在对抗过程中寻找全局最优解。两层之间的相互作用可以描述为:第一层确定的干扰样式对第二层的参数选择有约束作用,第二层选择的波形参数直接决定了雷达接收机处的信噪比并影响雷达的模式切换,从而影响第一层的下一个输入状态。
[0018]该模型部署于智能干扰机的决策引擎,指导干扰机在每个时步进行干扰决策,并在对抗过程中进行干扰波形优化,以实现最优干扰效果。步骤220~250描述了对抗过程中基于DQL模型进行干扰波形优化的执行过程。
[0019]步骤220,在每个波束驻留时间段初期,对雷达信号进行工作模式检测,外层强化学习根据当前工作模式进行干扰样式决策,并映射至时、频域两个内层Q表。
[0020]DQL模型中,外层Q

learning用于在第一决策层中选择干扰样式。此处,雷达状态
作为强化学习中的环境状态,干扰机的干扰样式作为智能体的动作。在每个波束驻留时间段初期,根据接收到的雷达信号进行雷达工作模式检测。而后按照ε

greedy策略,根据该雷达工作模式在外层Q表中选择相应干扰样式,并依据干扰样式映射至内层Q

learning中的时、频域Q表。
[0021]步骤230,对上一波束驻留时段的干扰效果进行动态评估,并将评估结果馈入双层强化学习模型,更新外层Q表。
[0022]首先建立干扰效果评估指标体系,得到包含l个指标的集合构建一个l维的向量空间,每一维表示一个评估指标。在此基础上,本专利技术引入带权重的欧氏距离来衡量指标向量间的距离,权本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的干扰信号波形优化方法,其特征在于,包括:构建雷达状态参数化表征模型,并对雷达状态转移与干扰决策过程进行马尔可夫建模;将干扰机的高维动作空间分解为干扰样式和脉冲参数两个子空间以降低搜索维度,在此基础上构建基于双层强化学习的干扰波形优化模型,在对抗过程中对干扰样式和波形参数进行联合优化;建立干扰效果评估指标体系,设计基于指标向量空间的干扰效果动态评估方法,并将评估结果馈入双层强化学习模型以辅助模型更新。2.根据权利要求1所述的雷达状态参数化表征模型,其特征在于,将雷达状态建模为[工作模式,波形参数],其中雷达波形参数用一个包含载频、带宽、脉冲重复间隔、脉宽、功率的五维向量描述,即[f
r
,B
r
,pri
r
,pw
r
,P
r
]。3.根据权利要求1所述干扰决策过程的马尔可夫建模方法,其特征在于,将干扰波形参数的决策过程建模为一个有限马尔可夫决策过程,用一个四元组来表示,其中是雷达状态的有限集;是干扰动作的有限集;是状态转移概率,用于描述当干扰机在n时刻采取动作a
(n)
时,雷达由状态s
(n)
转换至s
(n+1)
的概率;是干扰机采取干扰动作后获得的即时回报。4.根据权利要求1所述的双层强化学习模型,其特征在于,将干扰机的高维动作空间拆解为干扰样式和脉冲参数两个子空间以降低搜索维度,在此基础上将干扰过程分为两个层次:第一决策层确定干扰样式,第二决策层根据干扰样式选择频域和时域的具体信号参数,在这一框架下,构建两个交互的Q

learning模型对干扰样式和波形参数进行联合优化,在对抗过程中寻找全局最优解。5.根据权利要求1或4所述...

【专利技术属性】
技术研发人员:何元刘红笛
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1