一种基于深度强化学习的干扰探测共享信号设计方法技术

技术编号:38820633 阅读:30 留言:0更新日期:2023-09-15 19:59
一种基于深度强化学习的干扰探测共享信号设计方法,它属于电子对抗领域。本发明专利技术解决了现有方法中的控制变量多导致实现过程复杂,以及由于过估计导致算法易陷入局部最优的问题。本发明专利技术以非均匀间歇采样重复转发信号作为共享信号,以信号脉压后幅度均值与标准差之比以及时延分辨常数和多普勒分辨常数构造联合目标函数,并在竞争深度Q学习网络算法的基础上引入状态价值函数,进而根据目标函数和状态价值函数获得奖励函数,利用D3QN求解奖励函数,以奖励函数的最大化为目标获取最优的共享信号。本发明专利技术方法可以应用于干扰探测共享信号的设计。的设计。的设计。

【技术实现步骤摘要】
一种基于深度强化学习的干扰探测共享信号设计方法


[0001]本专利技术属于电子对抗领域,具体涉及一种基于深度强化学习的干扰探测共享信号设计方法。

技术介绍

[0002]随着现代科技的进步,雷达干扰技术与雷达侦察技术在现代电子战中扮演着“矛”和“盾”的角色,既相互制衡又相互发展。目前,敌我双方的对抗博弈正处于以高强度、强对抗、复杂性高为主要特征的白热化阶段。为了在保证己方生存的前提下摧毁敌方威胁目标,一机多能是武器装备发展的必然态势。因此,雷达电子战正向着更深层次兼容的方向发展,其关键问题在于“信号共享”的实现,即实现一种能够将干扰功能和探测功能集成的信号波形,又称为“共享信号”。一体化系统利用干扰机发射干扰探测共享信号,在对敌方雷达实施干扰的同时,进行隐蔽探测、定位和跟踪。
[0003]雷达干扰与雷达探测是相辅相成的关系,对于干扰探测共享信号而言,信号在具有干扰特性的同时还要具备探测能力,使得我方系统发射的干扰探测共享信号可以适应现代电子战环境。
[0004]随着学者对干扰探测共享信号研究的深入,针对共享信号的智能优化设计算法也被广泛研究。杨丹丹等发表的“混沌二相调制雷达/干扰机共享信号优化设计”针对基于混沌二相编码信号的干扰探测共享信号,对混沌序列进行遍历搜索以得到最优信号,该算法针对性较强,泛化能力较弱;韩国玺等发表的“基于ICGA的雷达与雷达干扰一体化信号的优化设计”,利用基于自适应排序选择策略的混沌遗传算法求解序列优化模型;朱晟坤等发表的“雷达通信干扰一体化OFDM共享信号优化方法”给出了基于遗传算法的正交频分复用子载波功率优化方法,但遗传算法中控制变量较多,其中的交叉率、变异率等参数的设定需要依靠经验确定,且首先需要对问题进行编码,找到最优解之后再进行解码,实现较为复杂;陈涛等发表的“基于ICGA的雷达与雷达干扰一体化信号的优化设计”利用Q

Learning与“切割”假设法结合的方法设计干扰信号波形。但Q

Learning中存在过估计问题,易使算法陷入局部最优。陈涛等发表的“基于DQN的探测干扰一体化波形优化设计”利用DQN算法求解目标函数,获取最优的幅度编码方式。DQN算法虽然增强了Q

Learning的学习能力,但并未解决过估计问题。
[0005]综上所述,现有干扰探测共享信号的优化设计大多采用遗传算法或强化学习算法,但是现有方法中控制变量较多,因此实现较为复杂;而且由于过估计现象易使算法陷入局部最优。

技术实现思路

[0006]本专利技术的目的是为解决现有方法中的控制变量多导致实现过程复杂,以及由于过估计导致算法易陷入局部最优的问题,而提出的一种基于深度强化学习的干扰探测共享信号设计方法。
[0007]本专利技术为解决上述技术问题所采取的技术方案是:一种基于深度强化学习的干扰探测共享信号设计方法,所述方法具体包括以下步骤:
[0008]步骤一、将己方干扰机作为深度强化学习模型的智能体,将对方雷达作为深度强化学习模型的环境;
[0009]步骤二、初始化深度强化学习模型的初始状态为s0,所述初始状态s0为随机产生的一组长度为L的二进制序列;
[0010]步骤三、初始化时刻t=0;
[0011]步骤四、智能体在t时刻的状态s
t
下与环境进行交互后随机选取动作值a
t
,智能体执行动作值a
t
进入下一时刻状态s
t+1
,所述状态s
t+1
为智能体在t时刻执行动作值a
t
后产生的下一时刻的二进制序列;
[0012]将智能体在状态s
t
下执行动作值a
t
进入状态s
t+1
的奖励值表示为r
t
,将四元组<s
t
,a
t
,r
t
,s
t+1
>存入经验回放池中,再执行步骤五;
[0013]步骤五、判断深度强化学习模型的当前值网络是否达到收敛状态,若达到收敛状态,则执行步骤八;否则当前值网络未达到收敛状态则执行步骤六;
[0014]步骤六、判断是否达到深度强化学习模型的参数的更新频率,若达到,则从经验回放池中抽取四元组对深度强化学习模型的当前值网络进行训练后,将当前值网络的参数复制到目标值网络后再执行步骤七,若未达到,则直接执行步骤七;
[0015]步骤七、令t=t+1,再返回步骤四;
[0016]步骤八、将深度强化学习模型的目标值网络输出的最终时刻的状态作为最优状态,利用最优状态对应的二进制序列来设计干扰探测共享信号。
[0017]本专利技术的有益效果是:
[0018]本专利技术以非均匀间歇采样重复转发信号作为共享信号,以信号脉压后幅度均值与标准差之比以及时延分辨常数和多普勒分辨常数构造联合目标函数,并在竞争深度Q学习网络(Dueling Double Deep Q Network,D3QN)算法的基础上引入状态价值函数,进而根据目标函数和状态价值函数获得奖励函数,利用D3QN求解奖励函数,以奖励函数的最大化为目标获取最优的共享信号。本专利技术的设计共享信号的方法实现过程简单,且不会出现过估计的问题,具有较好的优化设计能力和较高的稳定性,且泛化能力较强,突破了现有探测干扰共享信号性能的局限性。
[0019]对本专利技术优化设计后共享信号的脉压特性、恒虚警概率检测门限以及模糊函数进行分析,实验仿真结果表明,本专利技术的干扰探测共享信号经过脉压后产生大量假目标,有良好的压制干扰和欺骗干扰双重效果,同时信号具有较高的距离分辨力和速度分辨力。
附图说明
[0020]图1为基于本专利技术方法设计的干扰探测共享信号时域图;
[0021]图2为基于本专利技术方法设计的干扰探测共享信号与均匀间歇采样信号及线性调频信号的脉压对比图;
[0022]图3为基于本专利技术方法设计的干扰探测共享信号与均匀间歇采样信号的恒虚警概率检测门限对比图;
[0023]图4为基于本专利技术方法设计的干扰探测共享信号的三维模糊函数图。
具体实施方式
[0024]具体实施方式一、本实施方式所述的一种基于深度强化学习的干扰探测共享信号设计方法,所述方法具体包括以下步骤:
[0025]步骤一、将己方干扰机作为深度强化学习模型的智能体,将对方雷达作为深度强化学习模型的环境;
[0026]步骤二、初始化深度强化学习模型的初始状态为s0,所述初始状态s0为随机产生的一组长度为L的二进制序列;序列中“0”代表采样,若出现一个“0”,则采样时间为τ;“1”代表转发,固定二进制序列的第一位为0,即先采样后转发;
[0027]步骤三、初始化时刻t=0;
[0028]步骤四、智能体在t时刻的状态s
t
下与环境进行交互后随机选取动作值a
t
,智能体执行动作值a...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述方法具体包括以下步骤:步骤一、将己方干扰机作为深度强化学习模型的智能体,将对方雷达作为深度强化学习模型的环境;步骤二、初始化深度强化学习模型的初始状态为s0,所述初始状态s0为随机产生的一组长度为L的二进制序列;步骤三、初始化时刻t=0;步骤四、智能体在t时刻的状态s
t
下与环境进行交互后随机选取动作值a
t
,智能体执行动作值a
t
进入下一时刻状态s
t+1
,所述状态s
t+1
为智能体在t时刻执行动作值a
t
后产生的下一时刻的二进制序列;将智能体在状态s
t
下执行动作值a
t
进入状态s
t+1
的奖励值表示为r
t
,将四元组<s
t
,a
t
,r
t
,s
t+1
>存入经验回放池中,再执行步骤五;步骤五、判断深度强化学习模型的当前值网络是否达到收敛状态,若达到收敛状态,则执行步骤八;否则当前值网络未达到收敛状态则执行步骤六;步骤六、判断是否达到深度强化学习模型的参数的更新频率,若达到,则从经验回放池中抽取四元组对深度强化学习模型的当前值网络进行训练后,将当前值网络的参数复制到目标值网络后再执行步骤七,若未达到,则直接执行步骤七;步骤七、令t=t+1,再返回步骤四;步骤八、将深度强化学习模型的目标值网络输出的最终时刻的状态作为最优状态,利用最优状态对应的二进制序列来设计干扰探测共享信号。2.根据权利要求1所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述步骤四中,随机选取动作值采用的是ε

Greedy算法。3.根据权利要求2所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述奖励值r
t
为:r
t
=R+λ
×
V(s
t
;θ,θ
V
)其中,R为目标函数,V(s
t
;θ,θ
V
)为状态价值函数,λ是惩罚分子;目标函数R为:其中,C
τ
是时延分辨常数,F
τ
为C
τ
的倒数的最大值,C
ξ
是多普勒分辨常数,F
ξ
为C
ξ
的倒数的最大值,ω
i
是权重,i=1,2,3,d为根据状态s
t+1
设计的干扰探测共享信号经脉压获得的脉压后信号的幅度标准差与均值之比,F
d
为d的最大值。4.根据权利要求3所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述根据状态s
t+1
设计干扰探测共享信号,其具体过程为:雷达线性调频信号p(t)的表达式为:
式中,g
T
(t)为矩形信号,e是自然对数的底数,j是虚数单位,f
c
为载波频率,K为调频斜率,...

【专利技术属性】
技术研发人员:肖易寒刘禹汐陈涛张颖陈志亮
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1