【技术实现步骤摘要】
一种基于深度强化学习的干扰探测共享信号设计方法
[0001]本专利技术属于电子对抗领域,具体涉及一种基于深度强化学习的干扰探测共享信号设计方法。
技术介绍
[0002]随着现代科技的进步,雷达干扰技术与雷达侦察技术在现代电子战中扮演着“矛”和“盾”的角色,既相互制衡又相互发展。目前,敌我双方的对抗博弈正处于以高强度、强对抗、复杂性高为主要特征的白热化阶段。为了在保证己方生存的前提下摧毁敌方威胁目标,一机多能是武器装备发展的必然态势。因此,雷达电子战正向着更深层次兼容的方向发展,其关键问题在于“信号共享”的实现,即实现一种能够将干扰功能和探测功能集成的信号波形,又称为“共享信号”。一体化系统利用干扰机发射干扰探测共享信号,在对敌方雷达实施干扰的同时,进行隐蔽探测、定位和跟踪。
[0003]雷达干扰与雷达探测是相辅相成的关系,对于干扰探测共享信号而言,信号在具有干扰特性的同时还要具备探测能力,使得我方系统发射的干扰探测共享信号可以适应现代电子战环境。
[0004]随着学者对干扰探测共享信号研究的深入,针对共享信号的智能优化设计算法也被广泛研究。杨丹丹等发表的“混沌二相调制雷达/干扰机共享信号优化设计”针对基于混沌二相编码信号的干扰探测共享信号,对混沌序列进行遍历搜索以得到最优信号,该算法针对性较强,泛化能力较弱;韩国玺等发表的“基于ICGA的雷达与雷达干扰一体化信号的优化设计”,利用基于自适应排序选择策略的混沌遗传算法求解序列优化模型;朱晟坤等发表的“雷达通信干扰一体化OFDM共享信号优化方法”给出了基于
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述方法具体包括以下步骤:步骤一、将己方干扰机作为深度强化学习模型的智能体,将对方雷达作为深度强化学习模型的环境;步骤二、初始化深度强化学习模型的初始状态为s0,所述初始状态s0为随机产生的一组长度为L的二进制序列;步骤三、初始化时刻t=0;步骤四、智能体在t时刻的状态s
t
下与环境进行交互后随机选取动作值a
t
,智能体执行动作值a
t
进入下一时刻状态s
t+1
,所述状态s
t+1
为智能体在t时刻执行动作值a
t
后产生的下一时刻的二进制序列;将智能体在状态s
t
下执行动作值a
t
进入状态s
t+1
的奖励值表示为r
t
,将四元组<s
t
,a
t
,r
t
,s
t+1
>存入经验回放池中,再执行步骤五;步骤五、判断深度强化学习模型的当前值网络是否达到收敛状态,若达到收敛状态,则执行步骤八;否则当前值网络未达到收敛状态则执行步骤六;步骤六、判断是否达到深度强化学习模型的参数的更新频率,若达到,则从经验回放池中抽取四元组对深度强化学习模型的当前值网络进行训练后,将当前值网络的参数复制到目标值网络后再执行步骤七,若未达到,则直接执行步骤七;步骤七、令t=t+1,再返回步骤四;步骤八、将深度强化学习模型的目标值网络输出的最终时刻的状态作为最优状态,利用最优状态对应的二进制序列来设计干扰探测共享信号。2.根据权利要求1所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述步骤四中,随机选取动作值采用的是ε
‑
Greedy算法。3.根据权利要求2所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述奖励值r
t
为:r
t
=R+λ
×
V(s
t
;θ,θ
V
)其中,R为目标函数,V(s
t
;θ,θ
V
)为状态价值函数,λ是惩罚分子;目标函数R为:其中,C
τ
是时延分辨常数,F
τ
为C
τ
的倒数的最大值,C
ξ
是多普勒分辨常数,F
ξ
为C
ξ
的倒数的最大值,ω
i
是权重,i=1,2,3,d为根据状态s
t+1
设计的干扰探测共享信号经脉压获得的脉压后信号的幅度标准差与均值之比,F
d
为d的最大值。4.根据权利要求3所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述根据状态s
t+1
设计干扰探测共享信号,其具体过程为:雷达线性调频信号p(t)的表达式为:
式中,g
T
(t)为矩形信号,e是自然对数的底数,j是虚数单位,f
c
为载波频率,K为调频斜率,...
【专利技术属性】
技术研发人员:肖易寒,刘禹汐,陈涛,张颖,陈志亮,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。