基于知识与有模型强化学习的雷达抗干扰策略学习方法技术

技术编号：38152805 阅读：44 留言：0更新日期：2023-07-13 09:18

本发明专利技术涉及一种基于知识与有模型强化学习的雷达抗干扰策略学习方法，包括：S1、使雷达与已知多种干扰策略的第一干扰机对抗，构建先验信息库；S2、使雷达依据当前策略选择动作与未知干扰策略的第二干扰机进行交互，得到第二交互信息；S3、更新学习模型的参数；S4、将未知干扰策略分解为先验信息库中已知干扰策略的加权求和，构建得到雷达决策的目标函数；S5、评估模型近似损失；S6、利用模型近似损失评估未知干扰策略与已知干扰策略之间的相似程度，计算得到权系数；S7、利用权系数和目标函数计算雷达抗干扰策略并进行更新；S8、循环步骤S2

全部详细技术资料下载

【技术实现步骤摘要】
基于知识与有模型强化学习的雷达抗干扰策略学习方法

[0001]本专利技术属于雷达
，具体涉及一种基于知识与有模型强化学习的雷达抗干扰策略学习方法。

技术介绍

[0002]近年来，随着干扰机的软硬件与智能化水平不断提高，雷达面临的电磁环境愈发复杂。因此，如果雷达只采用固定的抗干扰策略，只能应对某些特定类型的干扰，将会严重降低雷达的抗干扰性能。
[0003]为了提高雷达在复杂干扰环境下的适应能力与学习能力，强化学习(RL)引起了很多研究者的关注。对于给定的任务，强化学习旨在通过与环境交互，使智能体学习一个最优(或接近最优)的解决方案。与监督学习不同，智能体不会被告知完成任务的“正确”行动，它只能通过与环境交互获得一个评估当前行动好坏的标量奖励。因此，强化学习可以使智能体自己通过交互信息学习完成给定任务的最优策略。
[0004]目前基于强化学习的雷达抗干扰策略设计方法主要集中在频率捷变(FA)雷达载频选择策略的设计上。已有工作存在的一个关键问题为采样效率低，即需要大量的样本才能使智能雷达达到可接受的性能。更具体地说，目前的工作主要基于深度无模型强化学习，因此，学习一种有效的抗干扰策略需要大量的训练样本，这使得雷达在线对抗中难以适应复杂环境中的未知干扰。

技术实现思路

[0005]为了解决现有技术中存在的上述问题，本专利技术提供了一种基于知识与有模型强化学习的雷达抗干扰策略学习方法。本专利技术要解决的技术问题通过以下技术方案实现：
[0006]本专利技术实施例提供了一种基于知识与...

【技术保护点】

【技术特征摘要】
1.一种基于知识与有模型强化学习的雷达抗干扰策略学习方法，其特征在于，包括步骤：S1、使雷达与已知多种干扰策略的第一干扰机对抗以进行抗干扰策略学习，并利用第一交互信息和学习到的抗干扰策略构建先验信息库；S2、使所述雷达依据当前策略选择动作与未知干扰策略的第二干扰机进行交互以收集真实经验，得到雷达与所述第二干扰机的第二交互信息；S3、利用所述第一交互信息、所述第二交互信息更新学习模型的参数；S4、利用权系数将未知干扰策略分解为所述先验信息库中已知干扰策略的加权求和，构建得到雷达决策的目标函数；S5、利用更新后的学习模型测量未知干扰策略与所述先验信息库中已知干扰策略引起的转移概率之间的KL距离以评估模型近似损失；S6、利用所述模型近似损失评估未知干扰策略与已知干扰策略之间的相似程度，计算得到所述权系数；S7、利用所述权系数和所述目标函数计算雷达抗干扰策略并进行更新；S8、循环步骤S2
‑
S7直至雷达性能收敛或者满足预设要求，获得最优雷达抗干扰策略。2.根据权利要求1所述的基于知识与有模型强化学习的雷达抗干扰策略学习方法，其特征在于，步骤S2包括：使所述雷达依据当前策略选择动作与未知干扰策略的第二干扰机进行交互以收集真实经验，得到雷达与所述第二干扰机的第二交互信息；将所述第二交互信息存入记忆池：其中，表示存储第二交互信息的记忆池，表示样本的状态信息，表示智能雷达在当前状态下采取的行动，表示智能雷达在当前状态采取行动后收到的回报，表示智能雷达在当前状态采取行动后到达的下一状态，N
inter
表示收集样本的个数，M表示一个CPI内的脉冲数。3.根据权利要求1所述的基于知识与有模型强化学习的雷达抗干扰策略学习方法，其特征在于，步骤S3包括：利用所述第一交互信息、所述第二交互信息，通过随机梯度下降的方式最小化学习模型的目标函数，以更新学习模型的参数，其中，所述学习模型的目标函数为：其中，φ
d
表示学习模型的网络参数，表示每个已知先验信息生成的训练样本，表达学习模型。4.根据权利要求1所述的...

【专利技术属性】
技术研发人员：李康，纠博，白林桦，刘宏伟，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人