一种基于多智能体强化学习的多机协同干扰资源分配方法组成比例

技术编号:38319590 阅读:10 留言:0更新日期:2023-07-29 09:01
本发明专利技术公开了一种基于多智能体强化学习的多机协同干扰资源分配方法,首先设定组网雷达与多干扰机的对抗场景;采用集中式训练,分布式执行的多智能体强化学习算法,设置表演者和批评者神经网络和经验缓存,并设定干扰机之间共享回报函数;接着用表演者网络获取干扰集群在对抗场景中的状态

【技术实现步骤摘要】
一种基于多智能体强化学习的多机协同干扰资源分配方法


[0001]本专利技术属于雷达电子对抗和人工智能交叉的
,具体涉及一种基于多智能体强化学习的多机干扰资源分配方法。

技术介绍

[0002]面对日益复杂的现代电磁对抗环境和智能化水平不断提高的对抗目标,由人工智能技术与电子对抗技术深度结合的电子战系统应运而生。认知电子战系统构建一种具有通过先验知识及自主交互学习来感知并改变周围局部电磁环境能力的智能、动态闭环的对抗系统,从而实时实现“感知(Observe)

调整(Orient)

决策(Decide)

行动(Act)”的OODA智能处理环路。
[0003]目前协同干扰资源分配问题在电子对抗领域主要关注启发式搜索算法,如粒子群算法,遗传算法和人工蜂群算法等。虽然这类算法在应对简单场景时,可以得到良好的效果,但是当对抗场景复杂,参数量较大时,需要消耗大量计算资源且重部署能力较差。随着电磁空间中用频设备的增多,雷达等电子系统不断智能化发展,需要考虑智能性更高,可以应对更复杂电子对抗场景的协同干扰策略优化方法。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种基于多智能体强化学习的多机干扰资源分配方法,能够在复杂的组网雷达和多干扰机对抗环境下,解决多干扰机对组网雷达的协同干扰问题。
[0005]一种基于多智能体强化学习的多机干扰资源分配方法,包括以下步骤:
[0006]步骤一、设定组网雷达和多干扰机的非合作电子对抗场景,其中雷达组网中雷达数目设为M个,各部雷达工作在相同频段,且位于电磁空间的不同物理方位,雷达的辐射功率为P
R
;设定干扰方部署了N台目标在既定空间飞行,每个目标均挂载自卫干扰机,并且每部雷达的主瓣只能跟踪一个目标;
[0007]步骤二、进行分布式部分可观测马尔科夫博弈建模,确定该博弈模型的八元组采用合作的分布式马尔科夫博弈模型对组网雷达协同多干扰机协同干扰资源分配问题进行建模,构建干扰方智能干扰机的状态空间联合动作空间以及联合观测空间根据干扰方确定的优化目标,即以满足对组网雷达实现整体压制干扰的前提下,尽可能减小功率资源的消耗的优化目标,确定回报函数R,观测函数Z和状态转移矩阵P,以及折扣因子γ;
[0008]其中,分布式马尔科夫博弈的局部状态空间包括干扰机在上一时刻t

1下的干扰动作干扰效果和物理位置;则当前时刻t下第j台干扰机的局部观测为因此干扰方的联合观测空间定义为:
[0009][0010]分布式马尔科夫博弈的每台干扰机动作空间为对组网雷达功率的分配形式其中表示第j台干扰机给雷达i分配的功率标量,M表示雷达数量;因此干扰方的联合动作空间定义为:
[0011][0012]分布式马尔科夫博弈中各干扰机是完全协同的,共享回报函数,设计回报函数旨在最小化发射功率下,实现对组网雷达的全部链路压制干扰。因此t时刻下的全链路压制干扰回报函数定义为:
[0013][0014]其中,ω1,...,ω
M
表示各部雷达的重要性指标,δ为压制干扰系数,均通过专家知识设置;
[0015]最优干扰效率回报函数定义为:
[0016][0017]其中,表示干扰机在第i部雷达处分配的归一化功率,k为平衡回报数量级的参数,P
i
为第i部雷达所选择的真实功率。
[0018]因此在t时刻下,协同干扰机的综合回报函数R
t
可以定义如下:
[0019]R
t
=α1R
o
(s
t
,a
t
)+α2R
s
(s
t
,a
t
)
[0020]其中α1和α2为权重超参数;
[0021]步骤三、根据构建的联合动作空间和联合观测空间,建立多智能体强化学习深度神经网络,该网络由表演家网络和批评家网络构成;设定网络的训练次数N
episode
,每轮训练中训练步数N
step
,初始化多智能体强化学习深度神经网络参数,初始化各干扰机的状态,设置数据缓存B,基于将各干扰机和环境交互的每一步存放在数据缓存B中;
[0022]步骤四、在所建立的多智能体强化学习深度神经网络训练中,开始训练次数的第一轮,根据初始化的网络参数设置,从初始的局部观测o1执行一步联合动作a1,通过在电磁环境中的交互获得下一时刻的局部观测o2,同时得到该联合动作对应的即时回报R1,并将该过程中所得到的数据存储在数据缓存B中,接着将局部观测o2设为下一时刻的起始观测,并重复上述过程,获得各部干扰机的轨迹;
[0023]步骤五、对网络进行训练时,每次从缓存B中随机选择轨迹中数据,基于多智能体强化学习深度神经网络的目标函数,分别使用轨迹数据更新第j个干扰机的表演家网络参
数θ
j
和批评家网络参数ω
j
,旧的策略参数和
[0024]在步骤四的相同训练轮数内,若步骤三中的实际训练步数达到设置的N
step
,或达到提前终止条件,则停止该轮的训练,进入下一轮的训练轮数,否则重复步骤四继续训练,重复步骤五至训练轮数达到N
episode
后完成训练;
[0025]步骤六、在对干扰资源进行分配时,将局部观测信息输入到训练好的多智能体强化学习神经网络,得到下一步联合动作。
[0026]较佳的,采用集中式训练对多智能体强化学习深度神经网络进行训练;在训练过程中,各智能干扰机为协同工作,干扰方的各干扰机可以获得其他干扰机的状态、动作信息构成全局观测信息,每部干扰机均由一个表演家网络和批评家网络组成,并利用全局信息训练,各干扰机的批评家网络也可以使用所有干扰机的状态和策略以及环境信息;在训练完成后的执行阶段,每个智能干扰机根据自己的局部信息,从自己的表演家网络输出对应的干扰策略。
[0027]较佳的,用来表示N个智能干扰机所构成的表演家网络所生成的动作策略集合,其中策略π由θ={θ1,θ2,...,θ
N
}网络参数θ参数化,θ
N
表示第N个表演家网络的网络参数;在集中式训练过程中,设计以下目标函数以更新每个智能干扰机的表演家网络:
[0028][0029]其中,第一项表示每个表演家网络的目标函数,E
t
()表示计算目标函数的期望,表示第j部干扰机的当前策略和旧策略的比值,为第j部干扰机的表演家网络固定的旧参数,θ
j
为第j部干扰机的表演家网络待更新的参数,为第j部干扰机在t时刻的局部观测信息,clip()表示裁剪函数,其作用是将的范围控制在1

∈到1+∈范围内,其中∈为裁剪超参数,用来控制新旧策略的差异度的大小。第二项为策略熵项,用来强化神经网络的探索能力,其中是在给定观测o
j
下的策略本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的多机干扰资源分配方法,其特征在于,包括以下步骤:步骤一、设定组网雷达和多干扰机的非合作电子对抗场景,其中雷达组网中雷达数目设为M个,各部雷达工作在相同频段,且位于电磁空间的不同物理方位,雷达的辐射功率为P
R
;设定干扰方部署了N台目标在既定空间飞行,每个目标均挂载自卫干扰机,并且每部雷达的主瓣只能跟踪一个目标;步骤二、进行分布式部分可观测马尔科夫博弈建模,确定该博弈模型的八元组采用合作的分布式马尔科夫博弈模型对组网雷达协同多干扰机协同干扰资源分配问题进行建模,构建干扰方智能干扰机的状态空间S,联合动作空间A,以及联合观测空间O,根据干扰方确定的优化目标,即以满足对组网雷达实现整体压制干扰的前提下,尽可能减小功率资源的消耗的优化目标,确定回报函数R,观测函数Z和状态转移矩阵P,以及折扣因子γ;其中,分布式马尔科夫博弈的局部状态空间包括干扰机在上一时刻t

1下的干扰动作干扰效果和物理位置;则当前时刻t下第j台干扰机的局部观测为因此干扰方的联合观测空间定义为:分布式马尔科夫博弈的每台干扰机动作空间为对组网雷达功率的分配形式其中表示第j台干扰机给雷达i分配的功率标量,M表示雷达数量;因此干扰方的联合动作空间定义为:分布式马尔科夫博弈中各干扰机是完全协同的,共享回报函数,设计回报函数旨在最小化发射功率下,实现对组网雷达的全部链路压制干扰。因此t时刻下的全链路压制干扰回报函数定义为:其中,ω1,


M
表示各部雷达的重要性指标,δ为压制干扰系数,均通过专家知识设置;最优干扰效率回报函数定义为:其中,表示干扰机在第i部雷达处分配的归一化功率,k为平衡回报数量级的参
数,P
i
为第i部雷达所选择的真实功率。因此在t时刻下,协同干扰机的综合回报函数R
t
可以定义如下:R
t
=α
i
R
o
(S
t
,a
t
)+α2R
s
(S
t
,a
t
)其中α1和α2为权重超参数;步骤三、根据构建的联合动作空间和联合观测空间,建立多智能体强化学习深度神经网络,该网络由表演家网络和批评家网络构成;设定网络的训练次数N
episode
,每轮训练中训练步数N
step
,初始化多智能体强化学习深度神经网络参数,初始化各干扰机的状态,设置数据缓存B,基于将各干扰机和环境交互的每一步存放在数据缓存B中;步骤四、在所建立的多智能体强化学习深度神经网络训练中,开始训练次数的第一轮,根据初始化的网络参数设置,从初始的局部观测o1执行一步联合动作a1,通过在电磁环境中的交互获得下一时刻的局部观测o2,同时得到该联合动作对应的即时回报R1,并将该过程中所得到的数据存储在数据缓存B中,接着将局部观测o2设为下一时刻的起始观测,并重复上述过程,获得各部干扰机的轨迹;步骤五、对网络进行训练时,每次从缓存B中随机选择轨迹中数据,基于多智能体强化学习深度神经网络的目标函数,分别使用轨迹数据更新第j个干扰机的表演家网络参数θ
j
和批评家网络参数ω
j
,旧的策略参数和在步骤四的相同训练轮数内,若步骤三中的实际训练步数达到设置的N
step
,或达到提前终止条件,则停止该轮的训练,进入下一轮的训练轮数,否则重复步骤四继续训练,重复步骤五至训练轮数达到N
episode
后完成训练;步骤六、在对干扰资源进行分配时,将局部观测信息输入到训练好的多智能体强化学习神经网络,得到下一步联合动作。2.如权利要求1中所述的一种基于多智能体强化学习的多机干扰资源分配方法,其特征在于,采用集中式训练对多智能体强化学习深度神经网络进行训练;在训练过程中,各智能干扰机为协同工作,干扰方的各干扰机可以获得其他干扰机的状态、动作信息构成全局观测信息,每部干扰机均由一个表演家网络和批评家网络组成,并利用全局信息训练,各干扰机的批评...

【专利技术属性】
技术研发人员:潘泽斯李岩李云杰贾宇博
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1