一种基于异构多智能体强化学习的多无人机协同突防方法技术

技术编号:31507564 阅读:32 留言:0更新日期:2021-12-22 23:40
本发明专利技术公开了一种基于异构多智能体强化学习的多无人机协同突防方法,属于多智能体深度强化学习领域。本发明专利技术通过构建牵引性博弈场景和结果描述性博弈场景,初始化状态、评价神经网络参数、目标神经网络参数等超参数,对智能体进行训练。训练初始时,各无人机根据状态得到动作改变二维速度,得到新的状态,并将每回合博弈经验保存于经验池中,随机抽取样本构成学习样本,不断对智能体神经网络进行更新。当训练次数完成后,保存各神经网络参数,在评估性博弈场景中对学习效果进行验证,直到达到要求的成功率,完成协同突防任务的训练。完成协同突防任务的训练。完成协同突防任务的训练。

【技术实现步骤摘要】
一种基于异构多智能体强化学习的多无人机协同突防方法


[0001]本专利技术涉及一种基于异构多智能体强化学习的多无人机协同突防方法,属于多智能体深度强化学习领域。

技术介绍

[0002]多无人机协同突防的特点在于不同功能的多无人机通过相互配合和掩护完成对于敌方重点目标的攻击。同时,敌方重点目标附近存在机动防御力量,多无人机需要能能够在敌方的拦截下协同完成攻击任务。
[0003]公开号为CN111274740A的专利提出了一种多飞行器协同突防轨迹优化设计方法,该方法由于缺少对敌方防御力量的考虑,难以应对复杂多变的战场环境。公开号为CN112198892A的专利提出了一种多无人机智能协同突防对抗方法,该方法中各无人机具有相同的功能,不能满足复杂突防任务中不同功能无人机协同突防的要求,此外,由于敌方防御力量的策略不具有人工智能,无法实现策略的优化,从而无法促进多无人机协同突防策略的不断优化和提高。

技术实现思路

[0004]为了解决当前多无人机协同突防方法的不足,本专利技术提出了一种基于异构多智能体强化学习的多无人机协同突防方法,可使不同功能的多无人机能够协同达成突防任务。
[0005]为了实现上述目的,本专利技术采用的技术方案为:
[0006]一种基于异构多智能体强化学习的无人机协同突防方法,包括以下步骤:
[0007]步骤1:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的牵引性博弈训练场景;蓝方攻击智能体攻击红方基地,红方拦截智能体拦截蓝方攻击智能体;蓝方拦截智能体拦截红方攻击智能体;分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的马尔科夫模型;
[0008]步骤2:分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的神经网络;
[0009]步骤3:对红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的状态进行更新:
[0010]步骤4:对红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的神经网络进行训练:
[0011]步骤5:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的结果描述性博弈训练场景;
[0012]步骤6:迁移红方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景;
[0013]步骤7:迁移蓝方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景;
[0014]步骤8:迁移蓝方攻击智能体的策略神经网络、评价神经网络、目标策略神经网络
和目标评价神经网络到结果描述性博弈训练场景;
[0015]步骤9:执行步骤3,然后转到步骤10;
[0016]步骤10:执行步骤4,然后转到步骤11;
[0017]步骤11:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的评估性博弈场景;
[0018]步骤12:构建基于规则的红方拦截智能体:
[0019]步骤13:迁移蓝方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到评估性博弈场景;
[0020]步骤14:迁移蓝方攻击智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到评估性博弈场景;
[0021]步骤15:进行多轮测试,对学习效果进行验证,如果蓝方胜率超过门限η,则实现无人机协同突防;如果蓝方胜率低于门限η,则返回步骤4继续训练。
[0022]进一步的,步骤1中,分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的马尔科夫模型的具体方式为:
[0023]步骤1

1:构建红方拦截智能体的马尔科夫模型(S1,A1,R1,γ1),其中S1为红方拦截智能体的输入状态,A1为红方拦截智能体的输出动作,R1为红方拦截智能体的奖励函数,γ1为折扣系数;
[0024]结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,设定红方拦截智能体的输入状态为:
[0025]S1=[x1,y1,x2,y2,x3,y3,x4,y4][0026]其中x1和y1为红方拦截智能体在二维平面上的位置,x2和y2为蓝方拦截智能体在二维平面上的位置,x3和y3为蓝方攻击智能体在二维平面上的位置,x4和y4为红方基地在二维平面上的位置;
[0027]设定红方拦截智能体的输出动作为A1,输出动作A1为红方拦截智能体在接收到输入状态后所采取的动作,输出动作A1为:
[0028][0029]其中和分别为红方拦截智能体在二维平面上的横向速度和纵向速度;结合博弈场景对红方拦截智能体的速度进行约束,红方拦截智能体的横向速度为其中v
max
为红方拦截智能体沿X轴正向的最大速度,v
min
为红方拦截智能体沿X轴负向的最大速度;红方拦截智能体的纵向速度为其中v
ymax
为红方拦截智能体沿Y轴正向的最大速度,v
ymin
为红方拦截智能体沿Y轴负向的最大速度;
[0030]定义牵引性奖励函数R1:
[0031]利用红方拦截智能体与蓝方攻击智能体位置的距离,得到牵引性奖励函数,表示红方拦截智能体在当前状态下选取动作所获得的反馈值;牵引性奖励函数R1为:
[0032][0033]设定学习衰减因子:
[0034]设定学习衰减因子0<γ1<1,用于累计整个博弈过程中的奖赏值;γ1值越大,表
示越注重长期收益;
[0035]步骤1

2:构建蓝方拦截智能体的马尔科夫模型(S2,A2,R2,γ2),其中S2为红方拦截智能体的输入状态,A2为蓝方拦截智能体的输出动作,R2为蓝方拦截智能体的奖励函数,γ2为折扣系数;
[0036]结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,设定蓝方拦截智能体的输入状态为:
[0037]S2=[x1,y1,x2,y2,x3,y3,x4,y4][0038]其中x1和y1为红方拦截智能体在二维平面上的位置,x2和y2为蓝方拦截智能体在二维平面上的位置,x3和y3为蓝方攻击智能体在二维平面上的位置,x4和y4为红方基地在二维平面上的位置;
[0039]设定蓝方拦截智能体的输出动作为A2;输出动作A2为蓝方拦截智能体在接收到输入状态后所采取的动作;输出动作A2为:
[0040][0041]其中和分别为蓝方拦截智能体在二维平面上的横向速度和纵向速度;结合博弈场景对红方拦截智能体的速度进行约束,蓝方拦截智能体的横向速度为其中v
max
为蓝方拦截智能体沿X轴正向的最大速度,v
min
为蓝方拦截智能体沿X轴负向的最大速度;蓝方拦截智能体的横向速度为其中v
max
为蓝方拦截智能体沿Y轴正向的最大速度,v
min
为蓝方拦截智能体沿Y轴负向的最大速度;
[0042]定义牵本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于异构多智能体强化学习的多无人机协同突防方法,其特征在于,包括以下步骤:步骤1:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的牵引性博弈训练场景;蓝方攻击智能体攻击红方基地,红方拦截智能体拦截蓝方攻击智能体;蓝方拦截智能体拦截红方攻击智能体;分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的马尔科夫模型;步骤2:分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的神经网络;步骤3:对红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的状态进行更新:步骤4:对红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的神经网络进行训练:步骤5:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的结果描述性博弈训练场景;步骤6:迁移红方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景;步骤7:迁移蓝方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景;步骤8:迁移蓝方攻击智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景;步骤9:执行步骤3,然后转到步骤10;步骤10:执行步骤4,然后转到步骤11;步骤11:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的评估性博弈场景;步骤12:构建基于规则的红方拦截智能体:步骤13:迁移蓝方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到评估性博弈场景;步骤14:迁移蓝方攻击智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到评估性博弈场景;步骤15:进行多轮测试,对学习效果进行验证,如果蓝方胜率超过门限η,则实现无人机协同突防;如果蓝方胜率低于门限η,则返回步骤4继续训练。2.根据权利要求1所述的一种基于异构多智能体强化学习的多无人机协同突防方法,其特征在于,步骤1中,分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的马尔科夫模型的具体方式为:步骤1

1:构建红方拦截智能体的马尔科夫模型(S1,A1,R1,γ1),其中S1为红方拦截智能体的输入状态,A1为红方拦截智能体的输出动作,R1为红方拦截智能体的奖励函数,γ1为折扣系数;结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,设定红方拦截智能体的输入状态为:S1=[x1,y1,x2,y2,x3,y3,x4,y4]其中x1和y1为红方拦截智能体在二维平面上的位置,x2和y2为蓝方拦截智能体在二维平面上的位置,x3和y3为蓝方攻击智能体在二维平面上的位置,x4和y4为红方基地在二维平面
上的位置;设定红方拦截智能体的输出动作为A1,输出动作A1为红方拦截智能体在接收到输入状态后所采取的动作,输出动作A1为:其中和分别为红方拦截智能体在二维平面上的横向速度和纵向速度;结合博弈场景对红方拦截智能体的速度进行约束,红方拦截智能体的横向速度为其中v
max
为红方拦截智能体沿X轴正向的最大速度,v
min
为红方拦截智能体沿X轴负向的最大速度;红方拦截智能体的纵向速度为其中v
ymax
为红方拦截智能体沿Y轴正向的最大速度,v
ymin
为红方拦截智能体沿Y轴负向的最大速度;定义牵引性奖励函数R1:利用红方拦截智能体与蓝方攻击智能体位置的距离,得到牵引性奖励函数,表示红方拦截智能体在当前状态下选取动作所获得的反馈值;牵引性奖励函数R1为:设定学习衰减因子:设定学习衰减因子0<γ1<1,用于累计整个博弈过程中的奖赏值;γ1值越大,表示越注重长期收益;步骤1

2:构建蓝方拦截智能体的马尔科夫模型(S2,A2,R2,γ2),其中S2为红方拦截智能体的输入状态,A2为蓝方拦截智能体的输出动作,R2为蓝方拦截智能体的奖励函数,γ2为折扣系数;结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,设定蓝方拦截智能体的输入状态为:S2=[x1,y1,x2,y2,x3,y3,x4,y4]其中x1和y1为红方拦截智能体在二维平面上的位置,x2和y2为蓝方拦截智能体在二维平面上的位置,x3和y3为蓝方攻击智能体在二维平面上的位置,x4和y4为红方基地在二维平面上的位置;设定蓝方拦截智能体的输出动作为A2;输出动作A2为蓝方拦截智能体在接收到输入状态后所采取的动作;输出动作A2为:其中和分别为蓝方拦截智能体在二维平面上的横向速度和纵向速度;结合博弈场景对红方拦截智能体的速度进行约束,蓝方拦截智能体的横向速度为其中v
max
为蓝方拦截智能体沿X轴正向的最大速度,v
min
为蓝方拦截智能体沿X轴负向的最大速度;蓝方拦截智能体的横向速度为其中v
max
为蓝方拦截智能体沿Y轴正向的最大速度,v
min
为蓝方拦截智能体沿Y轴负向的最大速度;定义牵引性奖励函数R2:利用蓝方拦截智能体与红方拦截智能体位置的距离,得到牵引性奖励函数,表示蓝方拦截智能体在当前状态下选取动作所获得的反馈值;牵引性奖励函数R2为:
设定学习衰减因子:设定学习衰减因子0<γ2<1,用于累计整个博弈过程中的奖赏值;γ2值越大,表示越注重长期收益;步骤1

3:构建蓝方攻击智能体的马尔科夫模型(S3,A3,R3,γ3),其中S3为红方拦截智能体的输入状态,A3为红方拦截智能体的输出动作,R3为红方拦截智能体的奖励函数,γ3为折扣系数;结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,设定蓝方攻击智能体的输入状态为:S3=[x1,y1,x2,y2,x3,y3,x4,y4]其中x1和y1为红方拦截智能体在二维平面上的位置,x2和y2为蓝方拦截智能体在二维平面上的位置,x3和y3为蓝方攻击智能体在二维平面上的位置,x4和y4为红方基地在二维平面上的位置;设定蓝方攻击智能体的输出动作为A3;输出动作A3为蓝方攻击智能体在接收到输入状态后所采取的动作,输出动作A3为:其中和分别为蓝方攻击智能体在二维平面上的横向速度和纵向速度;结合博弈场景对蓝方攻击智能体的速度进行约束;蓝方攻击智能体的横向速度为其中v
max
为蓝方攻击智能体沿X轴正向的最大速度,v
min
为蓝方攻击智能体沿X轴负向的最大速度;蓝方攻击智能体的横向速度为其中v
max
为蓝方攻击智能体沿Y轴正向的最大速度,v
min
为蓝方攻击智能体沿Y轴负向的最大速度;定义牵引性奖励函数R3:利用蓝方攻击智能体与红方基地位置的距离,得到牵引性奖励函数,表示蓝方攻击智能体在当前状态下选取动作所获得的反馈值;牵引性奖励函数R3为:设定学习衰减因子:设定学习衰减因子0<γ3<1,用于累计整个博弈过程中的奖赏值;γ3值越大,表示越注重长期收益。3.根据权利要求2所述的一种基于异构多智能体强化学习的多无人机协同突防方法,其特征在于,步骤2的具体方式为:步骤2

1:构建红方拦截智能体的策略神经网络μ1:策略神经网络μ1由输入层、隐藏层和输出层组成;策略神经网络μ1输入状态S1,输出动作A1的过程表示为:A1=μ1(S1)步骤2

2:构建红方拦截智能体的评价神经网络Q1:评价神经网络Q1由输入层、隐藏层和输出层组成;评价神经网络输入状态S1和动作A1,
输出状态

动作值的过程表示为:其中,k为求和变量,E[
·
]为数学期望;s
t+k+1
和a
t+k+1
分别为t+k+1时刻输入的状态和动作;步骤2

3:构建红方拦截智能体的目标策略神经网络μ1′
:目标策略神经网络μ1′
和策略神经网络μ1具有相同的神经网络结构,将策略神经网络μ1的参数权重复制到目标策略神经网络μ1′
中,即其中表示策略网络的参数,表示目标策略神经网络的参数;步骤2

4:构建红方拦截智能体的目标评价神经网络Q1′
:目标策略神经网络Q1′
和评价神经网络Q1具有相同的神经网络结构,将评价神经网络Q1的参数权重复制到目标策略神经网络Q1′
中,即其中表示策略网络的参数,表示目标策略神经网络的参数;步骤2

5:构建蓝方拦截智能体的策略神经网络μ2:策略神经网络μ2由输入层、隐藏层和输出层组成;策略神经网络μ2输入状态S2,输出动作A2的过程表示为:A2=μ2(S2)步骤2

6:构建蓝方拦截智能体的评价神经网络Q2:评价神经网络Q2由输入层、隐藏层和输出层组成;评价神经网络Q2输入状态S2和动作A2,输出状态

动作值的过程表示为:其中,k为求和变量,E[
·
]为数学期望;s
t+k+1
和a
t+k+1
分别为t+k+1时刻输入的状态和动作;步骤2

7:构建蓝方拦截智能体的目标策略神经网络μ2′
:目标策略神经网络μ2′
和策略神经网络μ2具有相同的神经网络结构,将策略神经网络μ2的参数权重复制到目标策略神经网络μ2′
中,即其中表示策略网络的参数,表示目标策略神经网络的参数;步骤2

8:构建蓝方拦截智能体的目标评价神经网络Q2′
:目标策略神经网络Q2′
和评价神经网络Q2具有相同的神经网络结构,将评价神经网络Q2的参数权重复制到目标策略神经网络Q2′
中,即其中表示策略网络的参数,表示目标策略神经网络的参数;步骤2

9:构建蓝方攻击智能体的策略神经网络μ3:策略神经网络μ3由输入层、隐藏层和输出层组成;策略神经网络μ3输入状态S3,输出动作A3的过程表示为:A3=μ3(S3)步骤2

10:构建蓝方攻击智能体的评价神经网络Q3:评价神经网络Q3由输入层...

【专利技术属性】
技术研发人员:畅鑫李艳斌赵研杜宇峰
申请(专利权)人:中国电子科技集团公司第五十四研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1