一种基于深度强化学习的飞行器编队控制方法技术

技术编号:36261844 阅读:24 留言:0更新日期:2023-01-07 10:00
本发明专利技术提供一种基于深度强化学习的飞行器编队控制方法,考虑环境对飞行器的随机扰动,建立了飞行器编队运动模型,然后将编队问题映射为马尔可夫决策过程,构建了深度强化学习网络对飞行器的编队行为进行学习,主要是依据飞行器执行动作后环境给于的反馈进行学习,因此经过多次的学习、探索,飞行器就能获得正确的编队控制动作,这种方法无需飞行器的精确数学模型,因此,在模型中存在环境随机干扰时也是可行、有效的;将编队形成过程划分为三段能够有效降低各阶段的状态空间维度,增加网络训练成功率;在训练得到基于强化学习的编队控制算法后,可适用于从弹从不同初始位置开始编队,而无需再进行网络训练,大大拓展了本编队控制器的应用范围。控制器的应用范围。控制器的应用范围。

【技术实现步骤摘要】
一种基于深度强化学习的飞行器编队控制方法


[0001]本专利技术属于多飞行器协同制导与控制
,具体涉及一种基于深度强化学习的飞行器编队控制方法。

技术介绍

[0002]针对编队控制问题,目前的方法主要有基于PID控制的经典控制方法和基于滑模控制、反步法控制、动态面控制、预设性能控制等现代控制理论的控制方法。文献“DU J,LIU G,JIA T,et al..Design of formation controller based on bp neural network PID control”将BP神经网络与PID控制相结合,设计了自适应PID控制器,提高了编队收敛时间,具有更小的超调量和更强的抗扰动能力;
[0003]文献“李贺,王宁,薛皓原的水面无人艇领航—跟随固定时间编队控制”、文献“施文煜,梁霄,曲星儒等的基于RBF积分滑模的无人艇集群协同路径跟踪控制”以及文献“JIA Z,WANG L,YU J,et al.Distributed adaptive neural networks leader

following formation control for quadrotors with directed switching topologies”均基于现代控制理论设计了控制器,其中前两篇文献基于滑模控制理论设计了编队控制器,针对存在扰动的情况。第一篇通过引入扰动观测器设计了具有一定鲁棒性的编队控制器;第二篇采用神经网络逼近非线性未知项,提高控制器的抗干扰能力;第三篇基于反步法与动态表面控制技术设计了编队控制器,并采用自适应神经网络状态观测器来逼近未知项;
[0004]文献“薛瑞彬,宋建梅,张民强的具有时延及联合连通拓扑的多飞行器分布式协同编队飞行控制研究”,文献“龚健,熊俊俏的基于模糊自适应的多无人机编队协同控制平台”以及文献“李小民,毛琼,甘勤涛等的有界变化时滞和联合连通拓扑条件下的分布式无人机编队飞行控制策略”采用一致性算法设计了编队控制器,其中,第二篇文献采取模糊逻辑系统逼近未知函数以提高控制精度,第三篇文献将通信拓扑的高维矩阵求解问题转化为若干个连通部分的低维矩阵求解问题,提高了算法的求解效率。文献“尹依伊,王晓芳,田震等的基于预设性能控制的多导弹编队方法”考虑多导弹在编队形成过程中的碰撞避免问题,基于预设性能控制理论设计了编队控制器。
[0005]复杂度日益提升的战场态势对多飞行器编队飞行的自主性与智能性提出更高要求,上述前七篇文献中,均没有考虑飞行器在编队形成过程中的碰撞避免问题,如果控制器的参数设置不合适,则在队形形成过程中,可能出现飞行器碰撞的情况。第八篇文献考虑了飞行器编队控制过程中的防碰撞问题,但是当飞行器的个数很多时,方法中避碰逻辑的设计将变得非常困难,同时该文献中也没有考虑环境对飞行器的干扰。

技术实现思路

[0006]有鉴于此,本专利技术的目的是提供一种基于深度强化学习的飞行器编队控制方法,可以实现编队的精确控制。
[0007]一种基于深度强化学习的飞行器编队控制方法,包括:
[0008]步骤1、建立编队控制的马尔可夫模型:
[0009]考虑环境中的随机干扰,建立用于描述编队运动的马尔可夫模型;定义联合状态S=[x
i
,z
i
,V
fi

fi
];其中,x
i
、z
i
分别为跟随者i的x和z方向坐标;V
fi
、ψ
fi
分别为跟随者i的速度、速度偏角;V
L
、ψ
L
分别为领导者的速度、速度偏角;将跟随者的单位时间速度和速度偏角变化量

V
fi


ψ
fi
作为控制变量;确定

V
fi


ψ
fi
可变化的范围并离散化处理,得到联合动作空间A=[

V
fi
,

ψ
fi
];

V
fi
=[

u
V
,0,+u
V
]、

ψ
fi
=[

u
ψ
,0,+u
ψ
],u
V
>0、u
ψ
>0分别为离散化处理后单位时间内速度与速度偏角变化量的幅值;
[0010]步骤2、基于深度强化学习的编队控制网络训练:
[0011]采用DQN算法,建立神经网络,设定神经网络的输入为联合状态与动作空间的各项参数,输出为联合状态、对应动作下的Q值;
[0012]将编队控制过程划分为编队初形成阶段、交接阶段以及保持阶段共三个阶段;通过获取每个阶段的样本,为每一个阶段训练一个对应的所述神经网络;在编队控制过程中,根据跟随者所在的阶段以及当前的联合状态,选择对应的神经网络输出的Q值最大的动作,并进行状态转移,得到下一时刻的联合状态,以此类推,控制跟随者从初始位置飞至期望位置。
[0013]进一步的,当某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时,定义转换坐标系z

Ox

,然后进行坐标变换,使变换后跟随者a的期望位置坐标与训练神经网络时设定的原坐标系zOx下的期望位置坐标相同,再采用已训练好的神经网络对跟随者a进行编队控制,实现在跟随者a在变换坐标系中从初始位置到期望位置的飞行,然后再通过坐标变换求得跟随者在原坐标系zOx下的飞行轨迹。
[0014]进一步的,定义邻近区域:神经网络训练时设置的跟随者从初始位置到期望位置的飞行轨迹的邻近区域;当跟随者a的初始位置不在训练所述神经网络时定义的邻近区域时,在靠近所述邻近区域边界内侧设置一个临时期望位置,则跟随者a的初始位置到临时期望位置构成第一个飞行阶段,临时期望位置与期望位置构成第二个飞行阶段;对于第一个飞行阶段,采用初形成段的神经网络控制跟随者进入到所述邻近区域;对于第二个飞行阶段,分别采用训练好的编队初形成、编队交接及编队保持三个阶段的神经网络进行编队控制,实现编队飞行。
[0015]进一步的,当设置一个临时期望位置无法控制跟随者a进入到所述邻近区域时,通过多次设置临时期望位置,最终控制跟随者a进入到所述邻近区域。
[0016]较佳的,某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时,进行所述坐标变换的具体过程如下:
[0017]定义所述邻近区域的边长l1、l2满足:
[0018][0019]式中,k3为比例系数,且k3>1;x1、z1分别为神经网络训练时定义的跟随者在x、z方向上的初始位置;hx1、hz1分别为神经网络训练时定义的跟随者本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的飞行器编队控制方法,其特征在于,包括:步骤1、建立编队控制的马尔可夫模型:考虑环境中的随机干扰,建立用于描述编队运动的马尔可夫模型;定义联合状态S=[x
i
,z
i
,V
fi

fi
];其中,x
i
、z
i
分别为跟随者i的x和z方向坐标;V
fi
、ψ
fi
分别为跟随者i的速度、速度偏角;V
L
、ψ
L
分别为领导者的速度、速度偏角;将跟随者的单位时间速度和速度偏角变化量

V
fi


ψ
fi
作为控制变量;确定

V
fi


ψ
fi
可变化的范围并离散化处理,得到联合动作空间A=[

V
fi
,

ψ
fi
];

V
fi
=[

u
V
,0,+u
V
]、

ψ
fi
=[

u
ψ
,0,+u
ψ
],u
V
>0、u
ψ
>0分别为离散化处理后单位时间内速度与速度偏角变化量的幅值;步骤2、基于深度强化学习的编队控制网络训练:采用DQN算法,建立神经网络,设定神经网络的输入为联合状态与动作空间的各项参数,输出为联合状态、对应动作下的Q值;将编队控制过程划分为编队初形成阶段、交接阶段以及保持阶段共三个阶段;通过获取每个阶段的样本,为每一个阶段训练一个对应的所述神经网络;在编队控制过程中,根据跟随者所在的阶段以及当前的联合状态,选择对应的神经网络输出的Q值最大的动作,并进行状态转移,得到下一时刻的联合状态,以此类推,控制跟随者从初始位置飞至期望位置。2.如权利要求1所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,当某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时,定义转换坐标系z

Ox

,然后进行坐标变换,使变换后跟随者a的期望位置坐标与训练神经网络时设定的原坐标系zOx下的期望位置坐标相同,再采用已训练好的神经网络对跟随者a进行编队控制,实现在跟随者a在变换坐标系中从初始位置到期望位置的飞行,然后再通过坐标变换求得跟随者在原坐标系zOx下的飞行轨迹。3.如权利要求2所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,定义邻近区域:神经网络训练时设置的跟随者从初始位置到期望位置的飞行轨迹的邻近区域;当跟随者a的初始位置不在训练所述神经网络时定义的邻近区域时,在靠近所述邻近区域边界内侧设置一个临时期望位置,则跟随者a的初始位置到临时期望位置构成第一个飞行阶段,临时期望位置与期望位置构成第二个飞行阶段;对于第一个飞行阶段,采用初形成段的神经网络控制跟随者进入到所述邻近区域;对于第二个飞行阶段,分别采用训练好的编队初形成、编队交接及编队保持三个阶段的神经网络进行编队控制,实现编队飞行。4.如权利要求3所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,当设置一个临时期望位置无法控制跟随者a进入到所述邻近区域时,通过多次设置临时期望位置,最终控制跟随者a进入到所述邻近区域。5.如权利要求4所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时,进行所述坐标变换的具体过程如下:定义所述邻近区域的边长l1、l2满足:式中,k3为比例系数,且k3>1;x1、z1分别为神经网络训练时定义的跟随者在x、z方向上的
初始位置;hx1、hz1分别为神经网络训练时定义的跟随者在x、z方向上的期望位置;变换坐标系为原坐标系进行正交变换后的坐标系,其满足跟随者a在变换坐标系下的期望位置与跟随者a在神经网络训练时定义的原坐标系下的期望位置相同;为了使变换后的跟随者初始位置坐标位于变换坐标系z

Ox

内的邻近区域,定义跟随者a的初始位置在变换坐标系下的坐标为:式中,x2、z2分别为跟随者a在x、z方向上的初始位置;hx
′2=hx1,hz
′2=hz1;为了使变换后的坐标系z

Ox

与原坐标系zOx针对同样相对初始位置、期望位置的跟随者进行控制时能够得到相同飞行轨迹,坐标系的变换满足正交变换关系:式中,λ、n1、n2为正交变换参数,λ为旋转角度,n1、n2为平移量;采用已训练好的神经网络求解初始位置为(x
′2,z
′2)、期望位置为(hx
′2,hz
′2)的跟随者a随时间变化的联合状态与动作,采用动作对跟随者a进行控制,实现在变换坐标系中从初始位置到期望位置的飞行,然后经过如下的坐标变换:即可求得在原相对坐标系zOx下的飞行轨迹,即实现跟随者a从初始位置(x2,z2)飞至期望位置(hx2,hz2);当跟随者a的初始位置不在训练所述神经网络时定...

【专利技术属性】
技术研发人员:王晓芳尹依伊林海
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1