【技术实现步骤摘要】
一种基于深度强化学习的飞行器编队控制方法
[0001]本专利技术属于多飞行器协同制导与控制
,具体涉及一种基于深度强化学习的飞行器编队控制方法。
技术介绍
[0002]针对编队控制问题,目前的方法主要有基于PID控制的经典控制方法和基于滑模控制、反步法控制、动态面控制、预设性能控制等现代控制理论的控制方法。文献“DU J,LIU G,JIA T,et al..Design of formation controller based on bp neural network PID control”将BP神经网络与PID控制相结合,设计了自适应PID控制器,提高了编队收敛时间,具有更小的超调量和更强的抗扰动能力;
[0003]文献“李贺,王宁,薛皓原的水面无人艇领航—跟随固定时间编队控制”、文献“施文煜,梁霄,曲星儒等的基于RBF积分滑模的无人艇集群协同路径跟踪控制”以及文献“JIA Z,WANG L,YU J,et al.Distributed adaptive neural networks leader
‑
following formation control for quadrotors with directed switching topologies”均基于现代控制理论设计了控制器,其中前两篇文献基于滑模控制理论设计了编队控制器,针对存在扰动的情况。第一篇通过引入扰动观测器设计了具有一定鲁棒性的编队控制器;第二篇采用神经网络逼近非线性未知项,提高控制器的抗干扰能力;第三篇基 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的飞行器编队控制方法,其特征在于,包括:步骤1、建立编队控制的马尔可夫模型:考虑环境中的随机干扰,建立用于描述编队运动的马尔可夫模型;定义联合状态S=[x
i
,z
i
,V
fi
,ψ
fi
];其中,x
i
、z
i
分别为跟随者i的x和z方向坐标;V
fi
、ψ
fi
分别为跟随者i的速度、速度偏角;V
L
、ψ
L
分别为领导者的速度、速度偏角;将跟随者的单位时间速度和速度偏角变化量
△
V
fi
、
△
ψ
fi
作为控制变量;确定
△
V
fi
、
△
ψ
fi
可变化的范围并离散化处理,得到联合动作空间A=[
△
V
fi
,
△
ψ
fi
];
△
V
fi
=[
‑
u
V
,0,+u
V
]、
△
ψ
fi
=[
‑
u
ψ
,0,+u
ψ
],u
V
>0、u
ψ
>0分别为离散化处理后单位时间内速度与速度偏角变化量的幅值;步骤2、基于深度强化学习的编队控制网络训练:采用DQN算法,建立神经网络,设定神经网络的输入为联合状态与动作空间的各项参数,输出为联合状态、对应动作下的Q值;将编队控制过程划分为编队初形成阶段、交接阶段以及保持阶段共三个阶段;通过获取每个阶段的样本,为每一个阶段训练一个对应的所述神经网络;在编队控制过程中,根据跟随者所在的阶段以及当前的联合状态,选择对应的神经网络输出的Q值最大的动作,并进行状态转移,得到下一时刻的联合状态,以此类推,控制跟随者从初始位置飞至期望位置。2.如权利要求1所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,当某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时,定义转换坐标系z
′
Ox
′
,然后进行坐标变换,使变换后跟随者a的期望位置坐标与训练神经网络时设定的原坐标系zOx下的期望位置坐标相同,再采用已训练好的神经网络对跟随者a进行编队控制,实现在跟随者a在变换坐标系中从初始位置到期望位置的飞行,然后再通过坐标变换求得跟随者在原坐标系zOx下的飞行轨迹。3.如权利要求2所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,定义邻近区域:神经网络训练时设置的跟随者从初始位置到期望位置的飞行轨迹的邻近区域;当跟随者a的初始位置不在训练所述神经网络时定义的邻近区域时,在靠近所述邻近区域边界内侧设置一个临时期望位置,则跟随者a的初始位置到临时期望位置构成第一个飞行阶段,临时期望位置与期望位置构成第二个飞行阶段;对于第一个飞行阶段,采用初形成段的神经网络控制跟随者进入到所述邻近区域;对于第二个飞行阶段,分别采用训练好的编队初形成、编队交接及编队保持三个阶段的神经网络进行编队控制,实现编队飞行。4.如权利要求3所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,当设置一个临时期望位置无法控制跟随者a进入到所述邻近区域时,通过多次设置临时期望位置,最终控制跟随者a进入到所述邻近区域。5.如权利要求4所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时,进行所述坐标变换的具体过程如下:定义所述邻近区域的边长l1、l2满足:式中,k3为比例系数,且k3>1;x1、z1分别为神经网络训练时定义的跟随者在x、z方向上的
初始位置;hx1、hz1分别为神经网络训练时定义的跟随者在x、z方向上的期望位置;变换坐标系为原坐标系进行正交变换后的坐标系,其满足跟随者a在变换坐标系下的期望位置与跟随者a在神经网络训练时定义的原坐标系下的期望位置相同;为了使变换后的跟随者初始位置坐标位于变换坐标系z
′
Ox
′
内的邻近区域,定义跟随者a的初始位置在变换坐标系下的坐标为:式中,x2、z2分别为跟随者a在x、z方向上的初始位置;hx
′2=hx1,hz
′2=hz1;为了使变换后的坐标系z
′
Ox
′
与原坐标系zOx针对同样相对初始位置、期望位置的跟随者进行控制时能够得到相同飞行轨迹,坐标系的变换满足正交变换关系:式中,λ、n1、n2为正交变换参数,λ为旋转角度,n1、n2为平移量;采用已训练好的神经网络求解初始位置为(x
′2,z
′2)、期望位置为(hx
′2,hz
′2)的跟随者a随时间变化的联合状态与动作,采用动作对跟随者a进行控制,实现在变换坐标系中从初始位置到期望位置的飞行,然后经过如下的坐标变换:即可求得在原相对坐标系zOx下的飞行轨迹,即实现跟随者a从初始位置(x2,z2)飞至期望位置(hx2,hz2);当跟随者a的初始位置不在训练所述神经网络时定...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。