System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及智能控制,特别是涉及一种平流层飞艇环境最优智能区域驻留控制方法及系统。
技术介绍
1、近年来,随着科技的发展,平流层飞艇的研究受到了广泛关注。平流层飞艇作为一种新兴的空中交通工具,平流层飞艇在通信、观测、运输等领域具有巨大的应用潜力。然而,其在实际应用过程中的控制问题成为了一个亟待解决的难题。特别是在复杂大气环境下,如何实现平流层飞艇的区域驻留控制成为了研究的焦点。
2、传统线性控制方法在短时间内可以实现平流层飞艇的控制,但在复杂大气环境下,长期保持工作点附近十分困难。这主要是因为线性控制算法在应对系统不确定性、外部干扰等方面存在局限性,导致控制参数调整复杂。为了克服这一问题,研究人员开始探索非线性控制方法。非线性控制方法在一定程度上能够提高平流层飞艇的控制性能,但往往强烈依赖精确的建模。在实际应用中,由于大气环境的复杂性和飞艇系统的非线性特性,精确建模难以实现。这意味着非线性控制方法在实际应用中仍具有一定的局限性。
技术实现思路
1、本专利技术的目的是提供一种平流层飞艇环境最优智能区域驻留控制方法及系统,可控制平流层飞艇实现抗未知风场扰动和抗模型不确定性的区域驻留。
2、为实现上述目的,本专利技术提供了如下方案:
3、第一方面,本专利技术提供了一种平流层飞艇环境最优智能区域驻留控制方法,包括:
4、获取目标平流层飞艇的环境参数;所述环境参数包括实际轨迹、期望轨迹、飞艇位置、飞艇速度和飞艇加速度。
5、根据所
6、根据所述飞艇位置、所述飞艇速度、所述飞艇加速度、所述线性误差和所述角度误差,确定所述目标平流层飞艇的观测状态。
7、根据所述观测状态,基于内环姿态控制器,确定所述目标平流层飞艇需要执行的二维动作量;所述二维动作量包括前向运动控制量和转向运动控制量;所述内环姿态控制器为对基于深度确定性策略算法的神经网络进行训练后得到的控制器。
8、可选的,在获取目标平流层飞艇的环境参数之前,还包括:
9、获取驻留区域虚拟圆弧圆心和驻留区域虚拟圆弧半径。
10、根据驻留区域虚拟圆弧圆心和驻留区域虚拟圆弧半径,确定所述目标平流层飞艇的期望轨迹。
11、可选的,根据所述目标平流层飞艇的实际轨迹和期望轨迹,采用环境最优外环控制器,确定所述实际轨迹与所述期望轨迹之间的线性误差和角度误差,具体包括:
12、根据公式确定所述线性误差。
13、根据公式eψ=ψc-ψ确定所述角度误差。
14、其中,为x向误差,为y向误差,ψc为期望朝向角,eb,x为线性误差,eψ为角度误差,rc为驻留区域虚拟圆弧半径,ψ为航向角度。
15、可选的,根据所述飞艇位置、所述飞艇速度、所述飞艇加速度、所述线性误差和所述角度误差,确定所述目标平流层飞艇的观测状态,具体包括:
16、根据公式st=[eb,x,eψ,u,r,x,y,du,dr]确定所述目标平流层飞艇的观测状态。
17、其中,st为观测状态,u为飞艇的前进速度,r为转向速度,du为飞艇的前进加速度,dr为转向角加速度,eb,x为线性误差,eψ为角度误差,x为在惯性坐标系下飞艇的横坐标,y为在惯性坐标系下飞艇的纵坐标。
18、可选的,所述基于深度确定性策略算法的神经网络的训练过程为:
19、获取所述目标平流层飞艇的历史样本数据;所述历史样本数据包括所述目标平流层飞艇旧状态、二维动作量和新状态;所述旧状态为所述目标平流层飞艇未执行二维动作量时的观测状态;所述新状态为所述目标平流层飞艇执行二维动作量后的观测状态。
20、根据所述新状态,计算当前迭代过程中二维动作量的奖励值。
21、将所述旧状态、所述二维动作量、所述奖励值和所述新状态组成四元组,存入经验回放池。
22、根据重要性采样策略,从所述经验回放池中抽取设定数量的四元组,并根据四元组和目标网络的损失函数计算损失值;所述目标网络为基于深度确定性策略算法的神经网络。
23、根据所述损失值,使用优化器优化表演者神经网络和批评者神经网络的权重。
24、根据所述表演者神经网络的权重和所述批评者神经网络的权重更新所述目标网络的权重,得到训练后的基于深度确定性策略算法的神经网络。
25、可选的,根据所述新状态,计算当前迭代过程中二维动作量的奖励值,具体如下:
26、rt=rerr+racc。
27、其中,rerr为跟踪误差对应的奖励值,rerr=kb,x·exp(-kb,x·eb,x)+kψ·exp(-kψ·eψ);racc为加速度对应的奖励函数,racc=-kdu·|du|-kdr·|dr|;kb,x、kψ、kdu和kdr为控制参数,kb,x和kψ为缩放因子,rt为二维动作量的奖励值;eb,x为线性误差,eψ为角度误差。
28、可选的,采用目标网络计算损失值,并使用优化器优化表演者神经网络和批评者神经网络的权重,具体为:
29、yi=ri+γ·q′(si+1,μ′(si+1|θμ′)|θq′)。
30、
31、
32、其中,lc和la分别是表演者神经网络和批评者神经网络的损失函数,θμ和θq分别是表演者神经网络和批评者神经网络的权重,θμ′和θq′分别是目标表演者的神经网络权重和目标批评者的神经网络权重;更新批评者和表演者神经网络权重时所选的优化器是adam优化器,γ为学习率设置。
33、可选的,根据所述表演者神经网络的权重和所述批评者神经网络的权重更新所述目标网络的权重,具体如下:
34、θμ′←λθμ+(1-λ)θμ′。
35、θq′←λθq+(1-λ)θq′。
36、其中,λ为软更新率,θμ和θq分别是表演者神经网络和批评者神经网络的权重。
37、第二方面,本专利技术提供了一种平流层飞艇环境最优智能区域驻留控制系统,包括:
38、参数获取模块,用于获取目标平流层飞艇的环境参数;所述环境参数包括实际轨迹、期望轨迹、飞艇位置、飞艇速度和飞艇加速度。
39、误差计算模块,用于根据所述目标平流层飞艇的实际轨迹和期望轨迹,采用环境最优外环控制器,确定所述实际轨迹与所述期望轨迹之间的线性误差和角度误差;所述环境最优外环控制器为以实现所述目标平流层飞艇在未知风场的作用下收敛至正向抗风点为原理设计的外环控制器。
40、状态观测模块,用于根据所述飞艇位置、所述飞艇速度、所述飞艇加速度、所述线性误差和所述角度误差,确定所述目标平流层飞艇的观测状态。
41、动作确定模块,用于根据本文档来自技高网...
【技术保护点】
1.一种平流层飞艇环境最优智能区域驻留控制方法,其特征在于,包括:
2.根据权利要求1所述的一种平流层飞艇环境最优智能区域驻留控制方法,其特征在于,在获取目标平流层飞艇的环境参数之前,还包括:
3.根据权利要求1所述的一种平流层飞艇环境最优智能区域驻留控制方法,其特征在于,根据所述目标平流层飞艇的实际轨迹和期望轨迹,采用环境最优外环控制器,确定所述实际轨迹与所述期望轨迹之间的线性误差和角度误差,具体包括:
4.根据权利要求1所述的一种平流层飞艇环境最优智能区域驻留控制方法,其特征在于,根据所述飞艇位置、所述飞艇速度、所述飞艇加速度、所述线性误差和所述角度误差,确定所述目标平流层飞艇的观测状态,具体包括:
5.根据权利要求1所述的一种平流层飞艇环境最优智能区域驻留控制方法,其特征在于,所述基于深度确定性策略算法的神经网络的训练过程为:
6.根据权利要求5所述的一种平流层飞艇环境最优智能区域驻留控制方法,其特征在于,根据所述新状态,计算当前迭代过程中二维动作量的奖励值,具体如下:
7.根据权利要求6所述的一种平流
8.根据权利要求6所述的一种平流层飞艇环境最优智能区域驻留控制方法,其特征在于,根据所述表演者神经网络的权重和所述批评者神经网络的权重更新所述目标网络的权重,具体如下:
9.一种平流层飞艇环境最优智能区域驻留控制系统,其特征在于,包括:
10.根据权利要求9所述的一种平流层飞艇环境最优智能区域驻留控制系统,其特征在于,还包括:
...【技术特征摘要】
1.一种平流层飞艇环境最优智能区域驻留控制方法,其特征在于,包括:
2.根据权利要求1所述的一种平流层飞艇环境最优智能区域驻留控制方法,其特征在于,在获取目标平流层飞艇的环境参数之前,还包括:
3.根据权利要求1所述的一种平流层飞艇环境最优智能区域驻留控制方法,其特征在于,根据所述目标平流层飞艇的实际轨迹和期望轨迹,采用环境最优外环控制器,确定所述实际轨迹与所述期望轨迹之间的线性误差和角度误差,具体包括:
4.根据权利要求1所述的一种平流层飞艇环境最优智能区域驻留控制方法,其特征在于,根据所述飞艇位置、所述飞艇速度、所述飞艇加速度、所述线性误差和所述角度误差,确定所述目标平流层飞艇的观测状态,具体包括:
5.根据权利要求1所述的一种平流层飞艇环境最优智能区域驻留控制方法,其特征在于,所述基于...
【专利技术属性】
技术研发人员:郑泽伟,温弘毅,张一飞,陈天,祝明,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。