System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 饱和非线性下自旋飞行器姿态强化学习控制方法和系统技术方案_技高网

饱和非线性下自旋飞行器姿态强化学习控制方法和系统技术方案

技术编号:44439562 阅读:1 留言:0更新日期:2025-02-28 18:48
本发明专利技术提供了一种饱和非线性下自旋飞行器姿态强化学习控制方法和系统,包括:获取偏航通道和俯仰通道的数学舵偏角的指令值;基于数学舵偏角的指令值获取偏航通道和俯仰通道的物理舵偏角的指令值;基于物理舵偏角的指令值,获取偏航通道和俯仰通道的物理舵偏角;基于偏航通道和俯仰通道的物理舵偏角,生成偏航通道和俯仰通道的数学舵偏角;基于当前时刻的准攻角的指令值、准侧滑角的指令值以及输出状态,生成被控对象的状态,并发送给训练好的强化学习网络模型。本发明专利技术在获取物理舵偏角时考虑了饱和非线性,能够自动对姿态控制参数进行调节,能够提高姿态控制参数的获取效率和准确性,进而能够实现更高的控制精度。

【技术实现步骤摘要】

本专利技术涉及飞行器姿态控制领域,特别是涉及一种饱和非线性下自旋飞行器姿态强化学习控制方法和系统


技术介绍

1、对于自旋飞行器,滚转通道一直保持高速旋转且不受控制,需要对俯仰和偏航通道进行姿态或者过载控制以实现期望的飞行轨迹,例如对俯仰通道的攻角以及偏航通道的侧滑角进行控制,或者对俯仰和偏航通道的过载进行控制。自旋飞行器控制多采用舵机系统,舵面偏转会改变飞行姿态。与非旋转飞行器不同,自旋飞行器的高速滚转导致了俯仰和偏航通道的动力学之间存在复杂的耦合效应,主要包括陀螺效应引起的惯性耦合、马格努斯效应引起的气动耦合以及舵机响应延迟带来的操控耦合。此外,高速滚转使得舵机指令的频率很高,舵机内部存在的饱和非线性会导致跟踪高频指令时存在较大的误差,从而在外环姿态控制系统的作用下产生严重的姿态极限环振荡甚至不稳定。

2、当前,在自旋飞行器的控制方面,主要方案为将舵机建模为一阶或者二阶惯性环节,但是,这种方案忽略了舵机内部的饱和非线性。然而,舵机饱和可能会导致严重的姿态极限环振荡甚至不稳定。因此,在控制器设计中必须考虑舵机饱和。虽然也有考虑舵机内部的间隙非线性的控制方案,但是仅进行了稳定性分析,并没有通过控制器设计以及参数优化进行解决。此外,自旋飞行器的控制参数由人工调节且固定不变。人工调参主要依赖于个人经验反复试错,过程繁琐且周期较长。此外,现有的参数优化方法依赖于对象线性模型,例如过载自动驾驶仪中的极点配置、回路整形等,当被控对象中存在舵机非线性时,这些方法也都无法适用。


技术实现思路p>

1、针对上述技术问题,本专利技术采用的技术方案为:

2、根据本专利技术第一方面,提供了一种饱和非线性下自旋飞行器姿态强化学习控制方法,所述方法包括如下步骤:

3、s100,基于当前的姿态控制参数、被控对象的输出状态以及当前时刻接收到被控对象的准攻角和准侧滑角的指令值,获取当前偏航通道的数学舵偏角的指令值和当前俯仰通道的数学舵偏角的指令值;其中,所述被控对象为自旋飞行器的动力学模型,被控对象的输出状态包括准攻角、准侧滑角、偏航角速度以及俯仰角速度。

4、s200,对当前偏航通道的数学舵偏角的指令值和当前俯仰通道的数学舵偏角的指令值分别进行分解,得到当前偏航通道的物理舵偏角的指令值和当前俯仰通道的物理舵偏角的指令值。

5、s300,基于当前偏航通道的物理舵偏角的指令值和当前俯仰通道的物理舵偏角的指令值,获取当前偏航通道的物理舵偏角和当前俯仰通道的物理舵偏角。

6、s400,基于当前偏航通道的物理舵偏角和当前俯仰通道的物理舵偏角,生成当前偏航通道的数学舵偏角和当前俯仰通道的数学舵偏角,并发送给所述被控对象,以得到被控对象在当前时刻的输出状态。

7、s500,基于当前时刻的准攻角的指令值、准侧滑角的指令值以及当前时刻的输出状态,生成被控对象在当前时刻的状态,作为被控对象的当前状态;被控对象的状态包括准攻角的控制误差、准偏航角的控制误差、偏航角速度以及俯仰角速度,准攻角的控制误差为准攻角的指令值和准攻角之间的差值,准侧滑角的控制误差为准侧滑角的指令值和准侧滑角之间的差值。

8、s600,将被控对象的当前状态发送给训练好的强化学习网络模型,得到当前的姿态控制参数;执行s100。

9、根据本专利技术第二方面,提供一种饱和非线性下自旋飞行器姿态强化学习控制系统,所述系统包括:控制参数优化模块、数学舵偏角指令值生成模块、数学舵偏角指令值分解模块、物理舵机模块、物理舵偏角合成模块、被控对象和状态生成模块;所述被控对象为自旋飞行器的动力学模型。其中,所述数学舵偏角指令值生成模块用于基于当前的姿态控制参数、被控对象的输出状态以及当前时刻接收到被控对象的准攻角和准侧滑角的指令值,获取当前偏航通道的数学舵偏角的指令值和当前俯仰通道的数学舵偏角的指令值,所述输出状态包括准攻角、准侧滑角、偏航角速度以及俯仰角速度;所述数学舵偏角指令值分解模块用于对当前偏航通道的数学舵偏角的指令值和当前俯仰通道的数学舵偏角的指令值分别进行分解,得到当前偏航通道的物理舵偏角的指令值和当前俯仰通道的物理舵偏角的指令值,并发送给所述物理舵机模块;所述物理舵机模块用于基于当前偏航通道的物理舵偏角的指令值和当前俯仰通道的物理舵偏角的指令值,获取当前偏航通道的物理舵偏角和当前俯仰通道的物理舵偏角,并发送给所述物理舵偏角合成模块;所述物理舵偏角合成模块用于基于当前偏航通道的物理舵偏角和当前俯仰通道的物理舵偏角,生成当前偏航通道的数学舵偏角和当前俯仰通道的数学舵偏角,并发送给所述被控对象;所述被控对象用于基于接收到的当前偏航通道的数学舵偏角和当前俯仰通道的数学舵偏角,得到在当前时刻的输出状态,并发送给所述状态生成模块和所述数学舵偏角指令值生成模块;所述状态生成模块,用于基于当前时刻的准攻角的指令值、准侧滑角的指令值以及当前时刻的输出状态,生成被控对象在当前时刻的状态,作为被控对象的当前状态,并发送给所述控制参数优化模块;被控对象的状态包括准攻角的控制误差、准偏航角的控制误差、偏航角速度以及俯仰角速度,准攻角的控制误差为准攻角的指令值和准攻角之间的差值,准侧滑角的控制误差为准侧滑角的指令值和准侧滑角之间的差值;所述控制参数优化模块用于基于接收到的被控对象的当前状态,生成当前的姿态控制参数,并发送给所述数学舵偏角指令值生成模块。

10、本专利技术至少具有以下有益效果:

11、本专利技术实施例提供的饱和非线性下自旋飞行器姿态强化学习控制方法,包括:基于当前的姿态控制参数、被控对象的输出状态和当前时刻接收到被控对象的准攻角和准侧滑角的指令值,获取当前偏航通道的数学舵偏角的指令值和当前俯仰通道的数学舵偏角的指令值,当前的姿态控制参数通过将被控对象的当前状态输入到训练好的强化学习网络模型中得到;对当前偏航通道的数学舵偏角的指令值和当前俯仰通道的数学舵偏角的指令值分别进行分解,得到当前偏航通道的物理舵偏角的指令值和当前俯仰通道的物理舵偏角的指令值;基于当前偏航通道的物理舵偏角的指令值和当前俯仰通道的物理舵偏角的指令值,获取当前偏航通道的物理舵偏角和当前俯仰通道的物理舵偏角;基于当前偏航通道的物理舵偏角和当前俯仰通道的物理舵偏角,生成当前偏航通道的数学舵偏角和当前俯仰通道的数学舵偏角,并发送给所述被控对象,以得到被控对象在当前时刻的输出状态;基于当前时刻的准攻角的指令值、准侧滑角的指令值以及当前时刻的输出状态,生成被控对象的当前状态,并发送给训练好的强化学习网络模型。本专利技术在获取物理舵偏角时考虑了饱和非线性,能够自动对姿态控制参数进行调节,能够提高姿态控制参数的获取效率和准确性,进而能够实现更高的控制精度。

12、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种饱和非线性下自旋飞行器姿态强化学习控制方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述强化学习网络模型包括第一评价网络、第二评价网络、第一目标评价网络、第二目标评价网络、动作网络和目标动作网络;其中,所述训练好的强化学习网络模型通过如下步骤获取:

3.根据权利要求2所述的方法,其特征在于,回报r满足如下条件:

4.根据权利要求2所述的方法,其特征在于,评价网络j的参数按照如下方式更新:

5.根据权利要求2所述的方法,其特征在于,所述动作网络的参数按照如下方式更新:

6.根据权利要求1所述的方法,其特征在于,所述自旋飞行器的动力学模型满足如下条件:

7.根据权利要求6所述的方法,其特征在于,所述姿态控制参数包括准攻角的控制增益、准侧滑角的控制增益、俯仰角速度反馈增益和偏航角速度反馈增益;

8.根据权利要求7所述的方法,其特征在于,在S200中,偏航通道的物理舵偏角和俯仰通道的物理舵偏角的指令值满足如下条件:

9.根据权利要求7所述的方法,其特征在于,在S400中,偏航通道的数学舵偏角和俯仰通道的数学舵偏角满足如下条件:

10.一种饱和非线性下自旋飞行器姿态强化学习控制系统,其特征在于,所述系统包括:控制参数优化模块、数学舵偏角指令值生成模块、数学舵偏角指令值分解模块、物理舵机模块、物理舵偏角合成模块、被控对象和状态生成模块;所述被控对象为自旋飞行器的动力学模型;

...

【技术特征摘要】

1.一种饱和非线性下自旋飞行器姿态强化学习控制方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述强化学习网络模型包括第一评价网络、第二评价网络、第一目标评价网络、第二目标评价网络、动作网络和目标动作网络;其中,所述训练好的强化学习网络模型通过如下步骤获取:

3.根据权利要求2所述的方法,其特征在于,回报r满足如下条件:

4.根据权利要求2所述的方法,其特征在于,评价网络j的参数按照如下方式更新:

5.根据权利要求2所述的方法,其特征在于,所述动作网络的参数按照如下方式更新:

6.根据权利要求1所述的方法,其特征在于,所述自旋飞行器的动力学模型满足如下条件:

...

【专利技术属性】
技术研发人员:朴敏楠卢彪
申请(专利权)人:中国民航大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1