一种适应多种构型飞行器的强化学习自抗扰姿态控制方法技术

技术编号:33707671 阅读:23 留言:0更新日期:2022-06-06 08:33
一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,属于飞行器控制技术领域。方法如下:得到飞行器姿态控制模型;设计反馈控制律实现基本的姿态控制功能;构建强化学习环境,初始化智能体,以第一类构型的飞行器为被控对象,对智能体进行强化学习,使智能体可根据不同飞行环境,对反馈控制律参数进行自适应调节;将得到智能体作为初始智能体,以第二类构型的飞行器为被控对象,对智能体进行强化学习,使智能体可根据不同飞行环境及构型,对S2中反馈控制律参数进行自适应地调节。本发明专利技术减小构型不同下姿态角指令差异对控制系统的影响;消除构型差异对模型的影响,提高控制系统的适应能力;提高控制系统适应构型差异的能力。力。力。

【技术实现步骤摘要】
一种适应多种构型飞行器的强化学习自抗扰姿态控制方法


[0001]本专利技术涉及一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,属于飞行器控制


技术介绍

[0002]传统飞行器的控制系统设计往往仅针对某种构型与飞行环境进行,在构型与飞行环境发生变化的条件下需要重新设计与调试,增加了设计工作量,因此需要开发一种能够适应于多种飞行器构型的控制方法。

技术实现思路

[0003]为解决
技术介绍
中存在的问题,本专利技术提供一种适应多种构型飞行器的强化学习自抗扰姿态控制方法。
[0004]实现上述目的,本专利技术采取下述技术方案:一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,所述方法包括如下步骤:
[0005]S1:构建飞行器姿态动力学模型,采用输入

输出线性化方法得到飞行器姿态控制模型;
[0006]S2:对于飞行器俯仰通道、偏航通道以及滚转通道三个通道,分别设计跟踪微分器对姿态指令安排过渡过程、设计扩张状态观测器对除控制量之外的总扰动进行观测以及基于跟踪微分器和扩张状态观测器的输出,设计反馈控制律实现基本的姿态控制功能;
[0007]S3:构建强化学习环境,初始化智能体,以第一类构型的飞行器为被控对象,利用Soft Actor

Critic算法对智能体进行强化学习,使智能体可根据不同飞行环境,对S2中反馈控制律参数进行自适应调节;
[0008]S4:将S3中得到智能体作为初始智能体,以第二类构型的飞行器为被控对象,利用Soft Actor

Critic算法对智能体进行强化学习,使智能体可根据不同飞行环境及构型,对S2中反馈控制律参数进行自适应地调节。
[0009]与现有技术相比,本专利技术的有益效果是:
[0010]本专利技术采用跟踪微分器对指令安排过渡过程,减小构型不同下,姿态角指令差异对控制系统的影响;将构型差异及飞行环境变化对控制系统的影响归结为总扰动,采用扩张状态观测器对其进行观测与补偿,从而消除构型差异对模型的影响,提高控制系统的适应能力;构建可调节控制系统参数的智能体,采用Soft Actor

Critic算法,充分利用不同构型的数据对智能体进行强化学习,训练智能体调节自抗扰控制参数,实现适应不同构型的姿态控制器设计,进一步提高控制系统适应构型差异的能力。
附图说明
[0011]图1是本专利技术的流程图。
具体实施方式
[0012]下面将结合本专利技术实施例中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是专利技术的一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0013]一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,所述方法包括如下步骤:
[0014]S1:构建飞行器姿态动力学模型,采用输入

输出线性化方法得到飞行器姿态控制模型;
[0015]S101:基于绕质心转动动力学和姿态运动学,构建飞行器姿态动力学模型如下:
[0016][0017]式(1)中:
[0018]为Ω关于时间的一阶导数;
[0019]为飞行器的姿态角矢量;
[0020]为俯仰角;
[0021]ψ为偏航角;
[0022]γ为滚转角;
[0023]R为姿态转换矩阵,
[0024]为ω关于时间的一阶导数;
[0025]ω=[ω
x

y

z
]为飞行器的姿态角速度矢量;
[0026]ω
x
为滚转角速度;
[0027]ω
y
为偏航角速度;
[0028]ω
z
为俯仰角速度;
[0029]J为飞行器的转动惯量矩阵,且
[0030]J
xx
为飞行器绕x轴的转动惯量;
[0031]J
yy
为飞行器绕y轴的转动惯量;
[0032]J
zz
为飞行器绕z轴的转动惯量;
[0033]J
xy
,J
xz
,J
yz
为惯性积;
[0034]B1为控制力矩系数矩阵;
[0035]δ=[δ
x

y

z
]表示控制输入量;
[0036]δ
x
为副翼的偏转角;
[0037]δ
y
为方向舵的偏转角;
[0038]δ
z
为升降舵的偏转角;
[0039]d=[d
x
,d
y
,d
z
]为气动力矩与干扰力矩项;
[0040]d
x
为作用在滚转方向的气动力矩与干扰力矩项;
[0041]d
y
为作用在偏航方向的气动力矩与干扰力矩项;
[0042]d
z
为作用在俯仰方向的气动力矩与干扰力矩项;
[0043]S102:采用输入

输出线性化方法,对式(1)进行线性化,可得:
[0044][0045]式(2)中:
[0046]为Ω关于时间的二阶导数;
[0047]为R关于时间的一阶导数;
[0048]S103:定义状态量将式(2)转化为:
[0049][0050]式(3)中:
[0051]u为控制量,且u=RJ
‑1B1δ=[u
x
,u
y
,u
z
];
[0052]u
x
为滚转方向控制量;
[0053]u
y
为偏航方向控制量;
[0054]u
z
为俯仰方向控制量;
[0055]为x1关于时间的一阶导数;
[0056]为x2关于时间的一阶导数;
[0057]H为总扰动,且
[0058]H1为滚转方向总扰动量;
[0059]H2为偏航方向总扰动量;
[0060]H3为俯仰方向总扰动量。
[0061]S2:对于飞行器俯仰通道、偏航通道以及滚转通道三个通道,分别设计跟踪微分器对姿态指令安排过渡过程、设计扩张状态观测器对除控制量之外的总扰动进行观测以及基于跟踪微分器和扩张状态观测器的输出,设计反馈控制律实现基本的姿态控制功能;
[0062]S201:设定飞行器姿态角变化指令:
[0063]Ω
c
=[Ω
cz

cy

xz
]ꢀꢀꢀ
(4)
[0064]式(4)中:
[0065]Ω本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,其特征在于:所述方法包括如下步骤:S1:构建飞行器姿态动力学模型,采用输入

输出线性化方法得到飞行器姿态控制模型;S2:对于飞行器俯仰通道、偏航通道以及滚转通道三个通道,分别设计跟踪微分器对姿态指令安排过渡过程、设计扩张状态观测器对除控制量之外的总扰动进行观测以及基于跟踪微分器和扩张状态观测器的输出,设计反馈控制律实现基本的姿态控制功能;S3:构建强化学习环境,初始化智能体,以第一类构型的飞行器为被控对象,利用Soft Actor

Critic算法对智能体进行强化学习,使智能体可根据不同飞行环境,对S2中反馈控制律参数进行自适应调节;S4:将S3中得到智能体作为初始智能体,以第二类构型的飞行器为被控对象,利用Soft Actor

Critic算法对智能体进行强化学习,使智能体可根据不同飞行环境及构型,对S2中反馈控制律参数进行自适应地调节。2.根据权利要求1所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,其特征在于:S1所述包括如下步骤:S101:基于绕质心转动动力学和姿态运动学,构建飞行器姿态动力学模型如下:式(1)中:为Ω关于时间的一阶导数;为飞行器的姿态角矢量;为俯仰角;ψ为偏航角;γ为滚转角;R为姿态转换矩阵,R为姿态转换矩阵,为ω关于时间的一阶导数;ω=[ω
x

y

z
]为飞行器的姿态角速度矢量;ω
x
为滚转角速度;ω
y
为偏航角速度;ω
z
为俯仰角速度;J为飞行器的转动惯量矩阵,且J
xx
为飞行器绕x轴的转动惯量;J
yy
为飞行器绕y轴的转动惯量;J
zz
为飞行器绕z轴的转动惯量;
J
xy
,J
xz
,J
yz
为惯性积;B1为控制力矩系数矩阵;δ=[δ
x

y

z
]表示控制输入量;δ
x
为副翼的偏转角;δ
y
为方向舵的偏转角;δ
z
为升降舵的偏转角;d=[d
x
,d
y
,d
z
]为气动力矩与干扰力矩项;d
x
为作用在滚转方向的气动力矩与干扰力矩项;d
y
为作用在偏航方向的气动力矩与干扰力矩项;d
z
为作用在俯仰方向的气动力矩与干扰力矩项;S102:采用输入

输出线性化方法,对式(1)进行线性化,可得:式(2)中:为Ω关于时间的二阶导数;为R关于时间的一阶导数;S103:定义状态量将式(2)转化为:式(3)中:u为控制量,且u=RJ
‑1B1δ=[u
x
,u
y
,u
z
];u
x
为滚转方向控制量;u
y
为偏航方向控制量;u
z
为俯仰方向控制量;为x1关于时间的一阶导数;为x2关于时间的一阶导数;H为总扰动,且H1为滚转方向总扰动量;H2为偏航方向总扰动量;H3为俯仰方向总扰动量。3.根据权利要求2所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法,其特征在于:所述S2包括如下步骤:S201:设定飞行器姿态角变化指令:Ω
c
=[Ω
cz

cy

xz
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)式(4)中:Ω
cz
为俯仰通道指令;Ω
cy
为偏航通道指令;
Ω
xz
为滚转通道指令;定义姿态角跟踪误差为:式(5)中:为俯仰角跟踪误差;为偏航角跟踪误差;X

为滚转角跟踪误差:S202:设计仰通道的跟踪微分器如下:式(6)中:r>0为速度因子;h0>0为滤波因子;a、a0、a1、a2、y、s、fh均为中间量;sign(
·
)为符号函数;v
1z
为跟踪微分器对俯仰通道指令Ω
cz
安排过渡过程后的输出值;v
2z
为跟踪微分器对俯仰通道指令对时间一阶导数的估计值;偏航通道以及滚转通道所采用的跟踪微分器与俯仰通道形式相同,因此可得俯仰通道、偏航通道与滚转通道的跟踪微分器输出定义为v1=[v
1z
,v
1y
,v
1x
],v2=[v
2z
,v
2y
,v
2x
];S202设计俯仰通道的扩张状态观测器如下:式(7)中:χ
1z
为对的估计;χ
2z
为对的估计;χ
3z
为对H3的估计;β
01

02

03
均为扩张状态观测器的增益系数;fe
z
,fe
z1
均为中间量;ο>0为线性段的长度;偏航通道以及滚转通道所采用的扩张状态观测器与俯仰通道形式相同,因此,俯仰通
道、偏航通道与滚转通道的扩张状态观测器输出定义为χ1=[χ
1z

1y

1x
],χ2=[χ
2z

2y

2x
],χ3=[χ
3z

3y

3x
...

【专利技术属性】
技术研发人员:韦常柱浦甲伦刘哲朱光楠徐世昊
申请(专利权)人:哈尔滨逐宇航天科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1