一种针对双自旋稳定系统的加速集成值迭代控制方法技术方案

技术编号:38663184 阅读:7 留言:0更新日期:2023-09-02 22:45
本发明专利技术提供了一种针对双自旋稳定系统的加速集成值迭代控制方法。双自旋稳定系统是航天器的姿态控制中的重要实现方法之一。具有旋转激励的平移振荡器(RTAC)作为双自旋航天器的简化模型被广泛研究。然而RTAC系统内部存在非线性,不确定性及干扰,为了实现该系统的智能优化控制,本发明专利技术基于自适应评判框架,提出了一种集成的新型值迭代方案,引入松弛因子加速代价函数的迭代过程,且该算法生成的控制策略能够保证闭环系统的稳定性。同时,设计了自适应松弛函数来调节代价函数序列的收敛速度。通过实验结果验证了所提出的集成值迭代控制算法的快速收敛性,从而能够快速有效地获得最优控制策略,在保证系统稳定的同时提升控制效率。率。率。

【技术实现步骤摘要】
一种针对双自旋稳定系统的加速集成值迭代控制方法


[0001]本专利技术属于航天器领域。

技术介绍

[0002]航天器的姿态控制系统是航天器系统中的一个重要组成部分,该系统能够获取并保持航天器在宇宙空间定向以及航天器相对某参考坐标系的姿态,是实现航天器平台标准化的关键技术。因此,设计合适的姿态控制系统对航天器的稳定在轨运行及正常太空载荷工作至关重要,同时也不断吸引着众多学者进行研究讨论。航天器姿态控制中双自旋稳定系统是常用方法之一,其基本原理为保证航天器本体在空间中绕惯量主轴高速旋转并利用陀螺效应保证其对惯性定向,该方法可靠性强,控制系统简单,能够对较大的干扰力矩产生明显的抵御效果,被广泛应用于航天器的姿态控制系统。具有旋转激励的平移振荡器(Rotational/translational actuator,RTAC)实验最初是作为一个简化的双自旋航天器模型,该系统在数学和定性上与双自旋航天器相当,即它们具有相似的平均方程和表现出相似的动力学行为。因此可以通过对RTAC系统进行仿真控制从而实现对双自旋航天器的姿态控制。然而,该系统转动和平动运动是耦合的,内部存在非线性,不确定性及干扰,具有动力学复杂性,因此难以实现该系统的直接优化设计,传统的优化控制方法存在自适应能力差,收敛速度慢,控制效率低等问题。因此,有必要针对RTAC系统建立先进的智能优化控制方法。
[0003]智能优化方法广泛应用于控制论、计算机科学、计算数学等领域。其中,优化思想在基于人工智能的高级控制设计中发挥着重要作用,对构建各种智能系统具有重要意义。然而,与一般的线性情况不同,非线性系统的最优控制往往是难以解决的。强化学习具有主体

环境交互的特点,在进行智能优化设计时与动态规划密切相关。在自适应评价框架中,将强化学习与近似结构相结合,用以近似处理复杂优化问题。近年来,自适应动态规划Adaptive dynamic programming(ADP)被广泛应用于解决复杂最优控制问题,并在自适应最优控制设计上取得了许多优秀的成果。因此本专利技术基于ADP方法来实现RTAC系统的智能控制。ADP的核心任务是迭代求解非线性系统的Hamilton

Jacobi

Bellman(HJB)方程。迭代ADP算法主要包括值迭代和策略迭代。在策略迭代算法中,要求采用可容许控制策略对迭代算法进行初始化,从而可以保证策略迭代生成的迭代控制策略具有可容许性。但在每次迭代中,策略迭代中采用逐次逼近的方法来进行策略评估,从而引入了额外的计算代价。对于值迭代算法,可以用任意一个正半定代价函数进行初始化,但迭代控制策略的可容许性是未知的,无法保证迭代过程中获得稳定的控制策略。目前,很少有方法能够有效实现迭代ADP方法的加速收敛。因此,亟需设计先进的智能优化控制器,在能够获得最优控制策略的前提下,加快代价函数的收敛速度,同时保证系统的稳定性,提高非线性系统的最优控制效率,提升ADP方法的控制性能。

技术实现思路

[0004]本专利技术基于迭代自适应评判框架提出一种具有收敛速度保证的集成值迭代方法,来解决非线性系统的智能优化控制问题。重点研究了值迭代方法的收敛速度,提出了一种新颖的集成值迭代方案,通过引入松弛因子,设计自适应调节的松弛函数,可调节迭代过程中代价函数的收敛速度,同时该集成值迭代方案没有引入额外的计算成本,且保证了系统的稳定性。
[0005]RTAC非线性基准问题考虑一个非线性四阶动态系统,其中包含一个平动振荡器和一个离心转动摆球的非线性相互作用。考虑图1所示的平动振荡器,振荡器由一个质量为M的小车组成,由一个刚度为k的线性弹簧连接到固定的墙上。其运动仅限于一维方向,即仅在水平面内,因此引力不起作用,小车的平移位置为q,则可知小车的运动速度为小车的运动加速度为安装在小车中心的摆球可在水平面内旋转,其质量为m,转动的角度为θ,则摆球的转动角速度为摆球转动的角加速度为摆球质心的转动惯量为I,摆球质心与其旋转点的距离为e,N表示施加到摆球上的控制转矩。对于该系统,控制目标是通过给离心转动摆球提供的控制转矩实现振荡器的稳定,设计的控制器需保证内部稳定性,并在控制效果有限的情况下对某些信号具有良好的干扰抑制能力。
[0006]因此通过机理建模可以得到RTAC系统的模型为
[0007][0008]根据上述RTAC系统的模型,设小车的平移位置q、小车的运动速度小球转动的角度θ、以及小球的转动角速度分别为系统状态的四个分量x1、x2、x3、x4,则系统的状态为设施加到小球上的控制转矩N为系统的控制输入u。此外,设为平动和转动运动之间的耦合为已知系统状态所满足的常微分方程则为控制系统的状态方程,将系统状态x的微分形式写为于是可以得到RTAC系统的状态方程为:
[0009][0010]接下来将RTAC系统的控制进行研究,即抑制系统的水平振动,将小车的平动位置和摆球转动角度稳定到系统平衡点,使得[x1,x2,x3,x4]T
=[0,0,0,0]T
。因此,本专利技术基于集成值迭代方法实现对RTAC系统的稳定控制,关于集成值迭代智能控制设计的详细步骤描述如下:
[0011]步骤1、问题转化。将RTAC系统实现振荡器稳定的问题转化为非线性系统的最优控制问题。通过欧拉方法对RTAC系统的状态方程进行离散化,选取离散时间间隔为0.1s,设当
前时刻为k,则离散化后的系统各状态分量表示为x
1k
、x
2k
、x
3k
、x
4k
,相应地下一时刻的系统状态为x
k+1
,系统的控制策略表示为u
k
,因此可以得到相应的系统状态空间表达式如下:
[0012][0013]该系统可以看作为一个四阶非线性非仿射系统,即
[0014][0015]其中,F(
·
,
·
)为连续的系统函数,x
k
为系统状态向量,代表非负整数集合,即若x0为系统的初始状态,则x0为系统在u=0时的唯一平衡点,即F(0,0)=0,从而意味着存在控制序列能够使得当k

0时系统状态x
k

0。设系统的最优反馈控制策略为u(x
k
),效用函数为U(x
k
,u(x
k
)),选取其为二次型形式,即其中Q和R为维数与系统状态和控制相匹配的正定矩阵。设系统的代价函数为V(x
k
,u(x
k
)),对于该系统的最优控制问题,其目标是找到合适的反馈控制策略u(x
k
)使得系统稳定,并最小化如下的无限时间代价函数:
[0016][0017]其中,U(0,0)=0且在此将系统代价函数V(x
k
,u(x
k
))和反馈控制策略u(x
k
)简写为V(x
k
)和u
k
...

【技术保护点】

【技术特征摘要】
1.一种针对双自旋稳定系统的加速集成值迭代控制方法,其特征在于:RTAC非线性基准问题考虑一个非线性四阶动态系统,其中包含一个平动振荡器和一个离心转动摆球的非线性相互作用;振荡器由一个质量为M的小车组成,由一个刚度为k的线性弹簧连接到固定的墙上;其运动仅限于一维方向,即仅在水平面内,因此引力不起作用,小车的平移位置为q,则可知小车的运动速度为小车的运动加速度为安装在小车中心的摆球可在水平面内旋转,其质量为m,转动的角度为θ,则摆球的转动角速度为摆球转动的角加速度为摆球质心的转动惯量为I,摆球质心与其旋转点的距离为e,N表示施加到摆球上的控制转矩;对于该系统,控制目标是通过给离心转动摆球提供的控制转矩实现振荡器的稳定,设计的控制器需保证内部稳定性;通过机理建模得到RTAC系统的模型为:根据上述RTAC系统的模型,设小车的平移位置q、小车的运动速度小球转动的角度θ、以及小球的转动角速度分别为系统状态的四个分量x1、x2、x3、x4,则系统的状态为设施加到小球上的控制转矩N为系统的控制输入u;此外,设为平动和转动运动之间的耦合为已知系统状态所满足的常微分方程则为控制系统的状态方程,将系统状态x的微分形式写为于是得到RTAC系统的状态方程为:接下来将RTAC系统的控制进行研究,即抑制系统的水平振动,将小车的平动位置和摆球转动角度稳定到系统平衡点,使得[x1,x2,x3,x4]
T
=[0,0,0,0]
T
;基于集成值迭代方法实现对RTAC系统的稳定控制,关于集成值迭代智能控制设计的详细步骤描述如下:步骤1、问题转化;将RTAC系统实现振荡器稳定的问题转化为非线性系统的最优控制问题;通过欧拉方法对RTAC系统的状态方程进行离散化,选取离散时间间隔为0.1s,设当前时刻为k,则离散化后的系统各状态分量表示为x
1k
、x
2k
、x
3k
、x
4k
,相应地下一时刻的系统状态为x
k+1
,系统的控制策略表示为u
k
,因此得到相应的系统状态空间表达式如下:
该系统看作为一个四阶非线性非仿射系统,即其中,F(
·
,
·
)为连续的系统函数,x
k
为系统状态向量,代表非负整数集合,即若x0为系统的初始状态,则x0为系统在u=0时的唯一平衡点,即F(0,0)=0,从而意味着存在控制序列能够使得当k

0时系统状态x
k

0;设系统的最优反馈控制策略为u(x
k
),效用函数为U(x
k
,u(x
k
)),选取其为二次型形式,即其中Q和R为维数与系统状态和控制相匹配的正定矩阵;设系统的代价函数为V(x
k
,u(x
k
)),对于该系统的最优控制问题,其目标是找到合适的反馈控制策略u(x
k
)使得系统稳定,并最小化如下的无限时间代...

【专利技术属性】
技术研发人员:王鼎任进
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1