基于强化学习的四旋翼无人机自适应事件触发优化控制系统及方法技术方案

技术编号：40054091 阅读：19 留言：0更新日期：2024-01-16 21:39

本文提出了一种基于强化学习的四旋翼无人机自适应事件触发优化控制系统及方法，涉及空中航行器优化控制领域。所述方法对四旋翼无人机展开研究，首先对四旋翼无人机系统进行动力学建模，建立跟踪误差方程；接着利用扰动观测器对外部扰动进行观测并补偿；选取合适的优化控制指标，构建最优性能指标函数；然后设计事件触发策略；最后，采用积分强化学习优化算法，为其设计Actor‑Critic控制器。本发明专利技术方案从动力学模型出发，结合强化学习思想，可以对复杂环境进行自我学习，更好的适应各种不确定环境状态，大大降低了控制器的更新频率，节约了四旋翼无人机的运行能量，是一种集控制表现与经济性于一体的方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及空中航行器优化控制领域，具体来说涉及基于强化学习的四旋翼无人机自适应事件触发优化控制系统及方法。

技术介绍

1、随着电子技术、通信技术、材料技术和自动化技术的迅猛发展，智能无人设备领域取得了显著进展，特别是四旋翼无人机系统逐渐成熟，并在各种未开发和探索领域展示出明显优势。四旋翼无人机由于具有垂直起降、高度灵活和易于集成等优点，在航拍、农业植保、环境监测和救援搜索等领域广泛应用。四旋翼无人机具备高机动性、高时效性和较低成本的特点，使其成为海上、地面和空中探测能力的重要补充，对于实现海洋环境监测和资源调查等任务至关重要。

2、目前对四旋翼无人机控制方案取得了显著进展，但仍存在以下的不足之处：①鲁棒性和可靠性差：对于风速变化、传感器故障、通信中断等不确定性因素，控制方案需要更好地处理和适应；②动态任务处理能力：当前的四旋翼无人机控制方案在应对动态场景和快速变化任务方面仍有待改进；③自适应性与学习能力：当前的四旋翼无人机控制方案大多是基于预先确定的模型和参数进行设计的，缺乏对环境和系统变化的自适应性和学习能力；④能源效率和飞行时间：四旋翼无人机的能源消耗和飞行时间限制着其实际应用的范围。此外，编队中的通信和计算需求也会增加能耗，并对无人机的有效载荷和续航能力产生影响。目前尚未有控制方案能够具有自适应学习能力和节约控制输入、计算能耗。

技术实现思路

1、本专利技术实施例提供了基于强化学习的四旋翼无人机自适应事件触发优化控制系统及方法，该优化控制方法使得控制器能

2、本专利技术一方面提供一种基于强化学习的四旋翼无人机自适应事件触发优化控制方法，所述方法包括以下步骤：

3、步骤1、对四旋翼无人机进行动力学建模，并对外部扰动进行建模；

4、步骤2、建立四旋翼无人机系统位置和姿态与参考信号之间的跟踪误差方程；

5、步骤3、设计扰动观测器对外部扰动进行观测，并进行补偿；

6、步骤4、选取合适的四旋翼无人机优化控制指标，构建最优性能指标函数；

7、步骤5、引入事件触发机制，设计触发策略；

8、步骤6、采用积分强化学习优化算法，设计actor-critic控制器。

9、可选的，对四旋翼无人机进行动力学建模，包括下述步骤：

10、步骤1-1、单体四旋翼无人机在空中飞行时具体模型为：

11、

12、其中，m为四旋翼飞行器的质量，ωr表示转速。px,py,pz表示四旋翼飞行器的在x、y、z方向的位置状态，分别表示俯仰角、滚转角以及偏航角；τ1,τ2,τ3表示四旋翼飞行器的在x、y、z方向的推力，τ4表示总推力；ix,iy,iz表示四旋翼飞行器的在x、y、z方向的转动惯量；l表示四个旋翼到质心的距离。di(i＝1,2,3,4,5,6)代表外部扰动。

13、步骤1-2、在步骤1-1的基础上，转速的表达式可以写为ω＝kmu+bm(其中km,bm是电机参数)。四旋翼无人机系统扭矩与旋速之间的关系为：

14、

15、其中ct,cm是转速与转矩之间的转换常数。

16、步骤1-3、在步骤1-2的基础上，取输入向量为u＝[u1,u2,u3,u4]t；状态变量为可以定义四旋翼无人机系统模型为：

17、

18、其中，

19、

20、

21、

22、

23、其中，θ是外部扰动，是扰动增益。

24、可选的，建立四旋翼无人机系统的位置和姿态与参考信号之间的跟踪误差方程，包括下述步骤：

25、步骤2-1、记跟踪的信号为fd(x(t))，则有跟踪的动态为则有：

26、

27、步骤2-2、在步骤2-1的基础上，记x(t)＝x-xd为跟踪误差变量，那么四旋翼无人机系统的位置和姿态与参考信号之间的跟踪误差方程为：

28、

29、其中f(x)＝f(x(t)+z(t))-fd(z(t))，g(x)＝g(x(t)+z(t))。

30、可选的，设计扰动观测器对外部扰动进行观测，并对其进行补偿，包括下述步骤：

31、步骤3-1、针对步骤1得到的跟踪误差方程，设计状态观测器如下：

32、

33、其中，是未知外部扰动的观测值，是设计的非线性向量值函数，

34、步骤3-2、在步骤3-1的基础上，输入可以分为两部分：

35、

36、其中，νd(x)是用于补偿外部扰动的输入部分，νr(x)是下述优化的其余的控制输入部分。

37、可选的，选取合适的四旋翼无人机优化控制指标，构建最优性能指标函数，包括下述步骤：

38、步骤4-1、针对步骤2得到的跟踪误差方程，选取性能指标，可以得到性能指标函数为：

39、

40、其中，q,r是正定矩阵。

41、步骤4-2、在步骤4-1的基础上，根据最优控制理论的条件：

42、

43、可以得到，最优控制率为：

44、

45、步骤4-3、在步骤4-2的基础上，哈密顿-雅可比-贝尔曼方程为

46、

47、可选的，所述步骤1中引入事件触发机制，设计触发策略，其触发条件为

48、

49、其中，ek(t)是触发时刻的采样误差，λmin是q的最小特征值，β∈(0,1)是设计的参数。

50、可选的，采用积分强化学习优化算法，为其设计actor-critic控制器，具体包括下述步骤：

51、步骤6-1、使用critic权重系数来近似v*(x)：

52、

53、其中，是v*(x)的估计值，是激活函数，是critic更新率，ε(ei)表示逼近误差。

54、步骤6-2、critic自适应率为：

55、

56、其中，是学习率。

57、步骤6-3、actor自适应率为：

58、

59、其中，是学习率。

60、另一方面，本申请提供一种基于强化学习的四旋翼无人机自适应事件触发优化控制系统，所述系统包括：

61、四旋翼无人机动力学建模单元，用于四旋翼无人机在空中飞行时的动力学模型；

62、跟踪误差方程单元，用于建立姿态动力系统的位置和姿态与参考信号之间的跟踪误差方程；

63、扰动观测及补偿单元，用于设计扰动观测器对外部扰动进行观测，并对其进行补偿；

64、四旋翼无人机控制性能指标函数单元，用于选取合适的无人机跟踪优化控制指标，构建性能指标函数；

65、事件触发策略单元，用于引入事件触发机制，设计合适的触发策略；

66、本文档来自技高网...

【技术保护点】

1.基于强化学习的四旋翼无人机自适应事件触发优化控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤1中对四旋翼无人机进行动力学建模，并对外部扰动进行建模，包括下述步骤：

3.根据权利要求1所述的方法，其特征在于，建立四旋翼无人机系统的位置和姿态与参考信号之间的跟踪误差方程，包括下述步骤：

4.根据权利要求1所述的方法，其特征在于，设计扰动观测器对外部扰动进行观测，并进行补偿，包括下述步骤：

5.根据权利要求1所述的方法，其特征在于，选取合适的四旋翼无人机优化控制指标，构建最优性能指标函数，包括下述步骤：

6.根据权利要求1所述的方法，其特征在于，步骤5中引入事件触发机制，设计触发策略，中触发条件为

7.根据权利要求1所述的方法，其特征在于，采用积分强化学习优化算法，设计Actor-Critic控制器，包括：

8.基于强化学习的四旋翼无人机自适应事件触发优化控制系统，其特征在于，所述系统包括：

【技术特征摘要】

1.基于强化学习的四旋翼无人机自适应事件触发优化控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤1中对四旋翼无人机进行动力学建模，并对外部扰动进行建模，包括下述步骤：

3.根据权利要求1所述的方法，其特征在于，建立四旋翼无人机系统的位置和姿态与参考信号之间的跟踪误差方程，包括下述步骤：

4.根据权利要求1所述的方法，其特征在于，设计扰动观测器对外部扰动进行观测，并进行补偿，包括下述步...

【专利技术属性】
技术研发人员：邹文成，向雨竹，金东洋，陈晨，向峥嵘，张海英，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人