一种基于强化学习的无人航行器安全控制方法技术

技术编号：41127627 阅读：4 留言：0更新日期：2024-04-30 17:55

本发明专利技术公开了一种基于强化学习的无人航行器安全控制方法，通过将深度强化学习DDPG算法应用到无人航行器的安全保护控制中，通过使无人航行器在不断交互学习中寻找最优安全控制策略。该方法设计一种由稳定控制器和保护控制器组成的新型控制结构，步骤如下：对潜航器模型按一定的步长求取平衡点，并做线性化处理；利用反馈控制设计镇定控制器，并将其作为内环控制；利用强化学习方法设计保护控制器，将其作为外环控制。通过设计镇定控制器，使原系统只通过提取的这些主要特征点系统就能进行整体描述，有效解决航行器安全航行时存在的鲁棒性低以及设计复杂性。通过对新型控制结构的设计以达到对无人航行器安全控制的目的。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种航行器控制方法，尤其是涉及一种基于强化学习的无人航行器安全控制方法。

技术介绍

1、目前航行器的控制系统通常只考虑整个航行器的整体运行控制，然而在目前越来越复杂的航行器控制与复杂任务环境下，航行器飞行安全问题越来越值得重视，因此合理的安全控制方法设计就显得尤为重要。

2、例如，专利cn 217692736u公开了一种水下航行器的安全保障系统，通过安保控制单元控制pwm电池充电电路用于给安保电池充电，主控电池也给安保电池充电，使得安保电池充电更加简捷和可控。专利cn116483105a公开了一种欠驱动型四旋翼航行器虚拟围栏安全控制方法，利用李雅普诺夫定义欠驱动型四旋翼航行器状态量和控制量的误差表达式，设计基于指数障碍函数的二次规划安全滤波器，以保证欠驱动型四旋翼航行器在类似虚拟围栏的安全区域内飞行。但是这些安全保护方法都是在固定区域内、航行任务简单的情况下进行安全控制。

3、目前在对航行器进行稳定控制器设计中一般采用pid控制方法，pid参数进行整定的主要方法有ziegler-nichols法、稳定边界法、衰减曲线法等。但是现有的pid控制主要用试凑的方式整定，有很强的经验主义色彩，而且一旦实验发现控制性能不佳，只能重新整定，盲目而低效，且在复杂的控制系统中鲁棒性低。

技术实现思路

1、专利技术目的：针对上述问题，本专利技术的目的是提供一种基于强化学习的无人航行器安全控制方法，能够进行安全保护控制且系统稳定有较高的鲁棒性。

2、技

3、进一步的，actor网络模块包括actor当前网络、actor目标网络，critic网络模块包括critic当前网络、critic目标网络，actor当前网络的输入为航行器的当前状态信息，输出为该状态下对应的当前动作；actor目标网络的输入为航行器下一步的状态信息，输出为预测使航行器下一步状态达到最优时需要执行的动作；critic当前网络的输入为航行器当前状态和当前状态下所执行的动作，输出为在该状态下执行对应动作的评估价值，critic目标网络的输入为下一步的状态信息和该状态下的下一步执行动作，输出为在该状态下执行预测动作的评估价值。

4、进一步的，外环控制包括以下步骤：

5、s1：给定一个目标输入指令，航行器通过反馈控制后产生相应的状态信息x，将其作为强化学习的初始状态st；

6、s2：建立ddpg算法模型，ddpg算法采用的是actor-critic网络结构，将这组状态输入模型中，并引入注意力机制，无人航行器依据策略函数选择一个航行器控制动作at，将当前动作作用于航行器，然后观察航行器输出的相应的奖励rt和下一个状态st+1，从而得到无人航行器的信息[st,at,rt,st+1]；

7、s3：将航行器每次与ddpg智能体交互的信息以及是否结束标志作为样本存入经验缓存区中，然后从中随机采样一批样本，用于计算目标q值；

8、s4：根据目标q值使用梯度的反向传播对ddpg算法模型进行critic网络模块参数和actor网络模块参数的更新，从而做出对应决策，实现航行器的安全飞行。

9、最佳的，在步骤s2中，ddpg算法模型输入信号包括反馈控制后无人航行器的当前状态以及无人航行器当前状态与处于平衡时目标状态之间的误差。

10、最佳的，在步骤s2中获得的相应奖励通过奖励函数设计获得，其中奖励函数设计规则：

11、规则1：当航行器的当前状态处于初始状态与目标状态之间，且与目标状态之间的差距过大时，给予较大的惩罚；

12、规则2：当航行器的当前状态靠近目标状态时，则给予奖励，二者差距越小，奖励值越大；

13、规则3：当航行器的当前状态越过目标状态时，则认为航行器偏离安全范围进入失控状态，当其越过目标值越远，则给予更大的惩罚；

14、规则4：设定航行器安全飞行时的控制力范围，当航行器的控制力在安全范围内时，则给予一个奖励，当超过这个范围时，则给予惩罚。

15、最佳的，在步骤s3中，目标q值由critic当前网络计算，目标q值为：

16、q(st,at)＝r(st,at)+γqw'(st+1,at+1)；

17、其中，qw'(st+1,at+1)由critic目标网络计算，r(st,at)是当前状态动作时的奖励，γ是折扣因子。

18、最佳的，在步骤s4中，critic网络参数通过最小化损失值来更新，损失函数为：

19、

20、其中，yi＝q(st,at)；n是批量数目值；i为提取样品的序列号；

21、actor网络参数通过最大化q值来提供下一个状态的对应策略，其在参数更新时遵循确定策略梯度定理：

22、

23、最佳的，在步骤s4中，将航行器的安全飞行体现在状态受限以及输入受限；

24、对航行器的状态约束可以表示为：

25、

26、其中，[αmin,βmin,pmin,qmin,rmin]t分别是受约束状态变量迎角、侧滑角、滚转角速度、俯仰角速度、偏航角速度的下界，[αmax,βmax,pmax,qmax,rmax]t分别是迎角、侧滑角、滚转角速度、俯仰角速度、偏航角速度的上界；

27、对航行器的输入约束可以表示为：

28、

29、其中，[δemin,δαmin,δrmin]t分别是受约束输入变量升降翼偏转角、副翼偏转角和方向翼偏转角的下界，[δemax,δαmax,δrmax]t分别是升降翼偏转角、副翼偏转角和方向翼偏转角的的上界。

30、进一步的，镇定控制器的设计包括以下步骤：

31、s11：得到系统矩阵并将所有系统矩阵构建成张量积模型系统矩阵与张量积模型满足关系则原系统可以表示为tp模型形式：

32、

33、s12：对张量积模型使用最佳近似方法进行处理，得到最佳近似张量近似张量的前两个模态的维度需要根据期望的精度要求来确定，最佳近似后的模型形式为：

34、

35、s13：将tp模型转化为多胞形模型；

36、s本文档来自技高网...

【技术保护点】

1.一种基于强化学习的无人航行器安全控制方法，其特征在于：所述控制方法采用双环控制结构，包括内环控制和外环控制，内环控制为采用反馈控制设计的镇定控制器，镇定控制器包括依次信号连接的动态配平器、控制器和航行器，动态配平器输出信号作用于航行器，航行器输出信号反馈给控制器；外环控制为采用强化学习方法设计的保护控制器，保护控制器包括Critic网络模块、Actor网络模块和经验缓存区，航行器与Actor网络模块互通信号，且航行器的输出信号在经验缓存区中储存，并通过经验缓存区输出信号对Actor网络模块、Critic网络模块进行训练以更新两者的网络参数，通过Critic网络模块输出当前状态下以及下一状态下执行对应动作的评估价值以及对应决策，实现航行器的安全飞行。

2.根据权利要求1所述的一种基于强化学习的无人航行器安全控制方法，其特征在于：Actor网络模块包括Actor当前网络、Actor目标网络，Critic网络模块包括Critic当前网络、Critic目标网络，Actor当前网络的输入为航行器的当前状态信息，输出为该状态下对应的当前动作；Actor目标网络的输入为航行器下

3.根据权利要求2所述的一种基于强化学习的无人航行器安全控制方法，其特征在于，外环控制包括以下步骤：

4.根据权利要求3所述的一种基于强化学习的无人航行器安全控制方法，其特征在于：在步骤S2中，DDPG算法模型输入信号包括反馈控制后无人航行器的当前状态以及无人航行器当前状态与处于平衡时目标状态之间的误差。

5.根据权利要求3所述的一种基于强化学习的无人航行器安全控制方法，其特征在于：在步骤S4中，目标Q值由Critic当前网络计算，目标Q值为：

6.根据权利要求3所述的一种基于强化学习的无人航行器安全控制方法，其特征在于：在步骤S4中，Critic网络参数通过最小化损失值来更新，损失函数为：

7.根据权利要求3所述的一种基于强化学习的无人航行器安全控制方法，其特征在于：在步骤S4中，将航行器的安全飞行体现在状态受限以及输入受限；

8.根据权利要求1所述的一种基于强化学习的无人航行器安全控制方法，其特征在于，镇定控制器的设计包括以下步骤：

9.根据权利要求8所述的一种基于强化学习的无人航行器安全控制方法，其特征在于，在步骤S13中，TP模型转化包括以下步骤：

10.根据权利要求1所述的一种基于强化学习的无人航行器安全控制方法，其特征在于，双环控制结构为双闭环安全控制，其构建包括以下步骤：

...

【技术特征摘要】

1.一种基于强化学习的无人航行器安全控制方法，其特征在于：所述控制方法采用双环控制结构，包括内环控制和外环控制，内环控制为采用反馈控制设计的镇定控制器，镇定控制器包括依次信号连接的动态配平器、控制器和航行器，动态配平器输出信号作用于航行器，航行器输出信号反馈给控制器；外环控制为采用强化学习方法设计的保护控制器，保护控制器包括critic网络模块、actor网络模块和经验缓存区，航行器与actor网络模块互通信号，且航行器的输出信号在经验缓存区中储存，并通过经验缓存区输出信号对actor网络模块、critic网络模块进行训练以更新两者的网络参数，通过critic网络模块输出当前状态下以及下一状态下执行对应动作的评估价值以及对应决策，实现航行器的安全飞行。

2.根据权利要求1所述的一种基于强化学习的无人航行器安全控制方法，其特征在于：actor网络模块包括actor当前网络、actor目标网络，critic网络模块包括critic当前网络、critic目标网络，actor当前网络的输入为航行器的当前状态信息，输出为该状态下对应的当前动作；actor目标网络的输入为航行器下一步的状态信息，输出为预测使航行器下一步状态达到最优时需要执行的动作；critic当前网络的输入为航行器当前状态和当前状态下所执行的动作，输出为在该状态下执行对应动作的评估价值，critic目标网络的输入为下一步的状态信息和该状态下的下一步执行动作...

【专利技术属性】
技术研发人员：叶辉，张倩，张号，刘伟，曹俊杰，刘子青，
申请(专利权)人：江苏科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人