System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于在线/离线混合强化学习的机动决策训练方法技术_技高网

一种基于在线/离线混合强化学习的机动决策训练方法技术

技术编号:42660376 阅读:14 留言:0更新日期:2024-09-10 12:18
本发明专利技术属于无人机技术领域,具体涉及一种基于在线/离线混合强化学习的机动决策训练方法。本发明专利技术技术方案包含以下几个步骤:搭建飞行仿真环境,设计飞行竞赛规则;搭建在线/离线混合SAC策略模型,并对网络参数进行设计;建立无人机连续动作空间模型;建立策略模型的状态空间输入;设计无人机飞行竞赛奖励函数;搭建飞行竞赛训练框架并基于框架训练混合在线/离线混合SAC策略模型。本发明专利技术通过混合专家模型离线训练数据和智能体在线训练数据进行策略更新。在提高了训练效率的情况下,使智能体具备更高的智能化决策水平。

【技术实现步骤摘要】

本专利技术属于无人机,具体涉及一种基于在线/离线混合强化学习的机动决策训练方法


技术介绍

1、在未来,具备低成本、高载荷、高灵活性等特点的无人机有望成为各领域的重要组成部分。然而,复杂多变的作业环境对无人机的挑战也逐渐显现。为了提高无人机的作业水平,自主智能决策成为必不可少的发展方向。通过研究和应用先进的人工智能技术,使无人机能够在不同作业场景上做出自主决策,适应变化的作业环境,将为未来的应用提供更高的优势。因此,无人机自主智能决策的发展趋势是不可忽视的。

2、随着人工智能算法的发展,基于强化学习的无人机自主决策算法逐渐成为研究热点。传统基于规则的无人机自主决策算法难以适应复杂的作业环境,基于强化学习算法的无人机自主决策算法能够克服传统算法难以适应复杂作业环境的问题。强化学习分为离线强化学习和在线强化学习,在线强化学习中智能体(agent)在与环境实时交互的过程中学习最优策略,单圣哲提出基于自博弈强化学习的无人机智能决策方法,通过“左右互搏”的方式提高智能体的作业水平。杨凯达结合联盟训练与sac算法训练智能体进行自主决策,提高了智能体策略的多样化。王宝来针对传统强化学习在解决自主决策问题时存在过拟合与策略循环等问题,提出了一种基于种群博弈的自主决策模型训练范式。在线强化学习能够充分发挥智能体探索与利用的平衡,提高智能体对复杂环境的适应能力,但是面临着奖励稀疏、奖励设计难等困难。

3、相比在线强化学习,离线强化学习使用先前收集到的离线数据(offline data)进行训练,而无需在实际环境中进行实时决策和交互。其优点包括:样本收集成本低以及样本数据效率高。同时也存在探索困难的问题,无法鼓励智能体探索新动作,只能学习现有的策略动作。

4、在通过强化学习算法实现无人机自主决策时,高效地利用经验数据并充分发挥强化学习的探索作用是保证无人机智能化水平、提高算法训练效率的关键。


技术实现思路

1、综上分析,本专利技术提供了一种基于在线/离线混合强化学习的机动决策训练方法,通过与基于规则的专家模型进行飞行竞赛训练,混合专家模型离线训练数据和智能体在线训练数据进行策略更新。

2、实现本专利技术的技术方案如下:

3、1、一种基于在线/离线混合强化学习的机动决策训练方法,包括以下步骤:

4、s1、建立无人机六自由度动力学模型及无人机控制模型,搭建飞行仿真环境,设计飞行竞赛规则;

5、s2、搭建在线/离线混合sac策略模型,包括构建2个分别用于存储离线和在线数据的混合经验缓存池和5个神经网络;5个神经网络分别为策略actor网络、2个q网络、v值网络与target v值网络,并对网络参数进行设计;

6、s3、根据无人机六自由度动力学模型与无人机控制模型,建立无人机连续动作空间,用于控制无人机运动;

7、s4、根据飞行仿真环境生成两架无人机的姿态、位置关系和速度关系,建立搭建在线/离线混合sac策略模型的状态空间;

8、s5、根据飞行竞赛规则,设计无人机飞行竞赛奖励函数,用于评判态势优劣,指导策略模型的神经网络训练更新;

9、s6、搭建在线/离线混合sac策略模型智能体与专家模型飞行竞赛训练框架并训练混合在线/离线混合sac策略模型。

10、所述步骤s1中,无人机六自由度动力学模型是以无人机的质心为机体坐标系原点,无人机六自由度动力学模型通过无人机六自由度动力学方程描述,无人机六自由度动力学方程如下:

11、

12、其中,x,y,z为无人机位置在地面坐标系下的三个分量,v为速度,χ为航向角,γ为航迹角,α为攻角,μ为倾侧角,p为滚转角速度,q为俯仰角速度,r为偏航角速度,g为重力加速度,m为质量,ixx,iyy,izz为惯性矩,l,d,y,t分别为升力、阻力、侧力和推力,mx,my,mz分别为滚转力矩、俯仰力矩和偏航力矩。

13、所述步骤s1中,无人机控制模型具体为:驾驶杆的横向移动控制无人机的偏航运动,驾驶杆的纵向移动控制无人机的俯仰运动;脚蹬控制无人机的滚转运动;油门杆控制无人机发动机推力大小;根据无人机六自由度动力学方程,通过解耦无人机所受的合外力和力矩;所述合外力为升力、阻力、侧力和推力的合力;所述力矩为滚转力矩、俯仰力矩和偏航力矩,构建无人机的控制方程如下:

14、

15、式中,fx,fy,fz分别表示合外力f在地面坐标系下三个方向上的分量,c1为驾驶杆横向位移;c2为驾驶杆纵向位移;c3为脚蹬位移;t为油门杆位移;q为控制转移矩阵,由无人机的型号决定。

16、所述步骤s1中,建立飞行仿真环境是在环境初始化时会实例化生成两架无人机,两架无人机的飞行区域限定在一个lkm×wkm×hkm的长方形空间内,两架无人机的初始状态包括位置、速度、姿态角和航迹角在限定范围内随机初始化。

17、所述步骤s1中,飞行竞赛规则为:在线/离线混合sac策略模型控制的无人机和基于规则的专家模型控制的无人机进行飞行竞赛,双方无人机均能获取对方无人机的位置信息和速度信息,通过对相对位置与相对角度条件进行占位得分判断,若有一方获得的占位得分达到规定值或者有一方失速或坠地,则判定一局竞赛结束,并根据最后结果来评判胜负。

18、所述步骤s2中,所述离线和在线数据获取方法为:在线/离线混合sac策略模型控制的无人机和基于规则的专家模型控制的无人机在飞行竞赛过程中,不断与环境交互,产生经验数据,该经验数据分别表示为在线数据和离线数据,在线数据来自在线/离线混合sac策略模型控制的无人机,离线数据来自基于规则的专家模型控制的无人机。

19、所述步骤s2中,

20、actor网络隐藏层由两个全连接层组成,网络结构大小为256×256,激活函数为tanh;actor网络的输入为无人机当前状态st,输出为动作高斯分布的均值u与方差σ,即概率分布π(a|s),通过对高斯分布采样获得当前状态下的动作at;通过优化actor网络参数来不断拟合逼近策略π,来实现对当前状态的最佳动作预测;策略actor网络φ通过梯度下降的方式进行更新,损失函数定义为:

21、

22、式中,λ为用来平衡熵h与奖励r比例关系的温度系数,熵h的表达式为:

23、

24、q网络隐藏层由两个全连接层组成,网络结构大小为256×256,激活函数为tanh;网络输入为无人机当前状态st和执行的动作at,网络输出为神经网络预测的q值,用于评价当前状态下无人机执行动作at的好坏;q网络参数θ通过梯度下降的方式进行更新,损失函数定义为:

25、

26、式中,qθ(st,at)为soft-q网络的输出q值,其中为target v值网络的输出v值;两个q网络分别预测q值,通过选择较小的q值来防止q值的过估计,并选择较小的网络对v值网络更新。

27、v值网络的隐藏层由两个全连接层组成,本文档来自技高网...

【技术保护点】

1.一种基于在线/离线混合强化学习的机动决策训练方法,其特征在于,包括以下步骤:

2.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤S1中,无人机六自由度动力学模型是以无人机的质心为机体坐标系原点,无人机六自由度动力学模型通过无人机六自由度动力学方程描述,无人机六自由度动力学方程如下:

3.如权利要求2所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤S1中,无人机控制模型具体为:驾驶杆的横向移动控制无人机的偏航运动,驾驶杆的纵向移动控制无人机的俯仰运动;脚蹬控制无人机的滚转运动;油门杆控制无人机发动机推力大小;根据无人机六自由度动力学方程,通过解耦无人机所受的合外力和力矩;所述合外力为升力、阻力、侧力和推力的合力;所述力矩为滚转力矩、俯仰力矩和偏航力矩,构建无人机的控制方程如下:

4.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤S1中,建立飞行仿真环境是在环境初始化时会实例化生成两架无人机,两架无人机的飞行区域限定在一个lkm×wkm×hkm的长方形空间内,两架无人机的初始状态包括位置、速度、姿态角和航迹角在限定范围内随机初始化。

5.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤S1中,飞行竞赛规则为:在线/离线混合SAC策略模型控制的无人机和基于规则的专家模型控制的无人机进行飞行竞赛,双方无人机均能获取对方无人机的位置信息和速度信息,通过对相对位置与相对角度条件进行占位得分判断,若有一方获得的占位得分达到规定值或者有一方失速或坠地,则判定一局竞赛结束,并根据最后结果来评判胜负。

6.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤S2中,所述离线和在线数据获取方法为:在线/离线混合SAC策略模型控制的无人机和基于规则的专家模型控制的无人机在飞行竞赛过程中,不断与环境交互,产生经验数据,该经验数据分别表示为在线数据和离线数据,在线数据来自在线/离线混合SAC策略模型控制的无人机,离线数据来自基于规则的专家模型控制的无人机。

7.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤S2中,

8.如权利要求3所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤S3中,动作空间包括机动决策与导弹发射决策,具体设置为:

9.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤S4中,状态空间是智能体的观测量,是无人机对飞行竞赛态势的感知输入,可以由飞行竞赛双方的姿态、位置关系、速度关系来描述,竞赛双方模型的状态空间设置相同,设置状态空间为:

10.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤S5中,所述设计无人机飞行竞赛奖励函数由占位区奖励函数、能量奖励函数、距离奖励函数、角度奖励函数和占位成功奖励函数加权构成,具体为:

11.如权利要求5所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤S6中,飞行竞赛训练框架具体描述为,在线/离线混合SAC策略模型用于控制无人机A,编写基于规则的专家模型模型用于控制无人机B,两架无人机随机初始状态,相互飞行竞赛,产生大量经验数据,并存储在各自的经验缓存池中,策略更新时随机从两个经验缓存池中按比例抽取批量经验数据用于更新5个神经网络,具体步骤如下:

...

【技术特征摘要】

1.一种基于在线/离线混合强化学习的机动决策训练方法,其特征在于,包括以下步骤:

2.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤s1中,无人机六自由度动力学模型是以无人机的质心为机体坐标系原点,无人机六自由度动力学模型通过无人机六自由度动力学方程描述,无人机六自由度动力学方程如下:

3.如权利要求2所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤s1中,无人机控制模型具体为:驾驶杆的横向移动控制无人机的偏航运动,驾驶杆的纵向移动控制无人机的俯仰运动;脚蹬控制无人机的滚转运动;油门杆控制无人机发动机推力大小;根据无人机六自由度动力学方程,通过解耦无人机所受的合外力和力矩;所述合外力为升力、阻力、侧力和推力的合力;所述力矩为滚转力矩、俯仰力矩和偏航力矩,构建无人机的控制方程如下:

4.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤s1中,建立飞行仿真环境是在环境初始化时会实例化生成两架无人机,两架无人机的飞行区域限定在一个lkm×wkm×hkm的长方形空间内,两架无人机的初始状态包括位置、速度、姿态角和航迹角在限定范围内随机初始化。

5.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法,其特征在于,在步骤s1中,飞行竞赛规则为:在线/离线混合sac策略模型控制的无人机和基于规则的专家模型控制的无人机进行飞行竞赛,双方无人机均能获取对方无人机的位置信息和速度信息,通过对相对位置与相对角度条件进行占位得分判断,若有一方获得的占位得分达到规定值或者有一方失速或坠地,则判定一局竞赛结束,并根据最后结果来评判胜负。

6.如权利要求1所述的在...

【专利技术属性】
技术研发人员:刘波杨兴昊陈肇江王浩龙赵柳航刘泽一
申请(专利权)人:中国航空研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1