System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种无人机神经网络飞控器强化学习环境的搭建方法技术_技高网

一种无人机神经网络飞控器强化学习环境的搭建方法技术

技术编号:41332370 阅读:11 留言:0更新日期:2024-05-20 09:52
本发明专利技术公开了一种无人机神经网络飞控器强化学习环境的搭建方法,属于强化学习仿真环境搭建技术领域。包括:建立四旋翼无人机的电子样机模型;设计四旋翼无人机强化学习任务与训练场景,并对决策过程进行建模;Gazebo和GymFc联合使用搭建物理引擎来模拟真实世界的物理环境,帮助强化学习模型学习与环境交互并做出决策。本发明专利技术的强化学习环境搭建相对简单、仿真精度高,和现实世界差距小,设计的状态空间、动作空间与奖励函数均非常合理,基于该环境训练得到的神经网络飞行控制器在真实飞行试验中效果良好。

【技术实现步骤摘要】

本专利技术涉及强化学习仿真环境搭建,尤其涉及一种用于多旋翼无人机神经网络飞行控制器训练的强化学习环境的搭建方法。


技术介绍

1、多旋翼无人机的神经网络飞行控制器是一种通过训练神经网络在实现飞行控制的方法。在这种方法中,神经网络接收传感器数据,燃烧后输出控制指令。由于神经网络可以自适应地调整参数,因此可以在不同的飞行情况下获得更好的控制性能。

2、强化学习是一种机器学习方法,可以通过与环境交互来学习最优的行为策略。在多旋翼无人机飞行控制中,强化学习可以用来训练神经网络控制器,以使其能够在不同的飞行情况下实现最优的控制性能。

3、为了训练神经网络控制器,需要一个强化学习环境,在该环境下可以模拟多旋翼无人机在不同飞行情况下所面临的环境,这个环境包括传感器数据、控制指令和物理模型,以便神经网络能够学习如何在不同的飞行情况下做出正确的控制决策。让无人机直接在真实环境中进行试错碰撞需要巨大的实验成本,因此本专利技术搭建了高度仿真的虚拟环境,能够产生无限的训练数据,大大降低了强化学习算法的训练成本。

4、在构建强化学习环境时,使用物理引擎模拟多旋翼无人机的运动。常用的物理引擎有box2d、physx、gazebo等。由于环境模型与现实情况不完全相同、在仿真环境中收据的数据分布不同、以及现实环境的复杂和不确定,强化学习仿真环境在大多数情况下很难直接应用到现实中。


技术实现思路

1、有鉴于此,本专利技术提供一种无人机神经网络飞控器强化学习环境的搭建方法,以现有的强化学习算法数据利用率低下、无人机直接在真实环境中试错碰撞试验成本巨大的情况下,构建一个能产生无限的训练数据并且能降低强化学习算法训练代价的高度仿真度虚拟环境,同时通过该环境训练得到的控制器能部署在真实环境中。

2、本专利技术采用的技术方案为:

3、一种无人机神经网络飞控器强化学习环境的搭建方法,包括以下步骤:

4、步骤s1:建立四旋翼无人机的电子样机模型;

5、步骤s2:设计四旋翼无人机强化学习任务与训练场景;

6、步骤s3:联合使用gazebo和gymfc搭建物理引擎来模拟真实世界的物理环境,帮助强化学习模型学习与环境交互并做出决策。

7、进一步地,步骤s1还包括机体3d建模、imu传感器建模和四旋翼无人机动力系统模型建立;

8、步骤s1之后,还包括,将四旋翼无人机的3d模型转化为几何网格文件导入物理仿真系统gazebo,创建一个包含四旋翼无人机和任务场景的物理仿真环境。

9、进一步地,步骤s2还包括:采集步骤s1所建立的imu传感器模型获取得到的四旋翼无人机的速度和姿态信息,用于底层姿态控制,设置阶跃动态信号目标与训练周期。

10、进一步地,步骤s2之后,还包括:

11、使用马尔可夫决策过程对四旋翼无人机控制进行建模,设计合理的状态空间和动作空间;

12、结合具体的训练对象和训练任务进行构建和调整奖励函数。

13、进一步地,设计合理的状态空间和动作空间还包括,确定所用的四旋翼无人机控制方式为角速度控制,动作空间为四个电调上的电信号值,状态空间为6维向量,其中包括测量角速度误差和测量角速度误差相对上一时刻的变化值。

14、进一步地,构建和调整奖励函数还包括,确定奖励函数的组成部分,奖励函数由角速率信号跟踪误差奖励、震荡奖励、最小输出奖励、过饱和奖励、消极奖励组成。

15、进一步地,所述步骤s3还包括,使用gymfc强化学习环境,建立智能体与深度强化学习环境的交互。

16、进一步地,交互过程的层级结构分为电子样机、通讯层和交互层三个部分;

17、通讯层用于强化学习环境gymfc与作用于gazebo环境中的电子样机底层控制信号进行通讯,强化学习环境中的输出动作会在通讯层经过信号转换指令被转换成作用于电调的信号;在交互层中智能体接受来自通讯层的目标角速度指令、三轴角速率具体信号,根据这些信号构建某一时刻具体的状态向量,根据状态向量选择输出动作并返回新的环境向量与该动作的奖励值。

18、本专利技术具有以下有益效果:

19、1、本专利技术基于gazebo仿真平台建立了多旋翼无人机电子样机模型,模型配置中包含通过试验测量得到的实际imu噪声、动力系统的最大转速和拉力、扭矩相关系数等相关的真实飞机的实验数据,增加了仿真精度,减小了虚拟环境和现实世界的差距。

20、2、本专利技术提出的适用于四旋翼无人机飞行姿态控制的马尔可夫决策过程建模方法,设计了合适的动作空间、状态空间与奖励函数,提出的四旋翼无人机的学习任务设计方法能够生产巨量的交互经验以供深度强化学习飞行姿态控制器进行学习,大大降低了强化学习算法的训练代价。

21、3、通过本专利技术训练得到的神经网络飞行控制器能迁移部署到真实环境中,并且飞行试验效果良好。

本文档来自技高网...

【技术保护点】

1.一种无人机神经网络飞控器强化学习环境的搭建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种无人机神经网络飞控器强化学习环境的搭建方法,其特征在于,步骤S1还包括机体3D建模、IMU传感器建模和四旋翼无人机动力系统模型建立;

3.根据权利要求2所述的一种无人机神经网络飞控器强化学习环境的搭建方法,其特征在于,步骤S2还包括:采集步骤S1所建立的IMU传感器模型获取得到的四旋翼无人机的速度和姿态信息,用于底层姿态控制,设置阶跃动态信号目标与训练周期。

4.根据权利要求1所述的一种无人机神经网络飞控器强化学习环境的搭建方法,其特征在于,步骤S2之后,还包括:

5.根据权利要求4所述的一种无人机神经网络飞控器强化学习环境的搭建方法,其特征在于,设计合理的状态空间和动作空间还包括,确定所用的四旋翼无人机控制方式为角速度控制,动作空间为四个电调上的电信号值,状态空间为6维向量,其中包括测量角速度误差和测量角速度误差相对上一时刻的变化值。

6.根据权利要求4所述的一种无人机神经网络飞控器强化学习环境的搭建方法,其特征在于,构建和调整奖励函数还包括,确定奖励函数的组成部分,奖励函数由角速率信号跟踪误差奖励、震荡奖励、最小输出奖励、过饱和奖励、消极奖励组成。

7.根据权利要求1所述的一种无人机神经网络飞控器强化学习环境的搭建方法,其特征在于,所述步骤S3还包括,使用GymFc强化学习环境,建立智能体与深度强化学习环境的交互。

8.根据权利要求7所述的一种无人机神经网络飞控器强化学习环境的搭建方法,其特征在于,交互过程的层级结构分为电子样机、通讯层和交互层三个部分;

...

【技术特征摘要】

1.一种无人机神经网络飞控器强化学习环境的搭建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种无人机神经网络飞控器强化学习环境的搭建方法,其特征在于,步骤s1还包括机体3d建模、imu传感器建模和四旋翼无人机动力系统模型建立;

3.根据权利要求2所述的一种无人机神经网络飞控器强化学习环境的搭建方法,其特征在于,步骤s2还包括:采集步骤s1所建立的imu传感器模型获取得到的四旋翼无人机的速度和姿态信息,用于底层姿态控制,设置阶跃动态信号目标与训练周期。

4.根据权利要求1所述的一种无人机神经网络飞控器强化学习环境的搭建方法,其特征在于,步骤s2之后,还包括:

5.根据权利要求4所述的一种无人机神经网络飞控器强化学习环境的搭建方法,其特征在于,设计合理的状态空间和动作空...

【专利技术属性】
技术研发人员:赵军孙冰寒赵会杰
申请(专利权)人:中电华鸿科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1