System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度强化学习的无人机自主探索导航方法技术_技高网

一种基于深度强化学习的无人机自主探索导航方法技术

技术编号:40867250 阅读:2 留言:0更新日期:2024-04-08 16:32
本发明专利技术属于计算机图像处理与深度强化学习领域,公开了一种基于深度强化学习的无人机自主探索导航方法。本发明专利技术基于SAC深度强化学习方法,提出FD‑SAC算法,该算法利用无人机实时飞行过程中交互获取的深度图像和本机飞行状态,实现无人机导航规划。主要的设计模块包括特征提取模块和决策模块,其中特征提取模块利用深度学习方法设计IFC特征提取网络,将实时获取的深度图像和该时刻的飞行状态特征计算融合,输出的特征指导下一步决策过程;决策模块包括策略网络、动作价值网络、状态价值网络、经验样本池,提高自主学习训练效率,提升网络模型决策性能。本发明专利技术所述方法适用于未知、大规模、复杂、动态环境下的无人机自主探索导航过程。

【技术实现步骤摘要】

本专利技术属于计算机图像处理与深度强化学习领域,具体为一种利用深度图像和无人机飞行状态数据,通过深度学习和强化学习方法实现无人机自主探索导航方法。


技术介绍

1、因为无人机的灵活性、动态性,使得它们可以穿越复杂的环境,从狭窄的室内环境到宽阔的城市、森林,而且无人机的视野更加开阔,可获得更多的数据完成更复杂的任务,例如:物流、搜索、救援救灾等任务。在执行特定任务时,无人机导航智能化要求也逐步提高,无人机需要在更短时间内根据有效的数据安全高效的避开障碍物,并且到达指定点。目前大多数应用中,无人机需要专业的人员进行控制,是一种地面工作站的形式,无法充分发挥无人机的自主性;传统的无人机自主导航方法主要基于环境的先验知识,在完全未知的环境中,无人机的实现效果仍存在很多的不足。

2、由于无人机飞行大多为大规模、复杂、动态场景,传统的无人机自主导航方法主要依赖于模型精度以及对飞行环境的先验知识,需提前构建离线的三维地图,在已知环境所有障碍物信息、有效飞行空间信息的基础上,采用路径搜索算法计算出最优路径,这导致了很大的存储资源和计算资源,带来巨大的成本。无人机在飞行当中受到环境中噪声的影响,并且只能依赖于部分观察,传统方法无法从有限的数据规划出准确路径,这大大降低了无人机在未知环境中的感知能力,并且会限制后续导航规划、避障任务的实现效果。

3、传统的导航规划算法有人工势场法、模糊逻辑法、遗传算法、神经网络、dijkstra算法、蚁群优化算法等。人工势场法通过模仿引力斥力的物体运动,建立引力场斥力场函数进行路径寻优,存在局部最优问题,引力场的设计是算法能否成功应用的关键;模糊逻辑发法根据系统实时的传感器信息通过查表从而实现路径规划,但总结模糊规则困难,无法在多自由度多维空间应用;遗传算法通过模拟达尔文遗传选择和自然淘汰生物进化过程的计算模型,但是运算效率不高;神经网络算法通常为有监督学习算法,但在复杂环境中的导航规划很难用样本准备标注,无法预测样本分布空间效果以外的点,泛化能力差;dijkstra算法以起始点为中心向外层层层扩展,直到扩展到终点为止,但其遍历节点多,效率低,无法运用于大型复杂路径拓扑网络;蚁群优化算法通过迭代来模拟蚁群觅食的行为达到目的,但其计算量大、易陷入局部最优解。这些方法都需要在一个确定的空间内对障碍物进行建模,计算复杂度与机器人自由度呈指数关系,不适合解决多自由度无人机在复杂三维环境中的规划问题。

4、为了弥补传统导航规划方法在多维空间多自由度的不足,深度强化学习方法作为一种与环境进行交互来实现目标的计算方法被引入此任务中。aqeel等人在文章autonomous navigation via deep reinforcementlearning for resource constraintedge nodesusing transfer learning中提出利用深度q网络(dqn)算法以实现无人机在三维障碍物环境下的自主导航,虽然可解决无人机物自主飞行避障问题,但是方法本身并未设计显示的导航目标,因此难以解决要求随机目标的自主导航问题,在实际中难以广泛应用;chao等人在文章deep-reinforcement-learning-based autonomousuav navigationwith sparse rewards中采取稀疏奖励的方式来引导无人机更直接的达成导航的目的,同时引入先验策略给予模型更多的前期指导,但是方法探索能力不足,无人机行为单一,且易陷入局部最优。针对以上问题,深度强化学习soft actor-critic(sac)算法作为一种成功的机器人控制算法被引入到此任务中。sac基于最大熵发展的深度学习算法,在优化策略以获取更高累计收益的同时,也会最大化策略的熵,增加了强化学习算法的探索程度,sac在各种常用的机器人控制任务中性能优秀,表现稳定,具有极强的抗干扰能力。然而,无人机导航任务的环境更加复杂,所做出的决策要求也更加多样,目前sac算法的输入状态单一,无法对多维复杂场景进行充分的感知,并且sac的最大熵决策框架在达到稳态之后会降低学习结果的最优性,影响最终结果。

5、因此本专利技术基于对现有无人机导航规划方法的调查与分析,发现了深度强化学习sac算法在感知能力、决策能力上的不足,极大的限制了无人机在多维场景执行导航任务的要求。基于此动机,我们提出了改进的fd-sac算法,通过设计特征提取模块和决策模块来更加有效的学习到导航规划行为。其中特征提取模块基于深度学习方法设计深度图像和飞行状态特征提取网络(ifc),提高无人机的感知能力,充分利用实时交互获取到的环境数据,提取数据特征保障充足的环境信息的同时,降低环境噪声干扰,实现了对环境的充分感知。决策模块中包含策略网络、动作价值网络、状态价值网络、经验样本池,通过收集飞行的历史经验,允许无人机从成功、失败的结果中广泛学习,提高采样效率,实现了更准确的无人机飞行动作指导。


技术实现思路

1、本专利技术针对在未知环境中无人机自主探索导航任务,基于sac深度强化学习方法,提出fd-sac算法,该算法利用无人机实时飞行过程中交互获取的深度图像和本机飞行状态,实现无人机导航规划。主要的设计模块包括特征提取模块和决策模块,其中特征提取模块利用深度学习方法设计ifc特征提取网络,将实时获取的深度图像和该时刻的飞行状态特征计算融合,输出的特征指导下一步决策过程;决策模块包括策略网络、动作价值网络、状态价值网络、经验样本池,提高自主学习训练效率,提升网络模型决策性能。本专利技术所述方法适用于未知、大规模、复杂、动态环境下的无人机自主探索导航过程。

2、本专利技术的技术方案为:

3、一种基于深度强化学习的无人机自主探索导航方法,包括以下步骤:

4、步骤1、三维仿真场景构建

5、基于airsim仿真平台搭配unreal engine渲染引擎搭建无人机自主探索导航三维仿真环境,然后通过无人机自主探索导航三维仿真环境生成组件来进行每次训练时的环境初始化,以实现强化学习实验过程中的域随机化,验证环境为搭建的城市环境;无人机的控制方式以及传感器信息获取通过airsim的底层api进行通信,通过绑定gym接口进行上层的封装,使得仿真环境和算法层完全脱离;

6、步骤2、特征提取模块

7、为提高无人机感知多维环境的能力,在特征提取模块中设计ifc特征提取网络,输入为无人机在三维仿真环境中获取的深度图像it、飞行动作at、距目标点距离dt,通过ifc特征提取网络进行信息融合,输出为状态st,其中ifc网络由三层卷积层、两层激活函数、一层全局平均池化层以及一层全连层构成:

8、ise=ψ(ω3×3(σ(ω5×5(σ(ω3×3(it))))))

9、

10、其中,ψ代表全局平均池化层,ω3×3代表3×3的卷积,ω5×5代表5×5的卷积,σ代表tanh激活函数,ise代表深度图像it的特征,代表特征相加,ρ代表全连接层;

本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的无人机自主探索导航方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于深度强化学习的无人机自主探索导航方法,其特征在于,所述的经验回放池大小为50000,总训练步数为200000。

【技术特征摘要】

1.一种基于深度强化学习的无人机自主探索导航方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的...

【专利技术属性】
技术研发人员:刘伯凯杨鑫孙传煜李奇崔岩
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1