System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及水下机器人,具体涉及一种基于深度强化学习的水下消杀机器人路径规划算法。
技术介绍
1、水下机器人是海洋探测的重要手段,如何安全高效地在复杂地水下环境中规划行进路径也是水下机器人领域一直以在致力于研究的问题。在最近的一二十年,伴随着各国对于海洋资源开发利用的重视,水下机器人已经被越来越多地应用于水下目标检测、水下抓取、水下消杀等各项水下作业任务中。深度强化学习与水下路径规划相结合,逐步发展出面向水下消杀机器人的水下路径规划算法。
2、路径规划是水下消杀机器人在执行任务最重要的部分之一,作为水下消杀机器人执行任务的基础。由于水下于陆地的环境差异,水下路径规划于陆地上的路径规划差别很大,其中的一大难点就是如何处理水下复杂的情况。由于水下作业的特殊性,一个优良的路径规划算法可以保证水下航行的效率与安全。
3、对于路径规划问题,国内外的研究者做了大量的工作,现有的路径规划算法包括dijkstra算法、floyd算法等传统的路径规划算法,也包括模拟退火、a*等启发式路径规划算法。而随着科技的不断发展,路径规划中需要考虑的因素愈发增多,对于路径规划算法具备应对复杂环境的能力,但传统的路径规划算法能力较弱,因此不适用于水下环境中机器人的路径规划问题。
4、深度学习于强化学习均是机器学习中的算法,由于其重要的理论与现实意义,一直都是机器学习领域研究的热点问题。
5、强化学习是基于马尔可夫决策过程的问题求解模型,在强化学习模型中,有环境与智能体两个基本概念。智能体就是能够做出动作的物体,
6、rt=rt+1+γrt+2+γ2rt+3+γ3rt+4+…
7、其中γ(0≤γ≤1)为折扣因子,γ的取值决定了整个模型考虑后续影响的重要程度。当γ为0时表面模型不关注后续收益,只注重下一步的收益。而当γ为1时,表面模型中后面的每一步收益与下一步同等重要。
8、强化学习虽然有着优秀的问题求解能力,但当环境情况变得复杂时,强化学习模型所需要的计算量也会随之大大增加,使得传统的强化学习算法变得难以计算。深度强化学习结合了深度学习与强化学习的特点,利用深度学习来拟合强化学习中的决策函数,将复杂的高维模型用神经网络替代,极大地减少了所需计算量。
技术实现思路
1、针对水下复杂环境中的水下消杀机器人路径规划问题,本专利技术提出了一种基于深度强化学习的水下消杀机器人路径规划算法。基于强化学习中的dqn算法,针对水下复杂的环境设计深度强化学习模型,在对于环境信息较少依赖的条件下实现水下消杀机器人的路径规划,具有响应快、鲁棒性强的特点。
2、具体步骤如下:
3、步骤一、建立水下仿真环境;对于已知的水下环境,建立三维仿真模型,模型包含了水下的固定障碍物与有可能出现的突发状况。
4、步骤二、设计深度强化学习模型;针对水下消杀机器人路径规划设计深度强化学习模型,模型包括环境、预测网络、目标网络、反馈函数、损失函数、经验回放单元六个部分。
5、步骤三、训练深度强化学习模型;在水下仿真环境中训练深度强化学习模型。
6、步骤四、在真实水下环境中训改进度强化学习模型;将训练好的深度强化学习网络写入水下消杀机器人的控制程序中,并在真实的水下环境中根据实际情况改进深度强化学习网络。
本文档来自技高网...【技术保护点】
1.一种基于深度强化学习的水下消杀机器人路径规划算法,其特征在于,具体步骤如下:
2.根据权利要求1所述的一种基于深度强化学习的水下仿真环境,其特征在于,所述方法包括:
3.根据权利要求1所述的一种基于深度强化学习的深度强化学习模型,其特征在于,所述方法包括:
4.根据权利要求1所述的训练深度强化学习模型方法,其特征在于,所述方法包括:
5.根据权利要求1所述的在真实水下环境中训改进度强化学习模型方法,其特征在于,所述方法包括:
【技术特征摘要】
1.一种基于深度强化学习的水下消杀机器人路径规划算法,其特征在于,具体步骤如下:
2.根据权利要求1所述的一种基于深度强化学习的水下仿真环境,其特征在于,所述方法包括:
3.根据权利要求1所述的一种基于深度强化学习的...
【专利技术属性】
技术研发人员:李兆伦,罗笑南,徐颂华,陈瑞爱,
申请(专利权)人:岭南现代农业科学与技术广东省实验室肇庆分中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。