一种水下自主航行器协同搜索路径规划方法技术

技术编号：40517780 阅读：6 留言：0更新日期：2024-03-01 13:35

本发明专利技术是一种水下自主航行器协同搜索路径规划方法。本发明专利技术涉及水下机器人的路径规划技术领域，本发明专利技术根据任务需求对水下自主航行器与其环境进行建模仿真，使其能够输出航行器的观测值、执行该动作的奖励以及下一时刻的环境状态。本发明专利技术通过运用多智能体强化学习的知识，获取一种水下自主航行器协同搜索路径规划方法。通过本申请提出的策略网络与价值网络，实时规划水下航行器的运动路径，提高航行器协同海洋目标搜索的平均搜索成功率，降低海洋目标搜索的平均搜索时间。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及水下机器人的路径规划，是一种水下自主航行器协同搜索路径规划方法。

技术介绍

1、水下自主航行器是一种可以独立进行水下任务的无人机器人，其特点是具有较高的灵活性和适应性。与传统的有人潜水或有线控制机器人相比，水下自主航行器无需人员直接进入水下环境，可以在更长的时间范围内执行任务，并且可以完成更为复杂和多样化的任务。随着人工智能技术和传感器技术的不断发展，水下自主航行器已经成为海洋科学、资源勘探、海洋环境监测、水下作业等领域中的重要工具。

2、强化学习是一种机器学习方法，其目标是让智能体通过与环境的交互学习如何做出一系列决策，以使累积奖励最大化。在强化学习中，智能体根据环境的反馈不断调整自己的行为，从而逐步学习适应环境并达到既定的目标。

3、强化学习已经在多个领域取得了显著进展，特别是在游戏领域、机器人控制、金融交易等方面有着广泛的应用。近年来，随着深度学习技术的发展，深度强化学习成为强化学习领域的热点，通过结合深度神经网络和强化学习算法，取得了许多惊人的成果。在自主水下航行器目标搜索问题中，多智能体强化学习还没有产生完美的结果。

技术实现思路

1、本专利技术为克服现有技术的不足，本专利技术利用多智能体强化学习实现多航行器搜索路径规划，提高多智能体协同海洋目标搜索的平均搜索成功率，降低海洋目标搜索的平均搜索时间。

2、需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求

3、本专利技术提供了一种水下自主航行器协同搜索路径规划方法，本专利技术提供了以下技术方案：

4、一种水下自主航行器协同搜索路径规划方法，所述方法包括以下步骤：

5、步骤1、根据任务需求对水下自主航行器与其环境进行建模仿真，使其能够输出航行器的观测值、执行该动作的奖励以及下一时刻的环境状态；

6、步骤2、使用策略网络，根据输入的观测值，输出水下自主航行器下一步的期望动作；

7、步骤3、动作输入模型环境中，得到下一时刻的水下自主航行器的观测值以及奖励，并将这一动作保存到经验池中；

8、步骤4、重复步骤2、3直到航行器无法继续航行；

9、步骤5、将经验池中的数据输入到价值网络中进行学习，输出其价值，并优化其价值函数与策略函数；

10、步骤6、重复执行步骤2、3、4、5直至函数收敛；

11、步骤7、根据策略输出最优路径。

12、优选地，所述步骤1具体为：

13、步骤1.1：设置环境的初始特征，主要包括：航行器水下航行的水平面范围与垂直面范围，环境的最大模拟时间，航行器与环境交互的频率，航行器与搜索目标的最小距离，航行器的位置表示方法，定义其动作空间与观察空间；

14、步骤1.2：初始化环境，主要包括自主航行器的数量以及其初始位置、初始运行方向，搜索目标的数量以及相应的位置，重置航行器累计奖励以及航行器运行时间；

15、步骤1.3：返回航行器的当前状态，包括其位置、航行速度、与目标的估计距离。

16、优选地，所述步骤2具体为：

17、每个航行器的动作生成主要包括两个方面，第一个是策略网络根据观测值计算得到航行器的动作，第二个是从状态空间中随机采样产生，两个动作组按照一定的方法产生最终的动作，航行器开始运行时以随机产生的动作为主，经过策略网络训练，航行器的动作以策略网略产生的动作为主；

18、所有航行器的策略网络是由一个rnn网络控制，rnn网络一共包含4层，输入层、中间层、输出层、控制层，输出多个航行器的动作；

19、实现方式如下：

20、

21、

22、

23、

24、其中，i为观测值经过输入层得到的输入，表示输出动作，为航行器的观测值，表示隐藏状态，fc(·)为输入层与输出层，由全连接层构成；rnn(·)为中间层，由神经网络构成；c(·)为控制层，由选择网络构成，，分别是输出动作的下界与上界。

25、优选地，所述步骤3具体为：

26、步骤3.1：将产生的动作输入到环境中，根据步骤1中的模型，产生下一时刻航行器的状态，主要包括位置坐标与航行方向与速度；

27、步骤3.2：根据航行器的当前状态，估计航行器与目标的相对位置距离以及航行方向，根据计算的相对位置判断航行器是否发生碰撞、是否超出航行范围、是否搜寻到目标，进行相应的奖励惩罚；

28、步骤3.3：将环境状态、航行器观测值、航行器动作、执行动作的奖励结果等信息记录在经验池中。

29、优选地，所述步骤4具体为：

30、根据步骤3.2航行器运行后的相对位置，判断航行器航行的次数是否达到预设值，是否发生碰撞、是否超出航行范围、是否搜寻到目标，若均为否，航行器继续航行，执行步骤2；若不均为否，航行器不能继续航行，执行步骤5。

31、优选地，所述步骤5具体为：

32、步骤5.1：从经验池中随机抽取一批动作，根据其记录的状态，运用策略网络，根据经验池中的状态与观测值，生成动作；

33、步骤5.2：将经验池的当前状态生成的动作与下一状态生成的动作输入价值函数中，得到选择价值与目标价值，并其损失计算公式：

34、

35、

36、

37、其中，为每一步的奖励，为学习率，表示目标是否完成任务情况，表示选择价值，表示目标价值，为下一状态情况下获取到的目标值，为时序差分的误差，为损失函数。[a1]

38、优选地，所述步骤6具体为：

39、所述步骤6具体包括：

40、若航行器运动的总步数达到最大值，或策略函数与价值函数已经收敛，停止训练，保存模型，否则执行步骤2。

41、一种基于多智能体强化学习的水下自主航行器协同搜索路径规划系统，所述系统包括：

42、仿真模块，所述仿真模块根据任务需求对水下自主航行器与其环境进行建模仿真，使其能够输出航行器的观测值、执行该动作的奖励以及下一时刻的环境状态；

43、网络模块，所述网络模块使用策略网络，根据输入的观测值，输出水下自主航行器下一步的期望动作；

44、观测模块，所述观测模块动作输入模型环境中，得到下一时刻的水下自主航行器的观测值以及奖励，并将这一动作保存到经验池中；直到航行器无法继续航行；

45、优化模块，所述优化模块将经验池中的数据输入到价值网络中进行学习，输出其价值，并优化其价值函数与策略函数；...

【技术保护点】

1.一种水下自主航行器协同搜索路径规划方法，其特征是：所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征是：所述步骤1具体为：

3.根据权利要求2所述的方法，其特征是：所述步骤2具体为：

4.根据权利要求3所述的方法，其特征是：所述步骤3具体为：

5.根据权利要求4所述的方法，其特征是：所述步骤4具体为：

6.根据权利要求5所述的方法，其特征是：所述步骤5具体为：

7.根据权利要求6所述的方法，其特征是：所述步骤6具体为：

8.一种基于多智能体强化学习的水下自主航行器协同搜索路径规划系统，其特征是：所述系统包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-7任意一项权利要求所述的方法。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征是：所述处理器执行所述计算机程序时实现权利要求1-7任意一项权利要求所述的方法。

【技术特征摘要】

1.一种水下自主航行器协同搜索路径规划方法，其特征是：所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征是：所述步骤1具体为：

3.根据权利要求2所述的方法，其特征是：所述步骤2具体为：

4.根据权利要求3所述的方法，其特征是：所述步骤3具体为：

5.根据权利要求4所述的方法，其特征是：所述步骤4具体为：

6.根据权利要求5所述的方法，其特征是：所述步骤5具体为：

7.根据权利要求...

【专利技术属性】
技术研发人员：姜宇，齐红，徐岳龙，张凯欣，赵明浩，王凯，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人