本发明专利技术属于无人艇导航技术领域,具体涉及一种基于模糊集和深度强化学习的自适应无人艇路径规划方法;包括生成障碍物环境并记录信息,包括障碍物的位置和目标点的位置;构建无人艇模糊控制的模糊规则;在无人艇航行的过程中,实时计算无人艇分别相对于障碍物、目标点的距离,以及无人艇的偏航角;将实时计算的结果采用无人艇模糊规则处理输出模糊系数;深度强化学习中的奖励函数根据模糊系数对无人艇进行自适应奖励;根据无人艇在不同状态下的自适应奖励对无人艇路径规划模型进行训练;采用训练好的无人艇路径规划模型自主规划出最优路径;本发明专利技术实现了无人艇路径规划,保证了无人艇的安全,提高了无人艇执行任务的效率。提高了无人艇执行任务的效率。提高了无人艇执行任务的效率。
【技术实现步骤摘要】
一种基于模糊集和深度强化学习的自适应无人艇路径规划方法
[0001]本专利技术属于无人艇导航
,具体涉及一种基于模糊集和深度强化学习的自适应无人艇路径规划方法。
技术介绍
[0002]无人艇的研究始于20世纪末,在海洋的资源的开发与探索中,无人艇凭借其体积小、高机动性、无人员伤亡等优势,在海洋环境监测、海面搜救、海洋巡逻等领域具有良好的发展空间与前景,迄今为止无人艇技术仍然是重要研究方向。然而由于海面环境的变幻莫测以及航行环境的日渐复杂,提高无人艇的自主航行能力具有重要的现实意义。为了确保无人艇快速、安全的抵达任务点完成预定任务,路径规划是保障无人艇自主智能的关键技术。
[0003]路径规划是自主智能航行中的决策环节,目的是建立一条从起始点到目标点的最优路径,在满足无人艇花费代价最小的前提下,同时保证路径的安全性。目前,传统的路径规划算法有从图论中求解最短路径的Dijkstra算法扩展而来的A*算法及A*的变体算法以及一些智能优化算法,如:遗传算法、蚁群算法、模拟退火算法、粒子群算法以及算法之间的组合优化算法。然而这些传统算法过于依赖环境模型和全局环境信息,在应用场景上存在很大的局限性。复杂而多变的海洋环境,要求无人艇拥有自主学习的能力。
[0004]强化学习是机器学习的一个重要领域,强调智能体通过与环境进行交互以取得最大化奖励,其旨在用于解决决策问题,尤其是连续决策问题。无人艇的路径规划问题也可以看作是一种连续决策问题,在不同的状态下做出当前最优的航行动作。目前,深度强化学习是近年来人工智能领域备受关注的方向之一,将深度学习的感知能力和强化学习的决策能力相结合,直接通过高维感知输入来控制智能体的行为。在强化学习中,智能体仅仅通过和环境交互得到的奖励信号衡量其在某一时刻动作的好坏,通过奖励信号的反馈不断优化智能体的决策从而最大化目标的预期收益。因此在深度强化学习中,奖励函数的设计直接影响到模型的训练。
[0005]路径规划任务中,奖励函数的设计天然会遇到稀疏奖励问题。智能体只有在到达目标点得到正奖励,在到达边界或者与障碍物发生碰撞时得到负奖励,正常航行状态由于会消耗能量,也得到负奖励。智能体在交互中无法得到足够多的正奖励导致学习缓慢甚至无法进行学习。现如今,大部分基于深度强化学习的无人艇路径规划中采用无人艇与目标点的距离取反作为奖励函数,然而这种奖励函数导致算法收敛速度慢,训练周期长,甚至学习到错误的决策。因此需要合理设计奖励函数以获得最优路径决策。如果根据不同时刻的不同状态自适应地给予智能体相应的奖励,再通过奖励信号对网络参数进行优化,则能够提高模型的决策能力,获得最优的路径决策。
技术实现思路
[0006]为解决上述问题,本专利技术提供了一种基于模糊集和深度强化学习的自适应无人艇路径规划方法,包括以下步骤:
[0007]S1.生成用于无人艇训练的障碍物环境并记录该障碍物环境信息,包括障碍物的位置和目标点的位置;
[0008]S2.引入模糊逻辑构建无人艇模糊规则,采用隶属度函数描述无人艇与障碍物、目标点的距离以及无人艇的偏航角;
[0009]S3.在无人艇航行的过程中,实时计算无人艇分别相对于障碍物、目标点的距离,以及无人艇的偏航角;
[0010]S4.将步骤S3中实时计算的结果采用无人艇模糊规则进行处理,实时输出位于区间[0,1]的模糊系数;
[0011]S5.设计无人艇奖励函数,无人艇奖励函数根据模糊系数对无人艇进行自适应奖励;
[0012]S6.基于深度强化学习构建无人艇路径规划模型,根据无人艇在不同状态下的自适应奖励对无人艇路径规划模型进行训练;采用训练好的无人艇路径规划模型自主规划出最优路径。
[0013]进一步的,采用Python的图形化界面模块Tkinter随机生成障碍物环境,所述障碍物环境中的障碍物数量也是随机的。
[0014]进一步的,无人艇模糊规则包括障碍物模糊规则和目标模糊规则,具体为:
[0015]获取无人艇与障碍物之间的距离、无人艇与目标点之间的距离以及无人艇的偏航角,将无人艇与障碍物之间的距离以及无人艇的偏航角作为障碍物模糊规则的输入变量,将无人艇与目标点之间的距离以及无人艇的偏航角作为目标模糊规则的输入变量,障碍物模糊规则和目标模糊规则的输出变量分别为惩罚模糊系数和奖励模糊系数;
[0016]障碍物模糊规则:将输入变量模糊化,即将无人艇与障碍物之间的距离大小分为5段,BVN表示与障碍物的距离非常近,BN表示与障碍物的距离近,BA表示与障碍物的距离适中,BF表示与障碍物的距离远,BVF表示与障碍物的距离非常远;将无人艇的偏航角大小分为5段,NRB表示偏右大角度,NRS表示偏右小角度,Z表示零,PLS表示偏左小角度,PLB表示偏左大角度;将输出变量惩罚模糊系数分为5段,PVS表示惩罚模糊系数非常小,PS表示惩罚模糊系数小,PM表示惩罚模糊系数中等,PB表示惩罚模糊系数大,PVB表示惩罚模糊系数非常大,建立25条惩罚模糊规则;无人艇与障碍物之间的距离越近,且无人艇的偏航角越小,则惩罚模糊系数越大;无人艇与障碍物之间的距离越远,且无人艇的偏航角越大,则惩罚模糊系数越小;
[0017]目标模糊规则:将输入变量模糊化,即将无人艇与目标点之间的距离大小分为5段,TVN表示与目标点的距离非常近,TN表示与目标点的距离近,TA表示与目标点的距离适中,TF表示与目标点的距离远,TVF表示与目标点的距离非常远;无人艇的偏航角大小分为5段,与障碍物模糊规则的划分方式相同,NRB表示偏右大角度,NRS表示偏右小角度,Z表示零,PLS表示偏左小角度,PLB表示偏左大角度;将输出变量奖励模糊系数分为5段,RVS表示奖励模糊系数非常小,RS表示奖励模糊系数小,RM表示奖励模糊系数中等,RB表示奖励模糊系数大,RVB表示奖励非常大,建立25条奖励模糊规则;无人艇与目标点之间的距离越近,且
无人艇的偏航角越小,则奖励模糊系数越大;无人艇与目标点之间的距离越远,且无人艇的偏航角越大,则奖励模糊系数减小。
[0018]进一步的,奖励函数包括正常航行、障碍物规避和到达目标点三个部分,正常航行表示无人艇的探测范围内没有障碍物,正常航行的奖励函数R
n
表示为:
[0019][0020]其中;ρ
goal
表示将无人艇和目标点当前时刻的距离、无人艇当前时刻的偏航角输入模糊逻辑控制器得到的目标点模糊系数,d
goal
表示无人艇与目标点当前时刻的距离,d
max
表示无人艇的初始位置与目标点的距离;
[0021]障碍物规避表示无人艇的探测范围内有障碍物,障碍物规避的奖励函数R
c
表示为:
[0022][0023]其中,ρ
obs
表示将无人艇和障碍物当前时刻的距离、无人艇当前时刻的偏航角输入模糊逻辑控制器得到的障碍物模糊系数,r
det
表示探测范围的最大半径,d
obs
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于模糊集和深度强化学习的自适应无人艇路径规划方法,其特征在于,包括以下步骤:S1.生成用于无人艇训练的障碍物环境并记录该障碍物环境信息,包括障碍物的位置和目标点的位置;S2.引入模糊逻辑构建无人艇模糊规则,采用隶属度函数描述无人艇与障碍物、目标点的距离以及无人艇的偏航角;S3.在无人艇航行的过程中,实时计算无人艇分别相对于障碍物、目标点的距离,以及无人艇的偏航角;S4.将步骤S3中实时计算的结果采用无人艇模糊规则进行处理,实时输出位于区间[0,1]的模糊系数;S5.设计无人艇奖励函数,无人艇奖励函数根据模糊系数对无人艇进行自适应奖励;S6.基于深度强化学习构建无人艇路径规划模型,根据无人艇在不同状态下的自适应奖励对无人艇路径规划模型进行训练;采用训练好的无人艇路径规划模型自主规划出最优路径。2.根据权利要求1所述的一种基于模糊集和深度强化学习的自适应无人艇路径规划方法,其特征在于,采用Python的图形化界面模块Tkinter随机生成障碍物环境,所述障碍物环境中的障碍物数量也是随机的。3.根据权利要求1所述的一种基于模糊集和深度强化学习的自适应无人艇路径规划方法,其特征在于,无人艇模糊规则包括障碍物模糊规则和目标模糊规则,具体为:获取无人艇与障碍物之间的距离、无人艇与目标点之间的距离以及无人艇的偏航角,将无人艇与障碍物之间的距离以及无人艇的偏航角作为障碍物模糊规则的输入变量,将无人艇与目标点之间的距离以及无人艇的偏航角作为目标模糊规则的输入变量,障碍物模糊规则和目标模糊规则的输出变量分别为惩罚模糊系数和奖励模糊系数;障碍物模糊规则:将输入变量模糊化,即将无人艇与障碍物之间的距离大小分为5段,BVN表示与障碍物的距离非常近,BN表示与障碍物的距离近,BA表示与障碍物的距离适中,BF表示与障碍物的距离远,BVF表示与障碍物的距离非常远;将无人艇的偏航角大小分为5段,NRB表示偏右大角度,NRS表示偏右小角度,Z表示零,PLS表示偏左小角度,PLB表示偏左大角度;将输出变量惩罚模糊系数分为5段,PVS表示惩罚模糊系数非常小,PS表示惩罚模糊系数小,PM表示惩罚模糊系数中等,PB表示惩罚模糊系数大,PVB表示惩罚模糊系数非常大,建立25条惩罚模糊规则;无人艇与障碍物之间的距离越近,且无人艇的偏航角越小,则惩罚模糊系数越大;无人艇与障碍物之间的距离越远,且无人艇的偏航角越大,则惩罚模糊系数越小...
【专利技术属性】
技术研发人员:王国胤,段振华,刘群,石岩,邹贵银,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。