一种飞行器的避障方法及系统技术方案

技术编号:33142927 阅读:12 留言:0更新日期:2022-04-22 13:53
本发明专利技术涉及一种飞行器的避障方法及系统,首先基于障碍物信息、飞行器信息和目标信息得到系统状态、躲避奖励函数和驶向奖励函数;其次基于所述系统状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络;最后基于训练好的所述路径规划神经网络实现飞行的最优路径规划。本发明专利技术实现了飞行器在连续的状态、动作空间下的不确定环境中的路径规划是的飞行器能准确迅速地躲避静态和动态障碍物,到达目标点。点。点。

【技术实现步骤摘要】
一种飞行器的避障方法及系统


[0001]本专利技术涉及飞行器
,特别是涉及一种飞行器的避障方法及系统。

技术介绍

[0002]不确定环境下的动态避障航路规划是飞行器控制中的难点问题,基于已知环境信息的传统路径规划算法不能适应未知的复杂环境,无法对飞行器的飞行路径进行有效的规划,而现有的基于强化学习的路径规划算法难以处理庞大的状态空间,亦无法取得较好的求解效果。

技术实现思路

[0003]有鉴于此,本专利技术提供了一种飞行器的避障方法及系统,通过对飞行器路径的有效规划,以使飞行器在不确定环境中准确迅速地躲避静态和动态障碍物,安全达到目标点。
[0004]为实现上述目的,本专利技术提供了如下方案:
[0005]一种飞行器的避障方法,包括:
[0006]基于障碍物信息、飞行器信息和目标信息得到系统状态、躲避奖励函数和驶向奖励函数;
[0007]基于所述系统状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络;
[0008]基于训练好的所述路径规划神经网络实现飞行的最优路径规划。
[0009]优选地,所述基于障碍物信息、飞行器信息和目标信息得到系统状态、躲避奖励函数和驶向奖励函数,包括:
[0010]基于障碍物的位置数据与飞行器的位置数据得到初始躲避奖励函数;对所述初始躲避奖励函数进行模糊化,得到所述躲避奖励函数;
[0011]基于所述飞行器的位置数据和所述目标位置信息得到初始驶向奖励函数,对所述初始驶向奖励函数进行模糊化,得到所述驶向奖励函数;
[0012]基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角,得到所述系统状态;所述障碍物信息包括所述障碍物的位置数据、速度数据和航向角;所述飞行器信息包括所述飞行器位置数据、速度数据和航向角。
[0013]优选地,所述基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角,得到所述系统状态,包括:
[0014]对每个所述障碍物均执行下述过程,得到每个所述障碍物的编码数据,将每个所述障碍物的编码数据与所述飞行器信息进行整合,得到所述系统状态;
[0015]基于所述飞行器位置数据和速度数据以及所述障碍物的位置数据和速度数据,建立障碍锥,并得到所述飞行器与所述障碍物之间的位置矢量和相对速度矢量,进一步得到相对速度矢量与位置矢量之间的夹角和障碍锥的半顶角;
[0016]对所述夹角与所述半顶角进行比较,若所述夹角大于所述半顶角,则舍弃所述障
碍物信息;若所述夹角小于或等于所述半顶角,则获取所述飞行器相对于所述障碍物的最优避障方向,将所述最优避障方向以及所述障碍物的位置数据、速度数据和航向角进行编码,得到所述障碍物的编码数据。
[0017]优选地,所述基于所述系统状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络,包括:
[0018]将所述系统状态输入所述路径规划神经网络,得到避障动作;
[0019]获取所述飞行器执行所述避障动作后的状态空间;
[0020]基于所述目标信息、所述躲避奖励函数和所述驶向奖励函数,得到飞行器执行所述避障动作后的躲避奖励值和驶向奖励值;
[0021]基于所述躲避奖励值和驶向奖励值判断是否达到设定需求,若达到,则训练结束,得到训练好的所述路径规划神经网络;若没有达到,则基于所述状态空间、所述躲避奖励值和所述驶向奖励值对所述路径规划神经网络进行优化,得到优化后的所述路径规划神经网络,并将优化后的所述路径规划神经网络替换所述路径规划神经网络,返回至“将所述系统状态输入所述路径规划神经网络,得到避障动作”。
[0022]本专利技术还提供了一种飞行器的避障系统,包括:
[0023]奖励模块,基于障碍物信息、飞行器信息和目标信息得到系统状态、躲避奖励函数和驶向奖励函数;
[0024]训练模块,基于所述系统状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络;
[0025]路径模块,基于训练好的所述路径规划神经网络实现飞行的最优路径规划。
[0026]优选地,所述奖励模块包括:
[0027]躲避奖励单元,基于障碍物的位置数据与飞行器的位置数据得到初始躲避奖励函数;对所述初始躲避奖励函数进行模糊化,得到所述躲避奖励函数;
[0028]驶向奖励单元,基于所述飞行器的位置数据和所述目标位置信息得到初始驶向奖励函数,对所述初始驶向奖励函数进行模糊化,得到所述驶向奖励函数;
[0029]状态单元,基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角,得到所述系统状态;所述障碍物信息包括所述障碍物的位置数据、速度数据和航向角;所述飞行器信息包括所述飞行器位置数据、速度数据和航向角。
[0030]优选地,所述状态单元包括:
[0031]执行子单元,对每个所述障碍物均执行角度子单元和判断子单元,得到每个所述障碍物的编码数据,将每个所述障碍物的编码数据与所述飞行器信息进行整合,得到所述系统状态;
[0032]所述角度子单元基于所述飞行器位置数据和速度数据以及所述障碍物的位置数据和速度数据,建立障碍锥,并得到所述飞行器与所述障碍物之间的位置矢量和相对速度矢量,进一步得到相对速度矢量与位置矢量之间的夹角和障碍锥的半顶角;
[0033]所述判断子单元对所述夹角与所述半顶角进行比较,若所述夹角大于所述半顶角,则舍弃所述障碍物信息;若所述夹角小于或等于所述半顶角,则获取所述飞行器相对于所述障碍物的最优避障方向,将所述最优避障方向以及所述障碍物的位置数据、速度数据和航向角进行编码,得到所述障碍物的编码数据。
[0034]优选地,所述训练模块包括:
[0035]输入单元,将所述系统状态输入所述路径规划神经网络,得到避障动作;
[0036]空间单元,获取所述飞行器执行所述避障动作后的状态空间;
[0037]奖励值单元,基于所述目标信息、所述躲避奖励函数和所述驶向奖励函数,得到飞行器执行所述避障动作后的躲避奖励值和驶向奖励值;
[0038]判断单元,基于所述躲避奖励值和驶向奖励值判断是否达到设定需求,若达到,则训练结束,得到训练好的所述路径规划神经网络;若没有达到,则基于所述状态空间、所述躲避奖励值和所述驶向奖励值对所述路径规划神经网络进行优化,得到优化后的所述路径规划神经网络,并将优化后的所述路径规划神经网络替换所述路径规划神经网络,返回至所述输入单元。
[0039]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0040]本专利技术涉及一种飞行器的避障方法及系统,首先基于障碍物信息、飞行器信息和目标信息得到系统状态、躲避奖励函数和驶向奖励函数;其次基于所述系统状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种飞行器的避障方法,其特征在于,包括:基于障碍物信息、飞行器信息和目标信息得到系统状态、躲避奖励函数和驶向奖励函数;基于所述系统状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络;基于训练好的所述路径规划神经网络实现飞行的最优路径规划。2.根据权利要求1所述的飞行器的避障方法,其特征在于,所述基于障碍物信息、飞行器信息和目标信息得到系统状态、躲避奖励函数和驶向奖励函数,包括:基于障碍物的位置数据与飞行器的位置数据得到初始躲避奖励函数;对所述初始躲避奖励函数进行模糊化,得到所述躲避奖励函数;基于所述飞行器的位置数据和所述目标位置信息得到初始驶向奖励函数,对所述初始驶向奖励函数进行模糊化,得到所述驶向奖励函数;基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角,得到所述系统状态;所述障碍物信息包括所述障碍物的位置数据、速度数据和航向角;所述飞行器信息包括所述飞行器位置数据、速度数据和航向角。3.根据权利要求2所述的飞行器的避障方法,其特征在于,所述基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角,得到所述系统状态,包括:对每个所述障碍物均执行下述过程,得到每个所述障碍物的编码数据,将每个所述障碍物的编码数据与所述飞行器信息进行整合,得到所述系统状态;基于所述飞行器位置数据和速度数据以及所述障碍物的位置数据和速度数据,建立障碍锥,并得到所述飞行器与所述障碍物之间的位置矢量和相对速度矢量,进一步得到相对速度矢量与位置矢量之间的夹角和障碍锥的半顶角;对所述夹角与所述半顶角进行比较,若所述夹角大于所述半顶角,则舍弃所述障碍物信息;若所述夹角小于或等于所述半顶角,则获取所述飞行器相对于所述障碍物的最优避障方向,将所述最优避障方向以及所述障碍物的位置数据、速度数据和航向角进行编码,得到所述障碍物的编码数据。4.根据权利要求2所述的飞行器的避障方法,其特征在于,所述基于所述系统状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络,包括:将所述系统状态输入所述路径规划神经网络,得到避障动作;获取所述飞行器执行所述避障动作后的状态空间;基于所述目标信息、所述躲避奖励函数和所述驶向奖励函数,得到飞行器执行所述避障动作后的躲避奖励值和驶向奖励值;基于所述躲避奖励值和驶向奖励值判断是否达到设定需求,若达到,则训练结束,得到训练好的所述路径规划神经网络;若没有达到,则基于所述状态空间、所述躲避奖励值和所述驶向奖励值对所述路径规划神经网络进行优化,得到优化后的所述路径规划神经网络,并将优化后的所述路径规划神经网络替换所述路径规划神经网络,返回至...

【专利技术属性】
技术研发人员:杨秀霞张毅高恒杰杨林陆巍巍褚政王宏于浩姜子劼王晨蕾
申请(专利权)人:中国人民解放军海军航空大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1