【技术实现步骤摘要】
一种基于迁移学习的无人机自主导航方法
本专利技术属于飞行器
,具体是一种基于迁移学习的无人机自主导航方法。
技术介绍
目前随着物流、交通、救援以及侦察等领域的需求不断增大,与无人机相关的技术也越来越多地受到了来自学术界工业界的关注。在各种各样的无人机技术中,自主导航是其中最底层的技术,同时也是最为核心的技术。实现无人机自主导航最常见的是将感知避障与路径规划相结合的方法,该方法的基本思想非常朴素,就是首先根据一个粗略的地图进行路径规划,然后沿着路径进行移动,在移动路径上检测到障碍物后,移向没有障碍物的方向。在确定当前环境安全后,重新使用路径规划,规划一条新的路线。在面对复杂环境时,路径重规划的计算代价就会过大。与此同时,该方法无法面对动态障碍物。以上便是传统方法在面对自主导航问题时所暴露出来的缺点。另外一种常见的无人机自主导航的方法是:即时定位与地图重建(SLAM)技术,这一方法不仅在学术界有着亮眼的表现,在工业界也是吸引着大量研究者的目光。该方法指的是智能体在未知环境下,根据传感器所获得环境数据进行自身的定位,再计算重建出当前的地图,最后利用地图进行路径规划。SLAM技术相比于前一种方法而言,稳定性和对未知环境的适应性都有了很大的提升,但它也有自身的缺陷。首先是SLAM技术在面对复杂环境时也会伴随着导航效果的下降,因为环境复杂意味着构建地图的难度也会很大。其次是该方法对传感器以及其他元器件的要求很高,因为构建地图的精度很大程度上取决于元器件所获得的数据质量。如果传感器等元件的精度和稳定性不够,那
【技术保护点】
1.一种基于迁移学习的无人机自主导航方法,其特征在于,具体步骤如下:/n步骤一,依据无人机实际任务场景设计虚拟训练环境,从虚拟训练环境中实时采样得到原始图片S;/n原始图片S中所包含的像素点的信息代表当前t时刻的环境信息s
【技术特征摘要】 【专利技术属性】
1.一种基于迁移学习的无人机自主导航方法,其特征在于,具体步骤如下:
步骤一,依据无人机实际任务场景设计虚拟训练环境,从虚拟训练环境中实时采样得到原始图片S;
原始图片S中所包含的像素点的信息代表当前t时刻的环境信息st;
步骤二、将原始图片S转化为对应的深度图D,从深度图D中提取虚拟无人机与障碍物的距离信息dt;
步骤三、将环境信息st以及距离信息dt传递给确定性策略梯度神经网络,对确定性策略梯度神经网络进行训练;
确定性策略梯度神经网络包括卷积神经网络、动作网络μ、评价网络Q、目标评价网络Q′、目标动作网络μ′、计算奖励网络R和经验回放池;
对确定性策略梯度神经网络进行训练,具体流程如下:
步骤301.初始化虚拟自主导航任务的起点与终点,对评价网络Q和动作网络μ进行网络参数的初始化,分别记为θQ和θμ;再对目标评价网络Q′和目标动作网络μ′进行网络参数的初始化,分别记为θQ′和θμ′;初始时刻令θQ′=θQ,θμ′=θμ;清空经验回放池;
步骤302.卷积神经网络对环境信息st进行特征提取,得到表征当前状态空间的特征向量φt,并传递给动作网络μ以及经验回放池;同时计算奖励网络R利用距离信息dt得到奖励rt,并传递给经验回放池;
奖励rt的计算如下:
其中,δ是反映无人机到终点的趋向性参数,α和β是反映障碍物对无人机的威胁性参数,δ,α,β均为大于零的常数;ddist代表训练环境下当前虚拟无人机到终点位置的直线距离;
步骤303.动作网络μ利用特征向量φt产生新的动作at并传递给虚拟无人机,同时传递给经验回放池;
步骤304.虚拟无人机做出at的对应动作使虚拟环境发生改变,采集新的图片作为下一时刻的环境信息st+1,并传递给卷积神经网络;
步骤305、卷积神经网络对环境信息st+1进行特征提取,得到t+1时刻的特征向量φt+1,传递给经验回放池;
步骤306.将上述<φt,at,rt,φt+1>构成四元组存入经验回放池中,将环境信息st+1作为当前环境信息返回步骤302,直至经验回放池存储的四元组数大于等于采样数N;
步骤307.从经验回放池中随机选取第i组四元组<φi,ai,ri,φi+1>(i={1,2,...,N}),利用目标评价网络Q′和目标动作网络μ′计算出该四元组对应的Q函数估计值yi:
yi=ri+γQ′(φi+1,μ′(φi+1丨θμ′)丨θQ′)
其中,γ为折扣率;
步骤308.利用每个四元组对应的Q函数估计值求梯度最小化损失函数,对评价网络Q进行网络参数θQ的更新;
损失函数L为:
对损失函数L求梯度有:
技术研发人员:李宇萌,张晋通,杜文博,曹先彬,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。