一种基于迁移学习的无人机自主导航方法技术

技术编号:28417995 阅读:13 留言:0更新日期:2021-05-11 18:24
本发明专利技术公开了一种基于迁移学习的无人机自主导航方法,属于飞行器技术领域。首先依据实际任务场景设计虚拟训练环境,并采样得到原始图片S;原始图片S中所包含的像素点的信息为t时刻的环境信息s

【技术实现步骤摘要】
一种基于迁移学习的无人机自主导航方法
本专利技术属于飞行器
,具体是一种基于迁移学习的无人机自主导航方法。
技术介绍
目前随着物流、交通、救援以及侦察等领域的需求不断增大,与无人机相关的技术也越来越多地受到了来自学术界工业界的关注。在各种各样的无人机技术中,自主导航是其中最底层的技术,同时也是最为核心的技术。实现无人机自主导航最常见的是将感知避障与路径规划相结合的方法,该方法的基本思想非常朴素,就是首先根据一个粗略的地图进行路径规划,然后沿着路径进行移动,在移动路径上检测到障碍物后,移向没有障碍物的方向。在确定当前环境安全后,重新使用路径规划,规划一条新的路线。在面对复杂环境时,路径重规划的计算代价就会过大。与此同时,该方法无法面对动态障碍物。以上便是传统方法在面对自主导航问题时所暴露出来的缺点。另外一种常见的无人机自主导航的方法是:即时定位与地图重建(SLAM)技术,这一方法不仅在学术界有着亮眼的表现,在工业界也是吸引着大量研究者的目光。该方法指的是智能体在未知环境下,根据传感器所获得环境数据进行自身的定位,再计算重建出当前的地图,最后利用地图进行路径规划。SLAM技术相比于前一种方法而言,稳定性和对未知环境的适应性都有了很大的提升,但它也有自身的缺陷。首先是SLAM技术在面对复杂环境时也会伴随着导航效果的下降,因为环境复杂意味着构建地图的难度也会很大。其次是该方法对传感器以及其他元器件的要求很高,因为构建地图的精度很大程度上取决于元器件所获得的数据质量。如果传感器等元件的精度和稳定性不够,那么SLAM技术的导航效果就很差。而具有良好精度的传感器也常常伴随着极高的价格,这就给该技术的实际应用带来了困难。最近随着人工智能领域的日益火爆,强化学习作为该领域的一个分支,也受到了大量的关注。传统强化学习的方法可以使得智能体在与环境不断交互,不断试错的过程中提升智能体解决某一问题的能力。但在解决导航问题的过程中,传统强化学习方法往往会遇到维数灾难的问题,因为强化学习模型的原始输入很有可能是摄像机捕捉到的无人机周围的RGB图像,又或者是在输出动作时需要包含水平角、俯仰角以及速度等高维连续信息。在高维空间下应用传统强化学习的方法就是会面临巨大的计算压力。与此同时,如果直接在真实环境下应用强化学习的方法,智能体需要自己学会如何从起点飞行到终点。这个过程中,智能体是需要不断试错并学习的,因此无人机难免会和周围真实存在的障碍物发生碰撞。而无人机是很脆弱的,并且小型无人机造价也不便宜,这就导致了真实环境下强化学习的训练过程会给研究人员带来不小的经济负担。
技术实现思路
考虑到现有技术中无人机自主导航的精准性和智能程度较低的缺点,本专利技术提供了一种基于迁移学习的无人机自主导航方法,来提高无人机自主导航的精准性和智能程度。所述基于迁移学习的无人机自主导航方法,具体步骤如下:步骤一、依据无人机实际任务场景设计虚拟训练环境,从虚拟训练环境中实时采样得到原始图片S;所述的虚拟训练环境包括虚拟的城市环境、森林环境和室内环境等。原始图片S中所包含的像素点的信息代表当前t时刻的环境信息st。步骤二、将原始图片S转化为对应的深度图D,从深度图D中提取虚拟无人机与障碍物的距离信息dt。步骤三、将环境信息st以及距离信息dt传递给确定性策略梯度神经网络,对确定性策略梯度神经网络进行训练;确定性策略梯度神经网络包括卷积神经网络、动作网络μ、评价网络Q、目标评价网络Q′、目标动作网络μ′、计算奖励网络R和经验回放池。确定性策略梯度神经网络训练的具体流程如下:步骤301.初始化虚拟自主导航任务的起点与终点,对评价网络Q和动作网络μ进行网络参数的初始化,分别记为θQ和θμ;再对目标评价网络Q′和目标动作网络μ′进行网络参数的初始化,分别记为θQ′和θμ′;初始时刻令θQ′=θQ,θμ′=θμ;清空经验回放池。步骤302.卷积神经网络对环境信息st进行特征提取,得到表征当前状态空间的特征向量φt,并传递给动作网络μ以及经验回放池;同时计算奖励网络R利用距离信息dt得到奖励rt,并传递给经验回放池。奖励rt的计算如下:其中,δ是反映无人机到终点的趋向性参数,α和β是反映障碍物对无人机的威胁性参数,δ,α,β均为大于零的常数;ddist代表训练环境下当前虚拟无人机到终点位置的直线距离。步骤303.动作网络μ利用特征向量φt产生新的动作at并传递给虚拟无人机,同时传递给经验回放池;at=μ(φt|θu)+Nt;其中Nt是动作产生时的随机噪声。步骤304.虚拟无人机做出at的对应动作使虚拟环境发生改变,采集新的图片作为下一时刻的环境信息st+1,并传递给卷积神经网络;步骤305、卷积神经网络对环境信息st+1进行特征提取,得到t+1时刻的特征向量φt+1,传递给经验回放池;步骤306.将上述<φt,at,rt,φt+1>构成四元组存入经验回放池中,将环境信息st+1作为当前环境信息返回步骤302,直至经验回放池存储的四元组数大于等于采样数N。步骤307.从经验回放池中随机选取第i组四元组<φi,ai,ri,φi+1>(i={1,2,...,N}),利用目标评价网络Q′和目标动作网络μ′计算出该四元组对应的Q函数估计值yi:yi=ri+γQ′(φi+1,μ′(φi+1|θμ′)|θQ′)其中,γ为折扣率。步骤308.利用每个四元组的Q函数估计值求梯度最小化损失函数,对评价网络Q进行网络参数θQ的更新。损失函数L为:对损失函数L求梯度有:将梯度在评价网络Q内反向传播以实现网络参数θQ的更新,更新公式如下:其中,η表示学习率。步骤309.根据策略梯度公式求出策略梯度并将此梯度在动作网络μ内反向传播以实现网络参数θμ的更新。策略梯度公式为:在求策略梯度时,评价网络Q和动作网络μ可以等价看作是Q函数与μ函数。表示动作a关于Q函数的梯度;表示网络参数θμ关于μ函数的梯度;网络参数θμ的更新公式如下:步骤310.对目标评价网络Q′和目标动作网络μ′进行网络参数的更新;更新公式分别为:τθQ+(1-τ)θQ′→θQ′τθμ+(1-τ)θμ′→θμ′其中,τ表示滞后因数,是一个[0,1]范围内的常数。步骤311.评价网络Q、动作网络μ、目标评价网络Q′和目标动作网络μ′的网络参数向负梯度方向调整,直至确定性策略梯度神经网络模型达到收敛。此时,判断虚拟训练环境下的虚拟无人机与潜在障碍物是否发生碰撞或者是否到达目标位置。如果是,确定性策略梯度神经网络训练完成;否则,返回步骤301,将更新后的参数θQ、θμ、θQ′和θμ′作为新的初始值继续循环上述步骤。步骤四,将训练好的确定性策略梯度神经网络部署在无人机上,完成确定性策略梯度神经网络从虚拟环境到真实环境的迁移;...

【技术保护点】
1.一种基于迁移学习的无人机自主导航方法,其特征在于,具体步骤如下:/n步骤一,依据无人机实际任务场景设计虚拟训练环境,从虚拟训练环境中实时采样得到原始图片S;/n原始图片S中所包含的像素点的信息代表当前t时刻的环境信息s

【技术特征摘要】
1.一种基于迁移学习的无人机自主导航方法,其特征在于,具体步骤如下:
步骤一,依据无人机实际任务场景设计虚拟训练环境,从虚拟训练环境中实时采样得到原始图片S;
原始图片S中所包含的像素点的信息代表当前t时刻的环境信息st;
步骤二、将原始图片S转化为对应的深度图D,从深度图D中提取虚拟无人机与障碍物的距离信息dt;
步骤三、将环境信息st以及距离信息dt传递给确定性策略梯度神经网络,对确定性策略梯度神经网络进行训练;
确定性策略梯度神经网络包括卷积神经网络、动作网络μ、评价网络Q、目标评价网络Q′、目标动作网络μ′、计算奖励网络R和经验回放池;
对确定性策略梯度神经网络进行训练,具体流程如下:
步骤301.初始化虚拟自主导航任务的起点与终点,对评价网络Q和动作网络μ进行网络参数的初始化,分别记为θQ和θμ;再对目标评价网络Q′和目标动作网络μ′进行网络参数的初始化,分别记为θQ′和θμ′;初始时刻令θQ′=θQ,θμ′=θμ;清空经验回放池;
步骤302.卷积神经网络对环境信息st进行特征提取,得到表征当前状态空间的特征向量φt,并传递给动作网络μ以及经验回放池;同时计算奖励网络R利用距离信息dt得到奖励rt,并传递给经验回放池;
奖励rt的计算如下:



其中,δ是反映无人机到终点的趋向性参数,α和β是反映障碍物对无人机的威胁性参数,δ,α,β均为大于零的常数;ddist代表训练环境下当前虚拟无人机到终点位置的直线距离;
步骤303.动作网络μ利用特征向量φt产生新的动作at并传递给虚拟无人机,同时传递给经验回放池;
步骤304.虚拟无人机做出at的对应动作使虚拟环境发生改变,采集新的图片作为下一时刻的环境信息st+1,并传递给卷积神经网络;
步骤305、卷积神经网络对环境信息st+1进行特征提取,得到t+1时刻的特征向量φt+1,传递给经验回放池;
步骤306.将上述<φt,at,rt,φt+1>构成四元组存入经验回放池中,将环境信息st+1作为当前环境信息返回步骤302,直至经验回放池存储的四元组数大于等于采样数N;
步骤307.从经验回放池中随机选取第i组四元组<φi,ai,ri,φi+1>(i={1,2,...,N}),利用目标评价网络Q′和目标动作网络μ′计算出该四元组对应的Q函数估计值yi:
yi=ri+γQ′(φi+1,μ′(φi+1丨θμ′)丨θQ′)
其中,γ为折扣率;
步骤308.利用每个四元组对应的Q函数估计值求梯度最小化损失函数,对评价网络Q进行网络参数θQ的更新;
损失函数L为:
对损失函数L求梯度有:

【专利技术属性】
技术研发人员:李宇萌张晋通杜文博曹先彬
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1