【技术实现步骤摘要】
一种面向数据采集的多无人机智能航迹规划方法
[0001]本专利技术属于无人机控制领域,特别涉及基于深度强化学习的无人机实时航迹规划算法设计。
技术介绍
[0002]近年来,随着物联网(Internet of Things,IoT)技术的发展,部署的传感器节点数量大幅增加,据估计,到2030年全世界部署的传感器数量将超过百万亿,因此如何及时高效的收集传感器的海量数据成了物联网领域的一大难题。无人机(Unmanned Aerial Vehicle,UAV)由于其部署灵活、可操作性强、成本低廉、容易与地面终端建立稳定可靠的视线(Line of Sight,LoS)链路等优势,被广泛应用于区域搜索、移动通信、物流、抢险救灾等领域,同时也被视为在缺少基础设施的环境中用于收集物联网节点数据的潜在平台。
[0003]使用无人机收集节点数据能够减少基础设施建设开支,减少网络维护成本,提高网络可扩展性和鲁棒性,在物联网领域中有着较好的发展前景。但是无人机的航迹规划面临着较大的挑战,一方面为了保证无人机自身的安全,路径规划策略要有较强的避障性能,且所规划的路径长度受无人机续航能力的限制;另一方面,无人机需要在飞行过程中尽可能满足物联网节点动态变化的数据上载需求。本文考虑了一种无人机物流和数据采集相结合的场景,即无人机在运送货物的过程中收集途径物联网节点的数据,旨在通过优化无人机航迹来提高避障性能和数据采集效率。
[0004]现有的无人机航迹规划算法可以大致分为两类:非学习的传统优化算法和基于学习的人工智能算法。传统优化算 ...
【技术保护点】
【技术特征摘要】
1.一种面向数据采集的多无人机智能航迹规划方法,所采用的步骤是:步骤1:根据强化学习的相关理论知识,本发明将无人机实时航迹规划问题建模成为一个部分可观测马尔可夫决策过程,表示为:(S,A,P,γ,R),其中S表示状态空间,A表示动作空间,P∈[0,1]表示智能体从当前状态s转移到下一状态s
’
的概率,γ∈[0,1]是折扣因子,R代表奖励函数;步骤2:建立无人机集群模型:在本发明中,假设无人机起飞和降落前飞行高度不变,因此只考虑二维平面下无人机的运动模型,将无人机i的初始位置表示为(x
i
,y
i
);本发明通过定义无人机的运动方向和固定运动速度,去更新无人机的位置;步骤3:根据无人机数据收集的动态未知场景,设计出一套非稀疏奖励函数,用来加快模型的收敛速度和学习效率,该奖励函数主要包含五部分:第一部分是与无人机到目标的距离有关的奖励r1;第二部分是与环境中动态或静态障碍物威胁有关的奖励r2;第三部分是无人机之间保持安全飞行距离的奖励r3;第四部分是收集物联网节点数据的奖励r4;第五部分是固定的时间步数惩罚r5;步骤4:提出在大规模未知物联网环境下的无人机自主实时航迹规划方法,该算法同时考虑了多无人机数据采集的任务分配问题和在动态和或静态障碍物威胁下的无人机避障问题,用高斯
‑
马尔科夫运动模型模拟环境中移动障碍物的随机运动,使用了ED3QN(Extended Double Dueling Deep Q
‑
Network)算法,由无人机集群使用自身配备的传感器对所处环境进行观测,在与环境的交互过程中不断学习,对深度神经网络模型进行更新,训练好的算法网络模型可适用于不同环境下无人机集群实时航迹规划任务。2.根据权利要求1所述方法,其特征在于将面向数据收集的多无人机航迹规划问题建模成为部分可观测马尔可夫决策过程的具体方法为:(1)状态空间的定义无人机的状态空间S由四个部分组成:第一部分为无人机与目标点的相对位置信息,可通过自身定位模块获取,表示为S1=[d
tar
,θ
tar
],其中d
tar
为无人机与目标点的距离,θ
tar
为目标点的相对方向角,即目标点方向与无人机飞行方向的夹角。第二部分为附近无人机的信息,这一部分状态信息可以通过信道侦听获取,无人机之间距离小于r
sU
时即可相互获取位置信息,表示为S2=[[d
U1
,θ
U1
],[d
U2
,θ
U2
]],分别代表侦听范围内离自己最近的两架无人机的距离和相对方向角,当侦听范围内的无人机不足两架时,不足的部分用与无人机飞行方向相反且距离足够远的点的位置信息代替。第三部分代表附近需要数据上载服务的IoT节点信息,当节点与无人机的水平距离小于r
sT
时无人机能够确定节点的位置和待上传的数据量,而当节点与无人机的水平距离小于r
T
时即可建立稳定的LoS链路,并在下一个时隙内以稳定的速率上传数据。这一部分状态表示为S3=[[d
T1
,θ
T1
,I
T1
],[d
T2
,θ
T2
,I
T2
],[d
T3
,θ
T3
,I
T3
]],代表了无人机感知范围内最近的三个需要数据上载服务的物联网终端节点的距离、相对方向角和所需上传的数据量,当感知范围内需要服务的节点数不足三个时,不足的部分用[d
tar
,θ
tar
,0]代替。此外,为了提高数据采集效率以及防止多架无人机为服务同一节点距离过小的情况,本文加入了竞争和候选队列机制,每架无人机在本地缓存中维护一个候选节点队列TU
c
,当在r
sT
范围内发现了新的IoT节点且r
sU
范围内存在其他无人机时,计算自己和其他无人机服务该节点的预估消耗:
其中为为无人机i到TU
j
的直线距离,p是接收TU
j
上传数据消耗的能量,为TU
j
到无人机i的目标点的水平距离,若其他无人机的预估消耗高于自己的预估,则将该节点加入候选队列。第四部分为无人机通过机载全向激光雷达获得的的障碍物信息,全向激光雷达作为常用的无人机测距传感器,可以在水平方向360
°
范围内测量距离信息,并以云点图形式输出。为简化状态空间,将360
°
距离信息均等分为n份,从无人机飞行方向开始顺时针采样,如图所示,得到的障碍物距离信息表示为{d1,d2,...,d
n
},假设激光雷达的有效测距范围为r
l
,则则于是第四部分状态信息表示为S4=[d1,d2,...,d
n
],分别表示在各方向上无人机与障碍物的距离信息。综上所述,无人机的状态空间表示为S=[S1,S2,S2,S4]。(2)动作空间的定义航迹规划中决策输出为下一时刻无人机飞行方向的转向角φ∈[
‑
φ
max
,φ
max
],其中φ
max
为无人机最大转向角的绝对值。为方便动作的选取,将动作空间离散化,将无人机的转向角范围等分为m份,动作空间表示为A:{a0,a1,
…
,a
m
},其中(3)状态转移概率状态转移概率是指给定当前状态S
t
和动作A
t
,转移到状态S
t+1
的概率分布,即(4)折扣因子折扣因子γ是衰减未来的奖励对当前状态值的贡献,其取值通常在[0,1]之间。当完成一次任务需要的步数越多,折扣因子γ的取值越接近1。在本发明中,将折扣因子γ的值设置为了0.95。(5)奖励函数奖励函数R是指给定状态S
t
,采取动作A
t
后,无人机得到的回报,即r=R(S
t
,A
t
)。强化学习算法往往对奖励函数R非常敏感,不同的奖励函数对于收敛性和学习速度影响非常大。针对复杂突发威胁环境,本发明采用奖励重塑技术设置奖励。这一部分将在第4点具体描述。3.根据权利要求1所述方法,其特征在于无人机和动态障碍物的动力学模型为:假设场景中于执行数据收集任务的无人机共有N架,无人机的集合表示为U={U1,U2,...,U3},第i架无人机的三维...
【专利技术属性】
技术研发人员:缪雨祺,张莉涓,朱晓浪,张魏,雷磊,宋晓勤,牛凯华,李慧,王俊杰,千雪映,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。