一种面向数据采集的多无人机智能航迹规划方法技术

技术编号:38948068 阅读:20 留言:0更新日期:2023-09-25 09:44
本发明专利技术公开了一种面向数据采集的多无人机智能航迹规划方法。该发明专利技术属于无人机控制领域,主要解决了无人机在未知大规模环境中收集节点数据时的动态自主航迹规划问题。所提方法通过将无人机航迹规划问题建模成为部分可观测马尔可夫决策过程,利用深度强化学习对问题进行求解。该方法通过集中式训练、分布式应用的方式,实现了多无人机在未知环境中采集节点数据时动态规划飞行轨迹,使用了ED3QN(Extended Double Dueling Deep Q

【技术实现步骤摘要】
一种面向数据采集的多无人机智能航迹规划方法


[0001]本专利技术属于无人机控制领域,特别涉及基于深度强化学习的无人机实时航迹规划算法设计。

技术介绍

[0002]近年来,随着物联网(Internet of Things,IoT)技术的发展,部署的传感器节点数量大幅增加,据估计,到2030年全世界部署的传感器数量将超过百万亿,因此如何及时高效的收集传感器的海量数据成了物联网领域的一大难题。无人机(Unmanned Aerial Vehicle,UAV)由于其部署灵活、可操作性强、成本低廉、容易与地面终端建立稳定可靠的视线(Line of Sight,LoS)链路等优势,被广泛应用于区域搜索、移动通信、物流、抢险救灾等领域,同时也被视为在缺少基础设施的环境中用于收集物联网节点数据的潜在平台。
[0003]使用无人机收集节点数据能够减少基础设施建设开支,减少网络维护成本,提高网络可扩展性和鲁棒性,在物联网领域中有着较好的发展前景。但是无人机的航迹规划面临着较大的挑战,一方面为了保证无人机自身的安全,路径规划策略要有较强的避障性能,且所规划的路径长度受无人机续航能力的限制;另一方面,无人机需要在飞行过程中尽可能满足物联网节点动态变化的数据上载需求。本文考虑了一种无人机物流和数据采集相结合的场景,即无人机在运送货物的过程中收集途径物联网节点的数据,旨在通过优化无人机航迹来提高避障性能和数据采集效率。
[0004]现有的无人机航迹规划算法可以大致分为两类:非学习的传统优化算法和基于学习的人工智能算法。传统优化算法通常将多种约束条件下的航迹优化问题视为混合整数非凸问题或NP难问题,进而使用SCA(Successive Convex Approximation)算法、概率路线图算法、人工势场法等进行航迹规划。这些传统优化算法能够在全局可观测的静态场景中优化无人机航迹,但当面对动态变化的环境时,航迹规划的计算量增大,不能高效实时地决策。
[0005]基于学习的算法通过数据集或与环境的交互积累经验并训练出一套可自主规划路径的策略。基于学习的优化算法又可分为智能优化算法、强化学习算法、深度学习算法等。智能优化算法例如遗传算法,是一种模拟生物遗传进化过程的自适应优化搜索算法;蚁群算法,一种用于寻找最优路径的全局搜索算法,但是智能优化算法存在着运算效率低、会陷入局部最优等问题。应用于无人机航迹规划的强化学习算法中,典型的算法有QL(Q

Learning)、DQN(Deep Q

Network)、DDQN(Double Deep Q

Network)、D3QN(Double Dueling Deep Q

Network)等,其中QL算法的策略是建立状态空间与动作空间的映射,用状态动作值(Q值)评估某一状态下不同动作的好坏,进而选择该状态下要执行的动作,但QL算法仅适用于状态空间维度较小的简单场景,当环境的复杂化会出现维度灾难问题。DQN算法则是在QL算法的基础上引入了神经网络用来拟合状态动作值函数,避免了维度灾难问题。DDQN算法使用了两个结构相同的神经网络来互相评估拟合效果,减小了高估Q值的概率。D3QN算法考虑到了不同状态对后续动作得到的奖励值的影响,将Q值分为状态值和动作值两部分,从而
引导智能体转移至有利于获得高奖励值的状态。
[0006]针对现有算法的不足,本专利技术基于深度强化学习提出了ED3QN(Extended Double Dueling Deep Q

Network)算法,此外还通过加入竞争机制和候选节点队列避免了多架无人机同时服务一个节点导致的信号干扰和飞行安全问题,提高了数据采集效率;使用奖励重塑法设计了一种非稀疏的适用于大规模复杂环境的奖励函数,促使智能体更快的学习策略。

技术实现思路

[0007]本专利技术考虑了一种无人机物流和数据采集相结合的应用场景:多架无人机从同一个物流中心出发,携带要运送到货物前往各自的目的地,并在飞行途中收集IoT节点上传的数据。本专利技术的目的是使无人机在此类应用场景中能够自主动态的规划航迹,在避开障碍物的同时实现多机协同收集节点数据。本专利技术所采用的步骤是:
[0008]步骤1:根据强化学习的相关理论知识,本专利技术将无人机实时航迹规划问题建模成为一个部分可观测马尔可夫决策过程,表示为:(S,A,P,γ,R),其中S表示状态空间,A表示动作空间,P∈[0,1]表示智能体从当前状态s转移到下一状态s

的概率,γ∈[0,1]是折扣因子,R代表奖励函数;
[0009]步骤2:建立无人机集群模型:在本专利技术中,假设无人机起飞和降落前飞行高度不变,因此只考虑二维平面下无人机的运动模型,将无人机i的初始位置表示为(x
i
,y
i
);本专利技术通过定义无人机的运动方向和固定运动速度,去更新无人机的位置;
[0010]步骤3:根据无人机数据收集的动态未知场景,设计出一套非稀疏奖励函数,用来加快模型的收敛速度和学习效率,该奖励函数主要包含五部分:第一部分是与无人机到目标的距离有关的奖励r1;第二部分是与环境中动态或静态障碍物威胁有关的奖励r2;第三部分是无人机之间保持安全飞行距离的奖励r3;第四部分是收集物联网节点数据的奖励r4;第五部分是固定的时间步数惩罚r5;
[0011]步骤4:提出在大规模未知物联网环境下的无人机自主实时航迹规划方法,该算法同时考虑了多无人机数据采集的任务分配问题和在动态和或静态障碍物威胁下的无人机避障问题,用高斯

马尔科夫运动模型模拟环境中移动障碍物的随机运动,使用了ED3QN(Extended Double Dueling Deep Q

Network)算法,由无人机集群使用自身配备的传感器对所处环境进行观测,在与环境的交互过程中不断学习,对深度神经网络模型进行更新,训练好的算法网络模型可适用于不同环境下无人机集群实时航迹规划任务。
[0012]本专利技术提出的面向数据采集的多无人机智能航迹规划算法的有效性已通过仿真实验得到了验证。本专利技术选取DQN和D3QN算法在不同环境中的性能进行对比,此外还对比了不同奖励函数的训练效果。附图3、附图4和附图5分别给出了本专利技术提出的ED3QN算法与DQN和D3QN算法在不同节点数量、不同动态障碍物数量以及不同无人机数量的环境中成功率对比的结构体;图6给出了所提算法训练得到的智能体在地图面积为1000
×
1000m2、3架无人机、15个待上传数据的IoT节点、动态和静态障碍物数均为5个的环境下无人机的飞行轨迹图。
附图说明
[0013]图1是本专利技术的基于强化学习的实时航迹规划示意图;
[0014]图2是本专利技术的算法性能收敛示意图;
[0015]图3是本专利技术的IoT节点变化时的成功率示意图;
[0016]图4是本专利技术的动态障碍物数量变化时的成功率示意图;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向数据采集的多无人机智能航迹规划方法,所采用的步骤是:步骤1:根据强化学习的相关理论知识,本发明将无人机实时航迹规划问题建模成为一个部分可观测马尔可夫决策过程,表示为:(S,A,P,γ,R),其中S表示状态空间,A表示动作空间,P∈[0,1]表示智能体从当前状态s转移到下一状态s

的概率,γ∈[0,1]是折扣因子,R代表奖励函数;步骤2:建立无人机集群模型:在本发明中,假设无人机起飞和降落前飞行高度不变,因此只考虑二维平面下无人机的运动模型,将无人机i的初始位置表示为(x
i
,y
i
);本发明通过定义无人机的运动方向和固定运动速度,去更新无人机的位置;步骤3:根据无人机数据收集的动态未知场景,设计出一套非稀疏奖励函数,用来加快模型的收敛速度和学习效率,该奖励函数主要包含五部分:第一部分是与无人机到目标的距离有关的奖励r1;第二部分是与环境中动态或静态障碍物威胁有关的奖励r2;第三部分是无人机之间保持安全飞行距离的奖励r3;第四部分是收集物联网节点数据的奖励r4;第五部分是固定的时间步数惩罚r5;步骤4:提出在大规模未知物联网环境下的无人机自主实时航迹规划方法,该算法同时考虑了多无人机数据采集的任务分配问题和在动态和或静态障碍物威胁下的无人机避障问题,用高斯

马尔科夫运动模型模拟环境中移动障碍物的随机运动,使用了ED3QN(Extended Double Dueling Deep Q

Network)算法,由无人机集群使用自身配备的传感器对所处环境进行观测,在与环境的交互过程中不断学习,对深度神经网络模型进行更新,训练好的算法网络模型可适用于不同环境下无人机集群实时航迹规划任务。2.根据权利要求1所述方法,其特征在于将面向数据收集的多无人机航迹规划问题建模成为部分可观测马尔可夫决策过程的具体方法为:(1)状态空间的定义无人机的状态空间S由四个部分组成:第一部分为无人机与目标点的相对位置信息,可通过自身定位模块获取,表示为S1=[d
tar
,θ
tar
],其中d
tar
为无人机与目标点的距离,θ
tar
为目标点的相对方向角,即目标点方向与无人机飞行方向的夹角。第二部分为附近无人机的信息,这一部分状态信息可以通过信道侦听获取,无人机之间距离小于r
sU
时即可相互获取位置信息,表示为S2=[[d
U1
,θ
U1
],[d
U2
,θ
U2
]],分别代表侦听范围内离自己最近的两架无人机的距离和相对方向角,当侦听范围内的无人机不足两架时,不足的部分用与无人机飞行方向相反且距离足够远的点的位置信息代替。第三部分代表附近需要数据上载服务的IoT节点信息,当节点与无人机的水平距离小于r
sT
时无人机能够确定节点的位置和待上传的数据量,而当节点与无人机的水平距离小于r
T
时即可建立稳定的LoS链路,并在下一个时隙内以稳定的速率上传数据。这一部分状态表示为S3=[[d
T1
,θ
T1
,I
T1
],[d
T2
,θ
T2
,I
T2
],[d
T3
,θ
T3
,I
T3
]],代表了无人机感知范围内最近的三个需要数据上载服务的物联网终端节点的距离、相对方向角和所需上传的数据量,当感知范围内需要服务的节点数不足三个时,不足的部分用[d
tar
,θ
tar
,0]代替。此外,为了提高数据采集效率以及防止多架无人机为服务同一节点距离过小的情况,本文加入了竞争和候选队列机制,每架无人机在本地缓存中维护一个候选节点队列TU
c
,当在r
sT
范围内发现了新的IoT节点且r
sU
范围内存在其他无人机时,计算自己和其他无人机服务该节点的预估消耗:
其中为为无人机i到TU
j
的直线距离,p是接收TU
j
上传数据消耗的能量,为TU
j
到无人机i的目标点的水平距离,若其他无人机的预估消耗高于自己的预估,则将该节点加入候选队列。第四部分为无人机通过机载全向激光雷达获得的的障碍物信息,全向激光雷达作为常用的无人机测距传感器,可以在水平方向360
°
范围内测量距离信息,并以云点图形式输出。为简化状态空间,将360
°
距离信息均等分为n份,从无人机飞行方向开始顺时针采样,如图所示,得到的障碍物距离信息表示为{d1,d2,...,d
n
},假设激光雷达的有效测距范围为r
l
,则则于是第四部分状态信息表示为S4=[d1,d2,...,d
n
],分别表示在各方向上无人机与障碍物的距离信息。综上所述,无人机的状态空间表示为S=[S1,S2,S2,S4]。(2)动作空间的定义航迹规划中决策输出为下一时刻无人机飞行方向的转向角φ∈[

φ
max
,φ
max
],其中φ
max
为无人机最大转向角的绝对值。为方便动作的选取,将动作空间离散化,将无人机的转向角范围等分为m份,动作空间表示为A:{a0,a1,

,a
m
},其中(3)状态转移概率状态转移概率是指给定当前状态S
t
和动作A
t
,转移到状态S
t+1
的概率分布,即(4)折扣因子折扣因子γ是衰减未来的奖励对当前状态值的贡献,其取值通常在[0,1]之间。当完成一次任务需要的步数越多,折扣因子γ的取值越接近1。在本发明中,将折扣因子γ的值设置为了0.95。(5)奖励函数奖励函数R是指给定状态S
t
,采取动作A
t
后,无人机得到的回报,即r=R(S
t
,A
t
)。强化学习算法往往对奖励函数R非常敏感,不同的奖励函数对于收敛性和学习速度影响非常大。针对复杂突发威胁环境,本发明采用奖励重塑技术设置奖励。这一部分将在第4点具体描述。3.根据权利要求1所述方法,其特征在于无人机和动态障碍物的动力学模型为:假设场景中于执行数据收集任务的无人机共有N架,无人机的集合表示为U={U1,U2,...,U3},第i架无人机的三维...

【专利技术属性】
技术研发人员:缪雨祺张莉涓朱晓浪张魏雷磊宋晓勤牛凯华李慧王俊杰千雪映
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1