基于多智能体强化学习的无人机调度方法技术

技术编号:39403504 阅读:9 留言:0更新日期:2023-11-19 15:55
本发明专利技术公开了一种基于多智能体强化学习的无人机调度方法,包括设有若干架搭载边缘服务器的无人机

【技术实现步骤摘要】
基于多智能体强化学习的无人机调度方法


[0001]本专利技术涉及移动边缘计算

多智能体强化学习

无人机调度领域,具体是一种基于多智能体强化学习的无人机调度方法


技术介绍

[0002]随着无人机技术和移动边缘计算技术
[1](mobile edge computing
,简称
MEC)
的发展,将无人机与移动边缘计算相结合的研究已逐渐成为新的焦点
[2,3]。
无人机具有快速部署

灵活调度等优点,可以在短时间内为移动物联网设备
(Mobile User Equipments
,简称
UEs)
提供高效的计算服务,弥补了传统移动边缘计算需要依赖稳定且固定的基础设施例如微基站或者云数据中心不能灵活地移动或者重新配置的不足

然而,也带来了新的挑战,如何优化无人机的部署和调度,在满足服务需求的同时,尽可能提高无人机效能等问题仍需要进一步的研究和探讨

[0003]多无人机系统可以通过无人机间的协同,增加计算和传输能力,但无人机之间的协同工作解决调度问题,需要进行更复杂的优化计算,集中式最优化算法是最常用的解决问题的方式之一
[4,5]。
然而,任务卸载和轨迹规划优化等问题往往具有高度的非凸性,这使得优化问题的复杂度很高,并且现实场景下全局信息一般又难以实时获取,传统的集中式优化方案并不完全适用

分布式方法可以允许无人机个体根据自身的局部信息做出决策,从而在一定程度上降低了对全局信息的依赖,更好地考虑和保障无人机个体的效益
[6,7]。
但是分布式方法往往忽视了无人机之间的协作,可能会降低整体的系统性能,并且需要大量的信息交换和计算资源,这在一些资源有限的场景下可能难以实现

并且相关研究缺乏对物联网设备移动性带来的资源需求改变情况的相关研究,导致多无人机协同为大规模移动
UEs
提供计算卸载时系统效用低

能耗高的问题仍没有得到有效解决


技术实现思路

[0004]本专利技术的目的是针对以下两方面问题:
1.
现有的集中式或分布式方法在实际场景中存在缺陷,需要从无人机个体和全局视角进行最优决策;
2.
缺乏对物联网设备移动性带来的资源需求改变情况的相关研究,而提出一种基于多智能体强化学习的无人机位置调度方法

这种方法以在多无人机随资源需求调度时确保整体性能的同时优化个体无人机的自主性与效率,提高系统效用和无人机能量效率

[0005]实现本专利技术目的是技术方案是:
[0006]基于多智能体强化学习的无人机调度方法,包括设有若干架搭载边缘服务器的无人机

物联网设备和一个基站的系统,所述方法包括如下步骤:
[0007]首先从系统中获取环境信息,环境信息包括物联网设备位置信息

任务发布情况

无人机资源及位置信息;然后判断是否有物联网设备生成新的任务,若有:根据就近任务卸载原则为无人机分配任务并更新无人机资源信息进入无人机调度决策阶段,其中就近任务卸载原则为选择与生成任务的无人机距离最近的无人机进行卸载,若没有:直接进入无人
机调度决策阶段;在无人机调度决策阶段,无人机根据获取的环境信息使用
MADDPG
算法做出下一步运动状态决策;然后在下一个时隙中更新环境信息,重新执行基于新的环境信息判断是否有新的任务

为无人机分配任务

进行无人机调度决策,并使用
MADDPG
算法决定无人机的下一步运动状态的步骤;
[0008]以上过程即将无人机作为多智能体强化学习中的智能体,不断地在现实或模拟环境中进行交互,在时隙
t
,这些无人机获取环境信息,然后根据独立的策略选择各自在强化学习中根据环境信息做出的动作,当这些动作被相应的无人机执行后,环境信息随之转变到时隙
t+1
的状态,并以奖励形式反馈,无人机通过对环境信息做出动作后得到奖励形式的过程即状态转化的持续观察和学习,共同努力去了解环境的规律并获得策略的最优解;
[0009]具体步骤如下:
[0010]1)
为使用多智能体强化学习解决无人机调度的决策问题,需要将该问题建模为马尔科夫决策过程
(Markov Decision Process,
简称
MDP)
,该过程用元组<
Γ
,s,a,r,
γ
>
表示,
Γ
为无人机集,
s
是所有无人机的状态空间,
a
为无人机的动作空间,
r
是无人机的奖励函数,
γ
为累计折扣奖励的衰减系数;
[0011](1)
状态空间
[0012]每个时隙
t
的状态空间
s
t

K
个物联网节点
、J
架无人机和环境共同决定,定义为:
[0013]s
t

{l
M
(t),l
U
(t),R(t),o'(t)}
ꢀꢀꢀꢀꢀꢀꢀ
(1)
[0014]其中,
l
U
(t),R(t)
分别代表
t
时隙的
J
架无人机的位置及其机载资源信息的集合,
l
M
表示
K
个物联网节点位置信息集合,
o'
表示时隙
t
的所有任务请求信息;
[0015](2)
动作空间
[0016]时隙
t
每架无人机的动作空间
a(t)
均由无人机的飞行角度
θ
和飞行速度
v
U
组成,表示为:
[0017]a(t)

(
θ
(t),v
U
(t))
ꢀꢀꢀꢀꢀꢀꢀ
(2)
[0018](3)
奖励函数
[0019]通过设置奖励促进无人机进行策略的学习,旨在快速应对物联网设备对无人机机载资源需求的变化,降低任务执行能耗,并提高系统效用,同时需要满足无人机运动约束条件;
[0020](3.1)
无人机
j
在空中飞行产生的能耗及悬停产生的能耗分别为,其中
j∈J

j
为正整数:
[0021][0022]其中,
P
f
为飞行功率,为飞行距离,...

【技术保护点】

【技术特征摘要】
1.
基于多智能体强化学习的无人机调度方法,其特征在于,包括设有若干架搭载边缘服务器的无人机

物联网设备和一个基站的系统,所述方法包括如下步骤:首先从系统中获取环境信息,环境信息包括物联网设备位置信息

任务发布情况

无人机资源及位置信息;然后判断是否有物联网设备生成新的任务,若有:根据就近任务卸载原则为无人机分配任务并更新无人机资源信息进入无人机调度决策阶段,其中就近任务卸载原则为选择与生成任务的无人机距离最近的无人机进行卸载,若没有:直接进入无人机调度决策阶段;在无人机调度决策阶段,无人机根据获取的环境信息使用
MADDPG
算法做出下一步运动状态决策;然后在下一个时隙中更新环境信息,重新执行基于新的环境信息判断是否有新的任务

为无人机分配任务

进行无人机调度决策,并使用
MADDPG
算法决定无人机的下一步运动状态的步骤;以上过程即将无人机作为多智能体强化学习中的智能体,不断地在现实或模拟环境中进行交互,在时隙
t
,这些无人机获取环境信息,然后根据独立的策略选择各自在强化学习中根据环境信息做出的动作,当这些动作被相应的无人机执行后,环境信息随之转变到时隙
t+1
的状态,并以奖励形式反馈,无人机通过对环境信息做出动作后得到奖励形式的过程即状态转化的持续观察和学习获得策略的最优解;具体步骤如下:
1)
为使用多智能体强化学习解决无人机调度的决策问题,需要将该问题建模为马尔科夫决策过程,该过程用元组
<
Γ
,s,a,r,
γ
>
表示,
Γ
为无人机集,
s
是所有无人机的状态空间,
a
为无人机的动作空间,
r
是无人机的奖励函数,
γ
为累计折扣奖励的衰减系数
。(1)
状态空间每个时隙
t
的状态空间
s
t

K
个物联网节点
、J
架无人机和环境共同决定,定义为:
s
t

{l
M
(t),l
U
(t),R(t),o'(t)}
ꢀꢀꢀꢀꢀ
(1)
其中,
l
U
(t),R(t)
分别代表时隙
t

J
架无人机的位置及其机载资源信息的集合,
l
M
表示
K
个物联网节点位置信息集合,
o'
表示时隙
t
的所有任务请求信息;
(2)
动作空间时隙
t
每架无人机的动作空间
a(t)
均由无人机的飞行角度
θ
和飞行速度
v
U
组成,表示为:
a(t)

(
θ
(t),v
U
(t))
ꢀꢀꢀꢀꢀ
(2)(3)
奖励函数通过设置奖励促进无人机进行策略的学习,旨在快速应对物联网设备对无人机载资源需求的变化,降低任务执行能耗,并提高系统效用,同时需要满足无人机运动约束条件;
(3.1)
无人机
j
在空中飞行产生的能耗及悬停产生的能耗分别为,其中
j∈J

j
为正整数:其中,
P
f
为飞行功率,为飞行距离,
P
h
为悬停功率,为悬停时间;无人机
j
接收任务数据产生的通信能耗计算能耗分别为:
其中,无人机的接收功率为
P
r

P
c
表示无人机在执行任务时的
CPU
功率,为任务与无人机之间的卸载关系,为0表示没有卸载到该无人机为1表示卸载到该无人机,任务的数据量为
p
z
,为上行数据速率,为无人机
cpu
计算频率,当所有
UEs
的计算任务完成后,无人机的总能耗为飞行能耗

悬停能耗

计算能耗和通信能耗之和,表示为:
(3.2)
为了快速响应资源需求的变化,构建了一个任务热点地区模型,该模型根据物联网设备和无人机的位置分布进行网格化分隔,以研究任务需求与无人机资源的关系;令网格总数为
V
,无人机通信半径为
r
,通过判断无人机与网格之间的位置关系可计算无人机覆盖个数,覆盖其中一个网格
w
υ
的无人机个数为
b
υ
,网格
w
υ
在时隙
t
的任务及资源信息表述为
w
υ

{a
υ
,I
υ
,l
υ
}

a
υ
为单位时间网格的任务请求量,通过判断物联网设备与网格之间的位置关系可知物联网设备所属网格,进一步通过物联网设备单位时间的任务请求量可得到单位时间网...

【专利技术属性】
技术研发人员:李晓欢夏雪陈倩
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1