模型构建方法、任务分配方法、装置、设备及介质制造方法及图纸

技术编号:29053426 阅读:19 留言:0更新日期:2021-06-26 06:21
本申请提供的模型构建方法、任务分配方法、装置、设备及介质中,训练设备将无人机辅助移动边缘计算的调度策略拆分成无人机位置优化与任务计算卸载优化两个层级的子问题,使用层次强化学习交替优化对应位置模型以及任务模型,以达到降低了每个子问题的复杂度,并且提高了整体系统的学习效率与收敛效率。提高了整体系统的学习效率与收敛效率。提高了整体系统的学习效率与收敛效率。

【技术实现步骤摘要】
模型构建方法、任务分配方法、装置、设备及介质


[0001]本申请涉及数据处理领域,具体而言,涉及一种模型构建方法、任务分配方法、装置、设备及介质。

技术介绍

[0002]由于无人机(Unmanned Aerial Vehicles,UAVs)具有的高机动性和灵活性,近年来研究人员提出了使用无人机在多种应用场景下辅助移动边缘计算(Mobile Edge Computing,MEC)的技术。在无人机辅助的移动边缘计算领域,需要对无人机的运动轨迹和无人机与移动终端之间任务进行适当的调度以获得理想的性能。其中,在对任务调度表示将同一计算任务分配给无人机或者移动终端(下面简称任务卸载)。目前,出现了基于强化学习的方法实现动态场景下无人机辅助移动边缘计算的调度策略。
[0003]专利技术人研究发现,随着无人机与移动终端数量的增加,使用强化学习算法的系统状态空间与动作空间会呈指数级别增长,这大大降低了算法的收敛效率。因此,对于大规模的无人机辅助的移动边缘计算网络,很难获得易收敛的调度策略。

技术实现思路

[0004]为了克服现有技术中的至少一个不足,第一方面,本申请实施例提供一种模型构建方法,应用于训练设备,所述训练设备配置有待训练的位置模型以及任务分配模型,所述方法包括:
[0005]初始化所述位置模型、所述任务分配模型、第一无人机的状态以及第一移动终端的状态,其中,所述第一无人机用于为所述第一移动终端提供边缘计算服务;
[0006]将所述位置模型以及任务分配模型进行以下迭代,直到满足预设的迭代条件:
[0007]根据所述第一移动终端与所述第一无人机之间当前时刻的第一状态,通过所述位置模型获得所述第一无人机下一时刻的预测位置;
[0008]根据所述预测位置更新所述位置模型的模型参数;
[0009]根据所述预测位置确定所述第一无人机与所述第一移动终端之间当前时刻的第二状态;
[0010]根据所述第二状态,通过所述任务分配模型确定所述第一无人机与所述第一移动终端之间下一时刻的任务分配结果;
[0011]根据所述任务分配结果,更新所述任务分配模型的模型参数。
[0012]第二方面,本申请实施例提供一种任务分配方法,应用于执行设备,所述执行设备配置有预训练的位置模型以及任务分配模型,所述预训练的位置模型以及任务分配模型由所述的模型构建方法进行训练获得,所述方法包括:
[0013]获取第二无人机当前时刻的第三状态;
[0014]根据所述第三状态,通过所述位置模型确定所述第二无人机在下一时刻的预测位置;
[0015]根据所述第二无人机在下一时刻的预测位置,确定所述第二无人机与第二移动终端之间的第四状态;
[0016]根据所述第四状态,通过所述任务分配模型确定所述第二无人机与所述第二移动终端之间的任务分配结果。
[0017]第三方面,本申请实施例提供一种模型构建装置,所述模型构建装置应用于训练设备,所述训练设备配置有待训练的位置模型以及任务分配模型,所述模型构建装置包括:
[0018]模型初始模块,用于将所述位置模型、所述任务分配模型、第一无人机的状态以及第一移动终端的状态进行初始化,其中,所述第一无人机用于为所述第一移动终端提供边缘计算服务;
[0019]模型初始模块,用于初始化所述位置模型、所述任务分配模型、第一无人机的状态以及第一移动终端的状态,其中,所述第一无人机用于为所述第一移动终端提供边缘计算服务;
[0020]模型训练模块,用于将所述位置模型以及任务分配模型进行以下迭代,直到满足预设的迭代条件:
[0021]根据所述第一移动终端与所述第一无人机之间当前时刻的第一状态,通过所述位置模型获得所述第一无人机下一时刻的预测位置;
[0022]根据所述预测位置更新所述位置模型的模型参数;
[0023]根据所述预测位置确定所述第一无人机与所述第一移动终端之间当前时刻的第二状态;
[0024]根据所述第二状态,通过所述任务分配模型确定所述第一无人机与所述第一移动终端之间下一时刻的任务分配结果;
[0025]根据所述任务分配结果,更新所述任务分配模型的模型参数。
[0026]第四方面,本申请实施例提供一种任务调度装置,应用于执行设备,所述执行设备配置有预训练的位置模型以及任务分配模型,所述预训练的位置模型以及任务分配模型由所述的模型构建装置进行训练获得,所述任务调度装置包括:
[0027]状态获取模块,用于获取第二无人机当前时刻的第三状态;
[0028]位置确定模块,用于根据所述第三状态,通过所述位置模型确定所述第二无人机在下一时刻的预测位置;
[0029]所述状态获取模块,还用于根据所述第二无人机在下一时刻的预测位置,确定所述第二无人机与第二移动终端之间的第四状态;
[0030]任务分配模块,用于根据所述第四状态,通过所述任务分配模型确定所述第二无人机与所述第二移动终端之间的任务分配结果。
[0031]第五方面,本申请实施例提供一种电子设备,所述电子设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述的模型构建方法或者所述的任务分配方法。
[0032]第六方面,本申请实施例提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的模型构建方法或者所述的任务分配方法。
[0033]相对于现有技术而言,本申请具有以下有益效果:
[0034]本申请实施例提供的模型构建方法、任务分配方法、装置、设备及介质中,训练设
备将无人机辅助移动边缘计算的调度策略拆分成无人机位置优化与任务计算卸载优化两个层级的子问题,使用层次强化学习交替优化对应位置模型以及任务模型,以达到降低了每个子问题的复杂度,并且提高了整体系统的学习效率与收敛效率。
附图说明
[0035]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0036]图1为本申请实施例提供的场景示意图;
[0037]图2为本申请实施例提供的模型构建方法的流程示意图;
[0038]图3为本申请实施例提供的训练流程框图;
[0039]图4为本申请实施例提供的任务分配方法流程示意图;
[0040]图5为本申请实施例提供的模型构建装置示意图;
[0041]图6为本申请实施例提供的任务分配装置示意图;
[0042]图7为本申请实施例提供的电子设备结构示意图。
[0043]图标:100

无人机;200

移动终端;301

模型初始模块;302

模型训练模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型构建方法,其特征在于,应用于训练设备,所述训练设备配置有待训练的位置模型以及任务分配模型,所述方法包括:初始化所述位置模型、所述任务分配模型、第一无人机的状态以及第一移动终端的状态,其中,所述第一无人机用于为所述第一移动终端提供边缘计算服务;将所述位置模型以及任务分配模型进行以下迭代,直到满足预设的迭代条件:根据所述第一移动终端与所述第一无人机之间当前时刻的第一状态,通过所述位置模型获得所述第一无人机下一时刻的预测位置;根据所述预测位置更新所述位置模型的模型参数;根据所述预测位置确定所述第一无人机与所述第一移动终端之间当前时刻的第二状态;根据所述第二状态,通过所述任务分配模型确定所述第一无人机与所述第一移动终端之间下一时刻的任务分配结果;根据所述任务分配结果,更新所述任务分配模型的模型参数。2.根据权利要求1所述的模型构建方法,其特征在于,所述根据所述预测位置更新所述位置模型的模型参数,包括:根据所述预测位置更新所述第一状态;根据更新后的第一状态,通过预设第一奖励策略获得与所述更新后的第一状态相对应的第一奖励值;根据所述第一奖励值,更新所述位置模型的模型参数。3.根据权利要求2所述的模型构建方法,其特征在于,所述根据更新后的第一状态,通过预设第一奖励策略获得与所述更新后的第一状态相对应的第一奖励值,包括:通过预设第一奖励策略获得与所述更新后的第一状态相对应的第一奖励值;当根据所述更新后的第一状态,确定所述第一无人机满足任意一条第一限制条件时,则通过预设第一负奖励值调整所述第一奖励值,其中,所述第一限制条件包括:所述第一无人机的移动速度超过速度阈值;所述第一无人机的移动频率超过频率阈值。4.根据权利要求1所述的模型构建方法,其特征在于,所述根据所述任务分配结果,更新所述任务分配模型的模型参数,包括:根据所述任务分配结果更新所述第二状态;根据更新后的第二状态,通过预设第二奖励策略获得与所述第二状态相对应的第二奖励值;根据所述第二奖励值,更新所述位置模型的模型参数。5.根据权利要求4所述的模型构建方法,其特征在于,所述根据更新后的第二状态,通过预设第二奖励策略获得与所述第二状态相对应的第二奖励值,包括:通过预设第二奖励策略获得与所述第二状态相对应的第二奖励值;当根据所述更新后的第二状态,确定所述第一无人机与所述第一移动终端满足意一条第二限制条件时,则通过预设第二负奖励值调整所述第二奖励值,其中,所述第二限制条件包括:同一任务同时在第一无人机以及第一移动终端运行;
任务在第一无人机与第一移动终端之间传输时所消耗的总能量超过能量阈值;至少一个任务的完成耗时超过时长阈值。6.一种任务分配方法,其特征在于,应用于执行设备,所述执行设备配置有预...

【专利技术属性】
技术研发人员:任涛胡哲源谷宁波牛建伟杜东峰豆渊博李青锋
申请(专利权)人:北京航空航天大学杭州创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1