移动边缘网络中基于强化学习的AR任务卸载和资源分配方法组成比例

技术编号:26308381 阅读:37 留言:0更新日期:2020-11-10 20:10
本发明专利技术公开了一种移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,包括以下步骤:建立AR应用模型和设定优化目标;设定强化学习网络框架和马尔科夫决策过程的状态、动作和奖励;产生数据并存储到经验回访池中,直到达到一定的数量后开始训练;训练Critic和Actor网络直到网络收敛;网络训练好之后,只需要将状态值输入到Actor网络中就可以得到资源分配和任务卸载方案。本发明专利技术为了更加合理地利用资源,将AR应用分割成子任务并考虑了子任务之间的依赖关系,在资源受限和保证时延要求的条件下,可以智能高效的减少每一个用户终端的能量消耗。

【技术实现步骤摘要】
移动边缘网络中基于强化学习的AR任务卸载和资源分配方法
本专利技术属于无线通信
,涉及一种移动边缘网络中基于强化学习的AR任务卸载和资源分配方法。
技术介绍
随着第五代通信技术的快速发展,大量的新型视频应用不断涌现,如增强现实和虚拟现实等。这些新型视频应用以其强大的浸入式感官体验获得了广大消费者的青睐,但是这类应用具有低时延和大计算量需求,对目前的通信系统造成了巨大的挑战。在中心云系统中,大计算量的任务被卸载到远端中心云进行处理,这种方法会造成回程网络负载过大,任务时延较高的问题。移动边缘计算(MEC)作为5G的主要技术之一,为解决这些问题提供了很好的思路。MEC被部署在靠近用户的核心网边缘,这样就可以将大计算量的任务卸载到MEC服务器执行,减少了卸载到中心云所产生的较大传输时延,提高用户体验。但是针对具体的视频应用,还有许多挑战需要被克服。例如:在网络状态波动和资源有限的情况下,如何合理的分配资源和卸载任务是提高用户体验的一个关键因素。因此,在移动边缘网络中针对AR应用的任务卸载和资源分配方法的研究对提高用户体验质量起着决定性的作用。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺点,提供一种移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,用于解决在网络状态波动和有限的资源情况下,合理的分配资源和卸载任务的技术问题。为达到上述目的,本专利技术采用以下技术方案予以实现:移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,包括以下步骤:<br>步骤1,将网络中每一个用户的AR任务分为五个子任务,建立五个子任务的有向无环图;所述有向无环图表示五个子任务的依赖关系;步骤2,针对网络中的所有AR任务建立任务卸载和资源分配联合优化模型;步骤3,将联合优化模型转化为马尔科夫决策过程,设定马尔科夫决策过程中初始的状态S、动作A和奖励R,通过MADDPG算法训练学习网络,训练目标为最小化每一个用户终端设备的能量消耗,训练结果为AR的任务卸载和资源分配方法;所述分配方法包括MEC服务器计算资源的分配、用户终端计算资源的分配,以及网络中上行和下行通信资源的分配。本专利技术的进一步改进在于:优选的,所述五个子任务为视频源、渲染器、追踪器、映射器和目标识别;所述视频源和渲染器的执行位置为用户终端。优选的,所述有向无环图为:其中,和分别表示中点v和边l的集合,和分别表示在MEC和在用户终端执行任务的点集合,和分别表示上行链路、下行链路和hold的边集合。优选的,步骤2中,所述联合优化模型为:其中,:和分别表示分配给用户u第l个子任务的上行和下行传输资源;和表示基站分配给用户u的上行和下行传输资源;表示MEC服务器分配给用户u第l个子任务的计算资源;表示本地用户终端分配给用户u第l个子任务的计算资源;gu表示有向图中完成一个AR任务的一条路径,tgu和egu分别表示用于u执行AR一个任务的总时延和总能耗;FMEC表示MEC服务器的总计算资源;表示本地用户终端的总计算资源。优选的,步骤3中,所述状态S包括当前所有用户采集的视频帧大小、MEC计算资源大小,当前时刻网络的上下行传输资源,初始计算资源和通信资源的分配方案;动作A为对初始资源分配方案的改变量;奖励R包括任务完成奖励、体验质量奖励和能量消耗奖励。优选的,所述任务完成奖励为:其中,ε()表示阶跃函数,su,q表示状态S的第q维数据,χ1,χ2,χ3,χ4,χ5,χ6,χ7,b1,b2和b3为常数。优选的,所述体验质量奖励为:优选的,所述能量消耗奖励为:优选的,步骤3中,学习网络框架中的经验回访池中的数据达到目标数量,开始训练网络;所述经验回访池中放置有episode的状态S;将旧的状态S输入至Actor网络中输出动作A,产生新的网络参数状态S′和奖励R。优选的,步骤3中,训练网络过程中,每次从经验回放池中抽取一个min-batch的数据(Sj,Aj,S′j,Rj),Critic网络采用如下公式更新网络参数:Actor网络采用如下公式更新网络参数:其中,表示Critic网络的目标值,μ和Q分别表示Actor和Critic网络的目标网络,μ′和Q′分别表示Actor和Critic网络的目标网络,θu表示Actor估计网络的参数,表示Aj里面的元素,表示Rj里面的元素,X表示min-batch的大小,γ表示马尔科夫决策过程的折扣因子。与现有技术相比,本专利技术具有以下有益效果:本专利技术公开了一种移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,该方法将AR任务分解为5个子任务,根据子任务之间的执行依赖关系建立有向无环图;根据用户数目和系统参数(MEC大小,基站带宽等)构建强化学习网络模型,通过将问题转化成马尔科夫决策过程后,利用MADDPG算法训练网络,产生在该状态下的网络资源的分配方案,当网络状态发生变化时,重新输入状态到网络中得到新的资源分配和卸载方案。本专利技术能够适应快速变化的网络环境,联合优化任务卸载和资源分配问题,在资源有限和保证用户体验的情况下,可以智能高效的减少用户终端的能耗。进一步的,根据马尔科夫决策过程训练网络过程确定状态S、动作A和奖励R;接着将每一个episode的状态S输入到Actor网络中输出动作A,产生新的状态S′和奖励R;以(S,A,R,S′)形式将数据存储到经验回访池中;当经验池的数据达到一定的数量,每一次从经验回放池中抽样一个min-batch的数据去训练网络参数,这样不断更新网络直到收敛;训练完成之后,在具体的应用过程中,当用户请求AR应用时,将当前状态S输入到Actor网络中就会得到具体的资源分配和任务卸载方案。【附图说明】图1为本专利技术的流程示意图;图2为AR任务模块图;图3为AR应用执行过程的有向无环图;图4为MADDPG网络框架;图5为三种算法针对每一个用户的奖励对比图;图6为三种算法针对每一个用户的能量消耗对比图;图7为三种算法在每一个episode的平均能量消耗对比图。【具体实施方式】下面结合附图对本专利技术做进一步详细描述:在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制;术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元本文档来自技高网...

【技术保护点】
1.移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,包括以下步骤:/n步骤1,将网络中每一个用户的AR任务分为五个子任务,建立五个子任务的有向无环图;所述有向无环图表示五个子任务的依赖关系;/n步骤2,针对网络中的所有AR任务建立任务卸载和资源分配联合优化模型;/n步骤3,将联合优化模型转化为马尔科夫决策过程,设定马尔科夫决策过程中初始的状态S、动作A和奖励R,通过MADDPG算法训练学习网络,训练目标为最小化每一个用户终端设备的能量消耗,训练结果为AR的任务卸载和资源分配方法;所述分配方法包括MEC服务器计算资源的分配、用户终端计算资源的分配,以及网络中上行和下行通信资源的分配。/n

【技术特征摘要】
1.移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,包括以下步骤:
步骤1,将网络中每一个用户的AR任务分为五个子任务,建立五个子任务的有向无环图;所述有向无环图表示五个子任务的依赖关系;
步骤2,针对网络中的所有AR任务建立任务卸载和资源分配联合优化模型;
步骤3,将联合优化模型转化为马尔科夫决策过程,设定马尔科夫决策过程中初始的状态S、动作A和奖励R,通过MADDPG算法训练学习网络,训练目标为最小化每一个用户终端设备的能量消耗,训练结果为AR的任务卸载和资源分配方法;所述分配方法包括MEC服务器计算资源的分配、用户终端计算资源的分配,以及网络中上行和下行通信资源的分配。


2.根据权利要求1所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,所述五个子任务为视频源、渲染器、追踪器、映射器和目标识别;所述视频源和渲染器的执行位置为用户终端。


3.根据权利要求1所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,所述有向无环图为:



其中,和分别表示中点v和边l的集合,和分别表示在MEC和在用户终端执行任务的点集合,和分别表示上行链路、下行链路和hold的边集合。


4.根据权利要求1所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,步骤2中,所述联合优化模型为:



其中,:和分别表示分配给用户u第l个子任务的上行和下行传输资源;和表示基站分配给用户u的上行和下行传输资源;fuv表示MEC服务器分配给用户u第l个子任务的计算资源;表示本地用户终端分配给用户u第l个子任务的计算资源;gu表示有向图中完成一个AR任务的一条路径,和分别表示用于u执行AR一个任务的总时延和总能耗;FMEC表示MEC服务器的总计算资源;表示本地用户终端的总计算资源。


5.根据权利要求1所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,步骤3中,所述状态S包...

【专利技术属性】
技术研发人员:刘贵忠陈兴方胶胶
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1