基于深度强化学习的车辆边缘计算场景中的智能计算卸载方法技术

技术编号:35906371 阅读:14 留言:0更新日期:2022-12-10 10:44
本发明专利技术提出一种基于深度强化学习的车辆边缘计算场景中的智能计算卸载方法,根据无线信道的时变性,采用基于深度强化学习的在线框架,联合优化各个车辆终端的卸载决策、车辆本地计算能力、车辆数据传输功率、信道时隙资源分配决策以及边缘服务器的计算资源分配决策,最小化系统计算时延,得到最优的卸载决策。本发明专利技术相较于传统的启发式算法,因采用深度强化学习,同时有着深度学习的强大计算能力和强化学习的自主学习能力,能够在高动态变化的车联网环境下自动的更新卸载策略。不仅能够在无线信道时变环境下能够快速收敛至最优卸载策略;当各个车辆终端的权重发生变化时,还可以自动调整卸载策略并快速收敛到新的最优卸载策略,具有较强的鲁棒性。具有较强的鲁棒性。具有较强的鲁棒性。

【技术实现步骤摘要】
基于深度强化学习的车辆边缘计算场景中的智能计算卸载方法


[0001]本专利技术涉及移动边缘计算领域,特别涉及一种基于深度强化学习的车辆边缘计算场景中的智能在线卸载方法。

技术介绍

[0002]近年来,随着车联网技术的不断发展和汽车保有量的不断增加,大量的车载应用和多媒体服务相继出现,它们对于服务质量、用户体验以及系统开销这些方面的要求越来越高,导致对于计算能力以及能量消耗等资源的需求越来越大,车辆本身所含有的计算资源与能量存储还不能够很好地胜任目前新型车载应用中广泛存在的计算密集、时延敏感等类型的任务,在解决计算资源不足的问题方面,计算卸载成为了车联网中的一个热门研究话题。
[0003]所谓计算卸载技术是指将计算任务传输也就是“卸载”到具有空闲资源的服务器上进行计算并将计算结果传回,从而解决计算资源不足的问题。目前云计算是比较成熟的计算卸载方法,将计算任务卸载到云端进行计算,但是由于云端与车辆之间的传输时延过大,因此云计算并不适用于车辆场景。
[0004]移动边缘计算是在此基础上的技术,其将计算任务卸载到距离更近的边缘服务器上进行计算,相应的,在车辆场景中,将移动边缘计算与车联网相结合就是车载边缘计算(Vehicular Edge Computing,VEC)。车载边缘计算(Vehicular Edge Computing,VEC)是目前被予以厚望的一种提高车载应用性能的有效方法,通过将车联网与移动边缘计算(Mobile Edge Computing,MEC)相结合,可以有效降低车辆终端在计算任务时产生的时延和能耗。尽管如此,由于车辆电池寿命和容量受限,仍难以长期保证车载应用的性能。
[0005]无线能量传输(Wireless Power Transfer,WPT)是指能量从能量源传输到电负载的一个过程,这个过程通过无线传输实现,而不是采用传统的有线方式来实现。以空气为介质,能量源向无线设备传输能量从而保证无线设备有着充足的能量来处理各种任务。最新的研究说明了无线能量传输技术的可行性。
[0006]因为车辆电池寿命和能量受限,本专利技术考虑将无线能量传输技术加进来,通过移动边缘服务器向车辆传输能量,进一步降低车辆能耗。将无线能量传输技术与VEC网络相结合,边缘服务器能以无线传输的方式为车辆补充能量,从而保障并提高车载应用的性能和用户的服务体验,这便是无线供电移动边缘计算技术。而在无线衰落环境下,在多用户场景中,一个主要挑战是联合优化单个计算模式(卸载或本地计算)和无线资源分配,由于存在二进制卸载变量,这类问题通常被建模为混合整数规划(Mixed Integer Programming,MIP)问题。针对该问题,使用传统的分支定界算法和动态规划来解决MIP问题,有着极高的计算复杂度,无法适用于实时变化的应用环境;而启发式局部搜索方法和凸松弛方法能够降低计算复杂度,但都需要大量的迭代才能够达到满意的局部最优,也不适合在快速衰落信道中做出实时卸载决策。

技术实现思路

[0007]针对包含一个边缘服务器和多个车辆终端的无线供电移动边缘计算网络,本专利技术提出一种基于深度强化学习的车辆边缘计算场景中的智能计算卸载方法,根据无线信道的时变性,采用基于深度强化学习的在线框架,联合优化各个车辆终端的卸载决策、车辆本地计算能力、车辆数据传输功率、信道时隙资源分配决策以及边缘服务器的计算资源分配决策,最小化系统计算时延,得到最优的卸载决策。
[0008]本专利技术的技术方案为:
[0009]所述一种基于深度强化学习的车辆边缘计算场景中的智能计算卸载方法,包括以下步骤:
[0010]步骤1:基于本时间框架内的无线信道增益h
i
,通过深度神经网络生成一个松弛的卸载决策集合x
t

[0011]步骤2:通过保序量化方法将步骤1生成的松弛的卸载决策集合x
t
量化为K个二进制的卸载决策;
[0012]步骤3:将量化得到的每个二进制卸载决策x
k
代入到问题P1:
[0013]P1:
[0014]s.t.C1:x
i
∈{0,1}
[0015]C2:
[0016]C3:
[0017]C4:
[0018]C5:其中N为车辆终端的数量,x
i
为车辆终端i(i=1,

,N)的卸载动作,x
i
=1表示车辆终端i的计算任务卸载到边缘服务器,x
i
=0表示车辆终端i的计算任务在本地执行;f
M
为边缘服务器所拥有的总计算资源,f
i
为边缘服务器分配给车辆终端i的计算资源,为车辆终端i的边缘计算总时延,w
i
为车辆终端i任务计算时延的权重因子,为车辆终端i的本地计算时延,a为边缘服务器向车辆终端传输能量信道时长占比比例,τ
i
为车辆终端i的信道时长占比比例;
[0019]将问题P1转化为资源分配子问题P2:
[0020]P2:
[0021]s.t.C2、C3、C4、C5
[0022]其中,φ为处理1比特任务数据所需的循环数,D
i
为车辆终端i上计算任务的数据
量,μ为能量收获效率,P为边缘服务器的发射功率,h
i
为第i个时间周期内的无线信道增益,k
i
为车辆终端i的计算能效系数,β
i
为车辆终端i上行链路的传输开销系数;X0和X1分别用于表示采取本地计算和卸载计算车辆的集合;W为无线信道的带宽;σ2为无线信道的高斯噪声频谱密度;
[0023]步骤4:将问题P2分解为P3和P4两个子问题:
[0024]P3:
[0025]s.t.C4、C5
[0026]P4:
[0027]s.t.C2、C3
[0028]求解问题P3得到时隙分配{a,τ};求解问题P4得到计算资源分配f;
[0029]步骤5:对于每个二进制卸载决策,将求解问题P3、P4得到的结果代回问题P1并求解其得到的系统时延,对于所有的二进制卸载决策,选择系统时延最小的二进制卸载决策作为最优卸载决策;
[0030]步骤6:将得到的最优卸载决策和无线信道增益h
i
作为经验标记数据存放到内存中;
[0031]步骤7:每隔δ个时间框架,从内存中随机选择一个数据样本,对深度神经网络进行训练,更新深度神经网络中的参数θ,然后返回步骤1,直至方法结束。
[0032]进一步的,车辆终端i的边缘计算总时延为为其中为车辆终端i的上行链路数据传输时延,边缘服务器执行车辆终端i传输过来的任务所需要的执行时延。
[0033]进一步的,步骤2中,将松弛的卸载决策x
t
量化为K个二进制的卸载决策的过程为:
[0034]对于给定的1≤K≤N+1,由松弛卸载决策x
t
生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的车辆边缘计算场景中的智能计算卸载方法,其特征在于:包括以下步骤:步骤1:基于本时间框架内的无线信道增益h
i
,通过深度神经网络生成一个松弛的卸载决策集合x
t
;步骤2:通过保序量化方法将步骤1生成的松弛的卸载决策集合x
t
量化为K个二进制的卸载决策;步骤3:将量化得到的每个二进制卸载决策x
k
代入到问题P1:s.t.C1:x
i
∈{0,1}∈{0,1}∈{0,1}∈{0,1}其中N为车辆终端的数量,x
i
为车辆终端i(i=1,

,N)的卸载动作,x
i
=1表示车辆终端i的计算任务卸载到边缘服务器,x
i
=0表示车辆终端i的计算任务在本地执行;f
M
为边缘服务器所拥有的总计算资源,f
i
为边缘服务器分配给车辆终端i的计算资源,T
ic
为车辆终端i的边缘计算总时延,w
i
为车辆终端i任务计算时延的权重因子,T
il
为车辆终端i的本地计算时延,a为边缘服务器向车辆终端传输能量信道时长占比比例,τ
i
为车辆终端i的信道时长占比比例;将问题P1转化为资源分配子问题P2:s.t.C2、C3、C4、C5其中,φ为处理1比特任务数据所需的循环数,D
i
为车辆终端i上计算任务的数据量,μ为能量收获效率,P为边缘服务器的发射功率,h
i
为第i个时间周期内的无线信道增益,k
i
为车辆终端i的计算能效系数,β
i
为车辆终端i上行链路的传输开销系数;X0和X1分别用于表示采取本地计算和卸载计算车辆的集合;W为无线信道的带宽;σ2为无线信道的高斯噪声频谱密度;步骤4:将问题P2分解为P3和P4两个子问题:
s.t.C4、C5s.t.C2、C3求解问题P3得到时隙分配{a,τ};求解问题P4得到计算资源分配f;步骤5:对于每个二进制卸载决策,将求解问题P3、P4得到的结果代回问题P1并求解其得到的系统时延,对于所有的二进制卸载决策,选择系统时延最小的二进制卸载决策作为最优卸载决策;步骤6:...

【专利技术属性】
技术研发人员:汪彦婷钱卓何立军
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1