当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于深度确定性策略的车辆边缘计算任务卸载方法技术

技术编号:31236810 阅读:17 留言:0更新日期:2021-12-08 10:20
本发明专利技术公开了一种基于深度确定性策略的车辆边缘计算任务卸载方法、装置、设备及计算机可读存储介质,包括:对车辆边缘计算系统进行建模,基于系统模型,建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型;根据通信模型和计算模型,将车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强化学习框架;利用DDPG算法得到最优任务卸载功率分配策略。本发明专利技术所提供的方法、装置、设备及计算机可读存储介质,通过DDPG算法解决VEC环境随机且动态的问题,求得车辆用户最优功率分配测量,最小化功率消耗与延迟。最小化功率消耗与延迟。最小化功率消耗与延迟。

【技术实现步骤摘要】
一种基于深度确定性策略的车辆边缘计算任务卸载方法


[0001]本专利技术涉及车载任务卸载
,特别是涉及一种基于深度确定性策略的车辆边缘计算任务卸载方法、装置、设备以及计算机可读存储介质。

技术介绍

[0002]随着道路上车辆数目的增加,为了满足车辆用户的娱乐需求以及实现各种车载需要求,如虚拟现实、图像处理、人脸识别、自动驾驶决策等一些计算密集型应用正在变得越来越普及。这些应用实现需要通过各种车辆用户设备如智能手机、可穿戴设备,和车辆传感器等进行采集大量数据采集。采集到的大量数据导致大量的计算任务,而这些大量的计算任务又需要被及时地处理,会导致车辆用户的计算负担。
[0003]车辆边缘计算任务卸载(Vehicular Edge Computing,VEC)被提出可以减轻车辆的计算负担,车辆边缘计算系统一般由车辆用户、基站和边缘服务器构成,边缘服务器拥有强大的计算资源,当车辆用户进入基站覆盖范围时,有计算任务的车辆用户除了本地处理计算任务以外,还可以选择将部分或者全部计算任务通过无线通信发送给基站,与基站相连的拥有强大计算资源的边缘服务器可以将计算任务快速处理,并将计算结果通过无线通信返回给车载用户。
[0004]然而,很多车辆用户的设备是电池供电的,因此需要考虑用户在处理数据或者任务卸载时的节能性问题。另一方面,许多计算任务如虚拟现实应用、人脸识别等需要及时的处理计算任务,计算任务处理的及时性需要被考虑。因此需要设计任务卸载方案来保证最优的节能性和及时性。
[0005]VEC系统中车辆用户的计算任务到达率、信道条件等存在随机性,而传统的优化算法如凸优化、博弈论不能解决随机的优化问题,且传统优化算法只能求得一次性的最优解或者近似最优解,但是不会考略每次决策后对后续的影响。
[0006]综上所述可以看出,VEC系统中车辆用户如何自适应调节功率分配,以最小化功率消耗与延迟是目前有待解决的问题。

技术实现思路

[0007]本专利技术的目的是提供一种基于深度确定性策略的车辆边缘计算任务卸载方法、装置、设备以及计算机可读存储介质,以解决VEC系统车辆用户的计算任务到达率、信道条件等存在随机性,而传统优化算法不能解决随机优化问题且仅能求得一次性最优解的问题。
[0008]为解决上述技术问题,本专利技术提供一种基于深度确定性策略的车辆边缘计算任务卸载方法,包括:对车辆边缘计算系统进行建模,其中,所述车辆边缘计算系统包括基站、与所述基站连接的边缘服务器和多个单天线车辆用户;基于车辆边缘计算系统模型,建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型;根据所述通信模型和所述计算模型,将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强
化学习框架;利用DDPG算法得到最优任务卸载功率分配策略。
[0009]优选地,所述对车辆边缘计算系统进行建模包括:
[0010]将所述车辆用户在所述基站的覆盖范围内的时间划分为N
t
个等长时隙,每个时隙的索引t∈{0,1,...,N
t
},时隙间隔为τ;其中,所述基站的覆盖范围的直径为D。
[0011]优选地,所述基站覆盖范围内的车辆用户与所述基站之间的通信模型包括:
[0012]所述车辆用户在时隙t的信道矢量为:
[0013][0014]其中,h
s
(t)为采用自回归模型表示的小尺度衰落,h
p
(t)为路径损耗;
[0015][0016]式中,ρ为归一化信道相关系数,误差向量为高斯白噪声,I
N
为维度为N
×
1的单位向量;
[0017]以所述基站为坐标原点,构建空间直角坐标系,则所述路径损耗h
p
(t)的表达式为:
[0018][0019]式中,h
r
为所述车辆用户与所述基站的通信距离为1米时的信道增益;P
u
(t)=(d(t),w,0)为所述车辆用户时隙t在所述空间直角坐标系中的位置,d(t)和w分别为所述车辆用户时隙t在所述空间直角坐标系中的x轴坐标与y轴坐标,设所述车辆用户在所述基站的覆盖范围内以速度v匀速行驶,则每个时隙所述车辆用户在所述空间直角坐标系中x轴坐标更新为d(t+1)=d(t)+vτ;P
b
=(0,0,H)为所述基站上天线的位置,H为所述基站上天线沿z轴的坐标;η为路径损耗指数;
[0020]所述基站时隙t接收到的信号为:
[0021][0022]式中,p
o
(t)∈[0,P
o
]为所述车辆用户在时隙t任务卸载的功率,s(t)为偏差为1的复数信号,为方差为的高斯白噪声;
[0023]所述车辆用户时隙t的信噪比为:
[0024]优选地,所述基站覆盖范围内的车辆用户的计算模型为:
[0025]B(t+1)=[B(t)

(d
o
(t)+d
l
(t))]+
+a(t),
[0026]其中,B(t+1)为时隙t+1的计算任务缓存长度,B(t)为时隙t的计算任务缓存长度,a(t)为时隙的包到达率;B(0)=0,[
·
]+
=max(0,
·
);
[0027]所述车辆用户在时隙t任务卸载数据量d
o
(t)为:
[0028]d
o
(t)=τW log2(1+γ(t)),
[0029]式中,W为信道带宽;
[0030]所述车辆用户在时隙t本地执行数据量d
l
(t)为:
[0031]d
l
(t)=τf(t)/C,
[0032]式中,为CPU在时隙t的频率,p
l
(t)∈[0,P
l
]为所述车辆用户在时隙t本地执行的功率,κ为切换电容,C为计算单位比特任务所需的CPU圈数。
[0033]优选地,所述根据所述通信模型和所述计算模型,将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强化学习框架包括:
[0034]利用所述时隙t的计算任务缓存长度B(t)、时隙t

1的信噪比γ(t

1)以及所述车辆用户时隙t在所述空间直角坐标系中的x轴坐标d(t),表征时隙t的状态空间s
t
=[B(t),γ(t

1),d(t)];
[0035]根据所述车辆用户在时隙t的任务卸载p
o
(t)的功率和本地执行的功率p
l
(t),表征时隙t的动作空间a
t
=[p
o
(t),p
l
...

【技术保护点】

【技术特征摘要】
1.一种基于深度确定性策略的车辆边缘计算任务卸载方法,其特征在于,包括:对车辆边缘计算系统进行建模,其中,所述车辆边缘计算系统包括基站、与所述基站连接的边缘服务器和多个单天线车辆用户;基于车辆边缘计算系统模型,建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型;根据所述通信模型和所述计算模型,将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强化学习框架;利用DDPG算法得到最优任务卸载功率分配策略。2.如权利要求1所述的方法,其特征在于,所述对车辆边缘计算系统进行建模包括:将所述车辆用户在所述基站的覆盖范围内的时间划分为N
t
个等长时隙,每个时隙的索引t∈{0,1,...,N
t
},时隙间隔为τ;其中,所述基站的覆盖范围的直径为D。3.如权利要求2所述的方法,其特征在于,所述基站覆盖范围内的车辆用户与所述基站之间的通信模型包括:所述车辆用户在时隙t的信道矢量为:其中,h
s
(t)为采用自回归模型表示的小尺度衰落,h
p
(t)为路径损耗;式中,ρ为归一化信道相关系数,误差向量为高斯白噪声,I
N
为维度为N
×
1的单位向量;以所述基站为坐标原点,构建空间直角坐标系,则所述路径损耗h
p
(t)的表达式为:式中,h
r
为所述车辆用户与所述基站的通信距离为1米时的信道增益;P
u
(t)=(d(t),w,0)为所述车辆用户时隙t在所述空间直角坐标系中的位置,d(t)和w分别为所述车辆用户时隙t在所述空间直角坐标系中的x轴坐标与y轴坐标,设所述车辆用户在所述基站的覆盖范围内以速度v匀速行驶,则每个时隙所述车辆用户在所述空间直角坐标系中x轴坐标更新为d(t+1)=d(t)+vτ;P
b
=(0,0,H)为所述基站上天线的位置,H为所述基站上天线沿z轴的坐标;η为路径损耗指数;所述基站时隙t接收到的信号为:式中,p
o
(t)∈[0,P
o
]为所述车辆用户在时隙t任务卸载的功率,s(t)为偏差为1的复数信号,为方差为的高斯白噪声;所述车辆用户时隙t的信噪比为:4.如权利要求3所述的方法,其特征在于,所述基站覆盖范围内的车辆用户的计算模型为:
B(t+1)=[B(t)

(d
o
(t)+d
l
(t))]
+
+a(t),其中,B(t+1)为时隙t+1的计算任务缓存长度,B(t)为时隙t的计算任务缓存长度,a(t)为时隙的包到达率;B(0)=0,[
·
]
+
=max(0,
·
);所述车辆用户在时隙t任务卸载数据量d
o
(t)为:d
o
(t)=τW log2(1+γ(t)),式中,W为信道带宽;所述车辆用户在时隙t本地执行数据量d
l
(t)为:d
l
(t)=τf(t)/C,式中,为CPU在时隙t的频率,p
l
(t)∈[0,P
l
]为所述车辆用户在时隙t本地执行的功率,κ为切换电容,C为计算单位比特任务所需的CPU圈数。5.如权利要求4所述的方法,其特征在于,所述根据所述通信模型和所述计算模型,将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强化学习框架包括:利用所述时隙t的计算任务缓存长度B(t)、时隙t

1的信噪比γ(t

1)以及所述车辆用户时隙t在所述空间直角坐标系中的x轴坐标d(t),表征时隙t的状态空间s
t
=[B(t),γ(t

1),d(t)];根据所述车辆用户在时隙t的任务卸载p
o
(t)的功率和本地执行的功率p
l
(t),表征时隙t的动作空间a
t
=[p
o
(t),p
l
(t)];建立奖励函数r
t


[ω1(p
o
(t)+p
l
(t))+ω2B(t)],ω1、ω2为非负的权重因子;构建所述车辆用户服从策略μ
θ
(s
t
|θ)在状态s
t
和动作a
t
下的动作价值函数Q
ζ
(s
t
,a
t
)。6.如权利要求5所述的方法,其特征在于,所述利用DDPG算法得到最优任务卸载功率分配策略的过程包括:S601:随机初始化actor网络参数θ及critic网络参数ζ,将θ和ζ赋值给θ

和ζ

,以完成target actor网络参数θ

和target critic的网络参数的初始化ζ

,建立回放缓存S602:将训练片段数k初始化为1;S603:将片段k中的时隙t初始化为1;S604:将状态s
t
输入所述actor网络,输出μ
θ
(s<...

【专利技术属性】
技术研发人员:吴琼朱洪彪
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1