一种基于DDPG算法选择车辆的异步联邦优化方法技术

技术编号：37439214 阅读：22 留言：0更新日期：2023-05-06 09:11

本发明专利技术提供一种基于DDPG算法选择车辆的异步联邦优化方法，包括根据车辆自身传输速率、可用计算资源大小以及车辆位置设定时隙t的系统状态、动作以及奖励；根据时隙t的系统动作对参与训练的车辆进行选择，得到被选择的车辆；所述被选择的车辆利用本地数据进行本地训练得到对应的本地模型；考虑训练时延对车辆训练出的本地模型造成的迟滞性影响，对本地模型进行权重优化，得到权重优化后的本地模型；训练完的车辆将权重优化后的本地模型异步上传到路边单元处进行异步联邦聚合，通过多轮重复训练，最终路边单元得到全局模型。本发明专利技术方法计算简便，系统模型合理，仿真实验验证了该方法在车辆环境下能够得到较高的全局模型精度。法在车辆环境下能够得到较高的全局模型精度。法在车辆环境下能够得到较高的全局模型精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于DDPG算法选择车辆的异步联邦优化方法

[0001]本专利技术涉及车载网络
，尤其涉及一种基于DDPG(Deep deterministic policy gradient，深度确定性梯度策略)算法选择车辆的异步联邦优化方法。

技术介绍

[0002]随着科技的发展，车联网技术逐渐兴起，这使我们的出行更加便捷。同时各种车辆上的智能服务也在逐渐兴起。于是车辆在道路上行驶的过程中会根据需求产生一些计算任务。然而传统的云计算服务中，由于云端距离车辆较远，于是上传会产生较大的时延，不适用于高速移动的车辆场景，于是便产生了车载边缘计算。其中，车辆可以将计算任务上传到具有一定计算能力且离车辆较近的路边单元(Road Side Unit，RSU)处进行任务处理，从而极大的减小了任务处理的时延。然而车辆的任务计算需要车辆将本地数据上传到路边单元，让路边单元进行处理。这就产生了隐私安全问题。车辆用户可能会担心隐私泄露而不愿意上传本地数据。于是就产生了联邦学习技术。具体来说，联邦学习会在路边单元处进行一定次数的全局聚合。在第一轮训练中，车辆首先下载路边单元处的初始化全局模型，然后在本地使用本地数据进行本地训练，训练完成后将本地模型而不是本地数据进行上传，在路边单元处收到全部车辆的本地模型后进行本地模型的聚合处理，之后重复第二轮直到达到规定次数。这极大的保护了车辆用户的隐私。
[0003]然而传统的联邦学习中，路边单元需要等全部车辆上传完本地模型后才进行全局模型更新，若存在某一辆车训练以及上传时延过大，则会导致存在其他...

【技术保护点】

【技术特征摘要】
1.一种基于DDPG算法选择车辆的异步联邦优化方法，其特征在于，包括：S1：根据车辆自身传输速率、可用计算资源大小以及车辆位置设定时隙t的系统状态、动作以及奖励；S2：根据时隙t的系统动作对参与训练的车辆进行选择，得到被选择的车辆；S3：所述被选择的车辆利用本地数据进行本地训练得到对应的本地模型；S4：考虑训练时延和传输时延对车辆训练出的本地模型造成的迟滞性影响，对本地模型进行权重优化，得到权重优化后的本地模型；S5：训练完的车辆将权重优化后的本地模型异步上传到路边单元处进行异步联邦聚合，通过多轮重复训练，最终路边单元得到全局模型。2.根据权利要求1所述的基于DDPG算法选择车辆的异步联邦优化方法，其特征在于，步骤S1中，根据车辆自身传输速率、可用计算资源大小以及车辆位置设定时隙t的系统状态、动作以及奖励包括：所述设定时隙t的系统状态为：s(t)＝(Tr(t),μ(t),d
x
(t),a(t
‑
1))其中，s(t)为时隙t的系统状态，Tr(t)表示所有车辆在时隙t各自的传输速率的集合，μ(t)为所有车辆在时隙t各自的可用计算资源的集合，d
x
(t)为所有车辆在时隙t各自沿x轴的位置坐标的集合，a(t
‑
1)为时隙t
‑
1的系统动作；所述设定时隙t的系统动作为：a(t)＝(λ1(t),λ2(t),
…
，λ
K
(t))其中，a(t)为时隙t的系统动作，λ
i
(t),i∈[1,K]表示选择车辆i的概率，令λ1(0)＝λ2(0)＝
…
＝λ
K
(0)＝1；所述设定时隙t的系统奖励为：其中，r(t)为时隙t的系统奖励，ω1和ω2为非负的权重因子，a
di
(t)为时隙t的系统动作，λ
i
(t),i∈[1,K]表示选择车辆i的概率，Loss(t)为异步联邦训练中计算的损失值，为车辆i本地训练所产生的时延，为车辆i在时隙t上传本地模型的传输时延。3.根据权利要求2所述的基于DDPG算法选择车辆的异步联邦优化方法，其特征在于，步骤S2中，根据时隙t的系统动作对参与训练的车辆进行选择，得到被选择的车辆包括以下步骤：S21：设定集合a
d
(t)＝(a
d1
(t),a
d2
(t),
…
，a
dK
(t))；S22：将λ
i
(t)进行归一化处理，设定λ
i
(t)取值大于等于0.5的对应a
di
(t)记为1，否则为0，最终得到的集合a
d
(t)由0跟1组成，1表示选择车辆，0表示不选择车辆。4.根据权利要求2所述的基于DDPG算法选择车辆的异步联邦优化方法，其特征在于，基于时隙t的系统奖励，系统的期望长期折扣奖励可以表示为：
其中，γ∈(0,1)为折扣因子，N为总时隙数，μ为系统的策略，J(μ)为系统的期望长期折扣奖励。5.根据权利要求1所述的基于DDPG算法选择车辆的异步联邦优化方法，其特征在于，步骤S3中，所述被选择的车辆利用本地数据进行本地训练得到对应的本地模型包括以下步骤：S31：在时隙t下，车辆V
k
从路边单元处下载全局模型w
t
‑1，其中，在时隙1，路边单元处的全局模型使用卷积神经网络初始化为w0；S32：车辆V
k
基于卷积神经网络对本地数据进行训练，其本地训练由l轮组成，在第m(m∈[1,l])轮本地训练中，车辆V
k
首先将每个本地数据a的标签概率即y
a
输入到本地模型w
k,m
的卷积神经网络中，然后得到卷积神经网络对每个数据的标签的预测概率采用交叉熵损失函数计算w
k,m
的损失值，计算公式如下：S33：使用随机梯度下降算法更新本地模型，公式如下：其中，为f
k
(w
k,m
)的梯度，η为学习率；S34：车辆V
k
使用更新后的本地模型进行m+1轮本地训练，当本地训练轮次达到l时本地训练停止，车辆获得更新后的本地模型w
k
。6.根据权利要求1所述的基于DDPG算法选择车辆的异步联邦优化方法，其特征在于，步骤S4中，所述训练时延为：其中，为车辆i本地训练所产生的时延，C0为训练一个数据...

【专利技术属性】
技术研发人员：吴琼，王思远，
申请(专利权)人：江南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人