当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于DDPG算法选择车辆的异步联邦优化方法技术

技术编号:37439214 阅读:12 留言:0更新日期:2023-05-06 09:11
本发明专利技术提供一种基于DDPG算法选择车辆的异步联邦优化方法,包括根据车辆自身传输速率、可用计算资源大小以及车辆位置设定时隙t的系统状态、动作以及奖励;根据时隙t的系统动作对参与训练的车辆进行选择,得到被选择的车辆;所述被选择的车辆利用本地数据进行本地训练得到对应的本地模型;考虑训练时延对车辆训练出的本地模型造成的迟滞性影响,对本地模型进行权重优化,得到权重优化后的本地模型;训练完的车辆将权重优化后的本地模型异步上传到路边单元处进行异步联邦聚合,通过多轮重复训练,最终路边单元得到全局模型。本发明专利技术方法计算简便,系统模型合理,仿真实验验证了该方法在车辆环境下能够得到较高的全局模型精度。法在车辆环境下能够得到较高的全局模型精度。法在车辆环境下能够得到较高的全局模型精度。

【技术实现步骤摘要】
一种基于DDPG算法选择车辆的异步联邦优化方法


[0001]本专利技术涉及车载网络
,尤其涉及一种基于DDPG(Deep deterministic policy gradient,深度确定性梯度策略)算法选择车辆的异步联邦优化方法。

技术介绍

[0002]随着科技的发展,车联网技术逐渐兴起,这使我们的出行更加便捷。同时各种车辆上的智能服务也在逐渐兴起。于是车辆在道路上行驶的过程中会根据需求产生一些计算任务。然而传统的云计算服务中,由于云端距离车辆较远,于是上传会产生较大的时延,不适用于高速移动的车辆场景,于是便产生了车载边缘计算。其中,车辆可以将计算任务上传到具有一定计算能力且离车辆较近的路边单元(Road Side Unit,RSU)处进行任务处理,从而极大的减小了任务处理的时延。然而车辆的任务计算需要车辆将本地数据上传到路边单元,让路边单元进行处理。这就产生了隐私安全问题。车辆用户可能会担心隐私泄露而不愿意上传本地数据。于是就产生了联邦学习技术。具体来说,联邦学习会在路边单元处进行一定次数的全局聚合。在第一轮训练中,车辆首先下载路边单元处的初始化全局模型,然后在本地使用本地数据进行本地训练,训练完成后将本地模型而不是本地数据进行上传,在路边单元处收到全部车辆的本地模型后进行本地模型的聚合处理,之后重复第二轮直到达到规定次数。这极大的保护了车辆用户的隐私。
[0003]然而传统的联邦学习中,路边单元需要等全部车辆上传完本地模型后才进行全局模型更新,若存在某一辆车训练以及上传时延过大,则会导致存在其他车辆行使出路边单元的覆盖范围从而导致无法参加全局训练。于是产生了异步联邦训练。具体来说,车辆使用本地数据进行完本地训练后上传本地模型。在路边单元处,其每收到一个来自车辆上传的本地模型就进行一次全局模型的聚合。这能够更快的更新路边单元处的全局模型而不用等待其他车辆的上传。
[0004]由于车辆自身具有一定的移动性,从而造成了时变的信道状况,从而导致了时变的传输速率,这导致车辆拥有不同的传输时延。同时由于不同车辆拥有不同的时变的计算资源且车辆自身拥有本地数据的数量不同,导致了不同的本地训练时延。在异步联邦训练过程中,由于车辆是异步上传本地模型的,于是存在当一辆车还未上传本地模型到路边单元时路边单元已经根据别的上传的本地模型进行了全局模型的更新,于是该辆车的本地模型就具有了一定的陈旧性。陈旧性与本地训练时延和传输时延有关。于是考虑以上因素对路边单元处全局模型的精度影响是至关重要的。
[0005]由于车辆中可能存在坏节点,即车辆自身可用计算资源少,本地数据量少,以及本地训练完后的本地模型会受到一定干扰。坏节点的存在会极大的影响路边单元处的全局模型的精度。于是对参与全局聚合的车辆节点进行选择是十分必要的。
[0006]因此,在综合考虑车辆的移动性、时变的信道状况、车辆自身时变的可用计算资源、车辆不同的本地数据量以及存在车辆坏节点的情况下,本专利技术提出了一种基于DDPG算法选择车辆的异步联邦优化方法。

技术实现思路

[0007]为此,本专利技术实施例提供了一种基于DDPG算法选择车辆的异步联邦优化方法,用于解决现有技术中由于车辆的移动性、时变的信道状况、车辆自身时变的可用计算资源、车辆不同的本地数据量以及存在车辆坏节点的情况进而导致生成的全局模型精度低的问题。
[0008]为了解决上述问题,本专利技术实施例提供一种基于DDPG算法选择车辆的异步联邦优化方法,该方法包括:
[0009]S1:根据车辆自身传输速率、可用计算资源大小以及车辆位置设定时隙t的系统状态、动作以及奖励;
[0010]S2:根据时隙t的系统动作对参与训练的车辆进行选择,得到被选择的车辆;
[0011]S3:所述被选择的车辆利用本地数据进行本地训练得到对应的本地模型;
[0012]S4:考虑训练时延和传输时延对车辆训练出的本地模型造成的迟滞性影响,对本地模型进行权重优化,得到权重优化后的本地模型;
[0013]S5:训练完的车辆将权重优化后的本地模型异步上传到路边单元处进行异步联邦聚合,通过多轮重复训练,最终路边单元得到全局模型。
[0014]优选地,步骤S1中,根据车辆自身传输速率、可用计算资源大小以及车辆位置设定时隙t的系统状态、动作以及奖励包括:
[0015]所述设定时隙t的系统状态为:
[0016]s(t)=(Tr(t),μ(t),d
x
(t),a(t

1))
[0017]其中,s(t)为时隙t的系统状态,Tr(t)表示所有车辆在时隙t各自的传输速率的集合,μ(t)为所有车辆在时隙t各自的可用计算资源的集合,d
x
(t)为所有车辆在时隙t各自沿x轴的位置坐标的集合,a(t

1)为时隙t

1的系统动作;
[0018]所述设定时隙t的系统动作为:
[0019]a(t)=(λ1(t),λ2(t),

,λ
K
(t))
[0020]其中,a(t)为时隙t的系统动作,λ
i
(t),i∈[1,K]表示选择车辆i的概率,令λ1(0)=λ2(0)=

=λ
K
(0)=1;
[0021]所述设定时隙t的系统奖励为:
[0022][0023]其中,r(t)为时隙t的系统奖励,ω1和ω2为非负的权重因子,a
di
(t)为时隙t的系统动作,λ
i
(t),i∈[1,K]表示选择车辆i的概率,Loss(t)为异步联邦训练中计算的损失值,为车辆i本地训练所产生的时延,为车辆i在时隙t上传本地模型的传输时延。
[0024]优选地,步骤S2中,根据时隙t的系统动作对参与训练的车辆进行选择,得到被选择的车辆包括以下步骤:
[0025]S21:设定集合a
d
(t)=(a
d1
(t),a
d2
(t),

,a
dK
(t));
[0026]S22:将λ
i
(t)进行归一化处理,设定λ
i
(t)取值大于等于0.5的对应a
di
(t)记为1,否则为0,最终得到的集合a
d
(t)由0跟1组成,1表示选择车辆,0表示不选择车辆。
[0027]优选地,基于时隙t的系统奖励,系统的期望长期折扣奖励可以表示为:
[0028][0029]其中,γ∈(0,1)为折扣因子,N为总时隙数,μ为系统的策略,J(μ)为系统的期望长期折扣奖励。
[0030]优选地,步骤S3中,所述被选择的车辆利用本地数据进行本地训练得到对应的本地模型包括以下步骤:
[0031]S31:在时隙t下,车辆V
k
从路边单元处下载全局模型w
t
‑1,其中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,包括:S1:根据车辆自身传输速率、可用计算资源大小以及车辆位置设定时隙t的系统状态、动作以及奖励;S2:根据时隙t的系统动作对参与训练的车辆进行选择,得到被选择的车辆;S3:所述被选择的车辆利用本地数据进行本地训练得到对应的本地模型;S4:考虑训练时延和传输时延对车辆训练出的本地模型造成的迟滞性影响,对本地模型进行权重优化,得到权重优化后的本地模型;S5:训练完的车辆将权重优化后的本地模型异步上传到路边单元处进行异步联邦聚合,通过多轮重复训练,最终路边单元得到全局模型。2.根据权利要求1所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,步骤S1中,根据车辆自身传输速率、可用计算资源大小以及车辆位置设定时隙t的系统状态、动作以及奖励包括:所述设定时隙t的系统状态为:s(t)=(Tr(t),μ(t),d
x
(t),a(t

1))其中,s(t)为时隙t的系统状态,Tr(t)表示所有车辆在时隙t各自的传输速率的集合,μ(t)为所有车辆在时隙t各自的可用计算资源的集合,d
x
(t)为所有车辆在时隙t各自沿x轴的位置坐标的集合,a(t

1)为时隙t

1的系统动作;所述设定时隙t的系统动作为:a(t)=(λ1(t),λ2(t),

,λ
K
(t))其中,a(t)为时隙t的系统动作,λ
i
(t),i∈[1,K]表示选择车辆i的概率,令λ1(0)=λ2(0)=

=λ
K
(0)=1;所述设定时隙t的系统奖励为:其中,r(t)为时隙t的系统奖励,ω1和ω2为非负的权重因子,a
di
(t)为时隙t的系统动作,λ
i
(t),i∈[1,K]表示选择车辆i的概率,Loss(t)为异步联邦训练中计算的损失值,为车辆i本地训练所产生的时延,为车辆i在时隙t上传本地模型的传输时延。3.根据权利要求2所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,步骤S2中,根据时隙t的系统动作对参与训练的车辆进行选择,得到被选择的车辆包括以下步骤:S21:设定集合a
d
(t)=(a
d1
(t),a
d2
(t),

,a
dK
(t));S22:将λ
i
(t)进行归一化处理,设定λ
i
(t)取值大于等于0.5的对应a
di
(t)记为1,否则为0,最终得到的集合a
d
(t)由0跟1组成,1表示选择车辆,0表示不选择车辆。4.根据权利要求2所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,基于时隙t的系统奖励,系统的期望长期折扣奖励可以表示为:
其中,γ∈(0,1)为折扣因子,N为总时隙数,μ为系统的策略,J(μ)为系统的期望长期折扣奖励。5.根据权利要求1所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,步骤S3中,所述被选择的车辆利用本地数据进行本地训练得到对应的本地模型包括以下步骤:S31:在时隙t下,车辆V
k
从路边单元处下载全局模型w
t
‑1,其中,在时隙1,路边单元处的全局模型使用卷积神经网络初始化为w0;S32:车辆V
k
基于卷积神经网络对本地数据进行训练,其本地训练由l轮组成,在第m(m∈[1,l])轮本地训练中,车辆V
k
首先将每个本地数据a的标签概率即y
a
输入到本地模型w
k,m
的卷积神经网络中,然后得到卷积神经网络对每个数据的标签的预测概率采用交叉熵损失函数计算w
k,m
的损失值,计算公式如下:S33:使用随机梯度下降算法更新本地模型,公式如下:其中,为f
k
(w
k,m
)的梯度,η为学习率;S34:车辆V
k
使用更新后的本地模型进行m+1轮本地训练,当本地训练轮次达到l时本地训练停止,车辆获得更新后的本地模型w
k
。6.根据权利要求1所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,步骤S4中,所述训练时延为:其中,为车辆i本地训练所产生的时延,C0为训练一个数据...

【专利技术属性】
技术研发人员:吴琼王思远
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1