一种面向长期驾驶模型训练任务的激励方法技术

技术编号:39148814 阅读:9 留言:0更新日期:2023-10-23 14:57
本发明专利技术公开了一种面向长期驾驶模型训练任务的激励方法,应用于云服务器,包括:发布面向自动驾驶的联邦学习任务,以使参与者与云服务器建立通信连接;确定所需发放的奖励并将待训练的初始模型下发至参与者,以使各参与者按照自身选择的参与水平对初始模型进行训练,得到更新模型;获取各参与者上传的更新模型并向各参与者发放奖励;针对各参与者构建第一重复博弈问题模型、针对自身构建第二重复博弈问题模型,通过求解第一重复博弈问题模型和第二重复博弈问题模型,分析各参与者及自身的收益,并返回发布面向自动驾驶的联邦学习任务的步骤。本发明专利技术提高了参与者参与训练的积极性与稳定性,有利于保证训练过程长期稳定运行。有利于保证训练过程长期稳定运行。有利于保证训练过程长期稳定运行。

【技术实现步骤摘要】
一种面向长期驾驶模型训练任务的激励方法


[0001]本专利技术属于联邦学习
,具体涉及一种面向长期驾驶模型训练任务的激励方法。

技术介绍

[0002]联邦学习(Federated Learning,FL)是一种通过服务器与多个用户进行参数交互以实现模型协同训练的分布式机器学习范式,其应用与实现离不开用户的积极高效参与。将FL应用于车联网(Internet of Vehicles,IoV)场景中进行驾驶模型训练时,自动驾驶汽车(Connected Autonomous Vehicle,CAV)用户的参与状态会直接影响驾驶模型的决策准确度。由于FL过程中不可避免的能量开销会使CAV用户参与训练的意愿降低,同时用户的自私属性也会导致偷懒怠工的消极参与现象发生,直接造成FL训练过程效率降低,甚至使驾驶模型准确率降低。因此,如何激励CAV用户积极参与训练过程是实现应用FL进行驾驶模型训练的关键问题。另外,FL的实现需要海量用户的参与,但现有技术在奖励分配时缺少向新用户的倾斜,导致难以扩大用户群体,吸引更多新用户参与,不利于FL的广泛推广与应用。面对以上问题,亟需设计一个能有效激励更多用户参与FL且使用户在长期阶段内保持高质量参与行为的激励方法。
[0003]在激励机制设计中,博弈论是一种被广泛使用的方法。部分研究者指出面向用户贡献度来设计激励机制是一种有效的激励用户的方法,合理的贡献度量化标准能够最大限度地激发用户的参与积极性,因此如何量化用户在模型训练过程中的贡献度也成为一个重要问题。
[0004]Zhan等人在提出了一种基于博弈的FL平台激励方法,具体地,每个移动用户通过考虑其获得的回报和能量成本决定自己的参与水平,并且奖励的分配与用户的信誉相关。Sarikaya等人将问题描述为服务器(领导者)和参与用户(追随者)之间的两阶段斯塔克尔伯格博弈,每单位中央处理器(Central Processing Unit,CPU)功率的价格在博弈初始时就提前设置好,在下层博弈中,工人通过调整自己投入训练的CPU功率,从而使自身的收益最大;在上层博弈中,服务器端调整用户每单位功率的价格,从而使服务器在有限的预算之下,通过优化工人投入模型训练的过程CPU功率分配,来获得最短的计算时延并最小化模型收敛的时间。
[0005]但是,上述方法大多只面向一次FL任务,缺乏关于长期性学习任务的考虑;其次,在任务发布初期进行奖励分配时,缺乏向新用户的奖励倾斜,不利于吸引新用户参与。

技术实现思路

[0006]为了解决现有技术中存在的上述问题,本专利技术提供了一种面向长期驾驶模型训练任务的激励方法。本专利技术要解决的技术问题通过以下技术方案实现:
[0007]本专利技术提供一种面向长期驾驶模型训练任务的激励方法,其特征在于,应用于云服务器,包括:
[0008]发布面向自动驾驶的联邦学习任务,以使有参与意愿的自动驾驶车辆CAV成为参与者,并与所述云服务器建立通信连接;
[0009]确定所需发放的奖励并将待训练的初始模型下发至所述参与者,以使各参与者按照自身选择的参与水平对所述初始模型进行训练,得到更新模型;
[0010]获取各参与者上传的更新模型并向各参与者发放奖励;
[0011]针对各参与者构建第一重复博弈问题模型、针对自身构建第二重复博弈问题模型,通过求解所述第一重复博弈问题模型和第二重复博弈问题模型,分析各参与者及自身的收益,并返回所述发布面向自动驾驶的联邦学习任务的步骤。
[0012]在本专利技术的一个实施例中,确定所需发放的奖励并将待训练的初始模型下发至所述参与者,以使各参与者按照自身选择的参与水平对所述初始模型进行训练,得到更新模型的步骤,包括:
[0013]确定所需发放至各参与者的奖励;
[0014]将待训练的初始模型发送至边缘服务器,以使边缘服务器将所述初始模型下发至各参与者,进一步使各参与者按照选择的参与水平对所述初始模型进行训练,并将训练得到的第一模型上传至边缘服务器进行初步聚合之后,由边缘服务器将初步聚合模型下发至各参与者,使各参与者对初步聚合模型进行训练,直至各参与者与对应的边缘服务器的交互轮次达到预设次数R1,得到第二模型;
[0015]接收各边缘服务器上传的第二模型,并将通过二次聚合得到的二次聚合模型再次下发至各参与者进行训练后,接收由各边缘服务器上传的经过训练的第三模型,直至边缘服务器与自身的交互轮次达到预设次数R2,得到更新模型。
[0016]在本专利技术的一个实施例中,所需发放至第k个参与者的奖励其中,表示所需发放至第k个参与者的基础奖励,表示所需发放至第k个参与者的持续性奖励,表示第k个参与者为第一次参与训练时所需发放的新参与者奖励。
[0017]在本专利技术的一个实施例中,
[0018][0019]式中,ρ表示持续性奖励的金额,r2表示与第k个参与者通信连接的边缘服务器和云服务器的实际交互轮次。
[0020]在本专利技术的一个实施例中,
[0021][0022]式中,θ
k
表示第k个参与者是否为第一次参与训练,θ
k
={0,1},θ
k
=1表示第k个参与者是第一次参与训练,θ
k
=0表示第k个参与者不是第一次参与训练。
[0023]在本专利技术的一个实施例中,在本专利技术的一个实施例中,为预设的基础奖励金额。
[0024]在本专利技术的一个实施例中,按照如下步骤针对各参与者构建第一重复博弈问题模
型:
[0025]确定第k个参与者在本次博弈中的收益u
k

[0026]基于收益u
k
构建第一重复博弈问题模型:
[0027][0028]式中,表示第k个参与者在重复博弈过程中的收益,表示第k个参与者在第t

1次博弈中的贴现因子,δ
k
∈(0,1],表示第k个参与者在第t次博弈中的效益函数,表示第k个参与者和所述云服务器在第t次博弈中的策略,表示第k个参与者和所述云服务器在第t次博弈中的策略,表示第k个参与者在第t次博弈中的参与策略,n
neg
表示第k个参与者选择“消极参与”策略,n
pos
表示第k个参与者选择“积极参与”策略,表示所述云服务器在第t次博弈中的参与策略,与策略,表示所述云服务器选择“消极参与”策略,表示所述云服务器选择“积极参与”策略。
[0029]在本专利技术的一个实施例中,确定第k个参与者在本次博弈中的收益u
k
的步骤,包括:
[0030]确定第k个参与者在本次博弈中的能量开销c
k
以及第k个参与者在本次博弈后获得的奖励v
k

[0031]基于能量开销c
k
和奖励v
k
,计算第k个参与者在本次博弈中的收益u
k

[0032]u
k
=v
k本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向长期驾驶模型训练任务的激励方法,其特征在于,应用于云服务器,包括:发布面向自动驾驶的联邦学习任务,以使有参与意愿的自动驾驶车辆CAV成为参与者,并与所述云服务器建立通信连接;确定所需发放的奖励并将待训练的初始模型下发至所述参与者,以使各参与者按照自身选择的参与水平对所述初始模型进行训练,得到更新模型;获取各参与者上传的更新模型并向各参与者发放奖励;针对各参与者构建第一重复博弈问题模型、针对自身构建第二重复博弈问题模型,通过求解所述第一重复博弈问题模型和第二重复博弈问题模型,分析各参与者及自身的收益,并返回所述发布面向自动驾驶的联邦学习任务的步骤。2.根据权利要求1所述的面向长期驾驶模型训练任务的激励方法,其特征在于,确定所需发放的奖励并将待训练的初始模型下发至所述参与者,以使各参与者按照自身选择的参与水平对所述初始模型进行训练,得到更新模型的步骤,包括:确定所需发放至各参与者的奖励;将待训练的初始模型发送至边缘服务器,以使边缘服务器将所述初始模型下发至各参与者,进一步使各参与者按照选择的参与水平对所述初始模型进行训练,并将训练得到的第一模型上传至边缘服务器进行初步聚合之后,由边缘服务器将初步聚合模型下发至各参与者,使各参与者对初步聚合模型进行训练,直至各参与者与对应的边缘服务器的交互轮次达到预设次数R1,得到第二模型;接收各边缘服务器上传的第二模型,并将通过二次聚合得到的二次聚合模型再次下发至各参与者进行训练后,接收由各边缘服务器上传的经过训练的第三模型,直至边缘服务器与自身的交互轮次达到预设次数R2,得到更新模型。3.根据权利要求1所述的面向长期驾驶模型训练任务的激励方法,其特征在于,所需发放至第k个参与者的奖励其中,表示所需发放至第k个参与者的基础奖励,表示所需发放至第k个参与者的持续性奖励,表示第k个参与者为第一次参与训练时所需发放的新参与者奖励。4.根据权利要求3所述的面向长期驾驶模型训练任务的激励方法,其特征在于,式中,ρ表示持续性奖励的金额,r2表示与第k个参与者通信连接的边缘服务器和云服务器的实际交互轮次。5.根据权利要求3所述的面向长期驾驶模型训练任务的激励方法,其特征在于,式中,θ
k
表示第k个参与者是否为第一次参与训练,θ
k
={0,1},θ
k
=1表示第k个参与者是第一次参与训练,θ
k
=0表示第k个参与者不是第一次参与训练。6.根据权利要求3所述的...

【专利技术属性】
技术研发人员:付宇钏李镇宇刘莎李长乐
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1