一种面向长期驾驶模型训练任务的激励方法技术

技术编号：39148814 阅读：23 留言：0更新日期：2023-10-23 14:57

本发明专利技术公开了一种面向长期驾驶模型训练任务的激励方法，应用于云服务器，包括：发布面向自动驾驶的联邦学习任务，以使参与者与云服务器建立通信连接；确定所需发放的奖励并将待训练的初始模型下发至参与者，以使各参与者按照自身选择的参与水平对初始模型进行训练，得到更新模型；获取各参与者上传的更新模型并向各参与者发放奖励；针对各参与者构建第一重复博弈问题模型、针对自身构建第二重复博弈问题模型，通过求解第一重复博弈问题模型和第二重复博弈问题模型，分析各参与者及自身的收益，并返回发布面向自动驾驶的联邦学习任务的步骤。本发明专利技术提高了参与者参与训练的积极性与稳定性，有利于保证训练过程长期稳定运行。有利于保证训练过程长期稳定运行。有利于保证训练过程长期稳定运行。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向长期驾驶模型训练任务的激励方法

[0001]本专利技术属于联邦学习
，具体涉及一种面向长期驾驶模型训练任务的激励方法。

技术介绍

[0002]联邦学习(Federated Learning，FL)是一种通过服务器与多个用户进行参数交互以实现模型协同训练的分布式机器学习范式，其应用与实现离不开用户的积极高效参与。将FL应用于车联网(Internet of Vehicles，IoV)场景中进行驾驶模型训练时，自动驾驶汽车(Connected Autonomous Vehicle，CAV)用户的参与状态会直接影响驾驶模型的决策准确度。由于FL过程中不可避免的能量开销会使CAV用户参与训练的意愿降低，同时用户的自私属性也会导致偷懒怠工的消极参与现象发生，直接造成FL训练过程效率降低，甚至使驾驶模型准确率降低。因此，如何激励CAV用户积极参与训练过程是实现应用FL进行驾驶模型训练的关键问题。另外，FL的实现需要海量用户的参与，但现有技术在奖励分配时缺少向新用户的倾斜，导致难以扩大用户群体，吸引更多新用户参与，不利于FL的广泛推广与应用。面对以上问题，亟需设计一个能有效激励更多用户参与FL且使用户在长期阶段内保持高质量参与行为的激励方法。
[0003]在激励机制设计中，博弈论是一种被广泛使用的方法。部分研究者指出面向用户贡献度来设计激励机制是一种有效的激励用户的方法，合理的贡献度量化标准能够最大限度地激发用户的参与积极性，因此如何量化用户在模型训练过程中的贡献度也成为一个重要问题。
[0004]Zh...

【技术保护点】

【技术特征摘要】
1.一种面向长期驾驶模型训练任务的激励方法，其特征在于，应用于云服务器，包括：发布面向自动驾驶的联邦学习任务，以使有参与意愿的自动驾驶车辆CAV成为参与者，并与所述云服务器建立通信连接；确定所需发放的奖励并将待训练的初始模型下发至所述参与者，以使各参与者按照自身选择的参与水平对所述初始模型进行训练，得到更新模型；获取各参与者上传的更新模型并向各参与者发放奖励；针对各参与者构建第一重复博弈问题模型、针对自身构建第二重复博弈问题模型，通过求解所述第一重复博弈问题模型和第二重复博弈问题模型，分析各参与者及自身的收益，并返回所述发布面向自动驾驶的联邦学习任务的步骤。2.根据权利要求1所述的面向长期驾驶模型训练任务的激励方法，其特征在于，确定所需发放的奖励并将待训练的初始模型下发至所述参与者，以使各参与者按照自身选择的参与水平对所述初始模型进行训练，得到更新模型的步骤，包括：确定所需发放至各参与者的奖励；将待训练的初始模型发送至边缘服务器，以使边缘服务器将所述初始模型下发至各参与者，进一步使各参与者按照选择的参与水平对所述初始模型进行训练，并将训练得到的第一模型上传至边缘服务器进行初步聚合之后，由边缘服务器将初步聚合模型下发至各参与者，使各参与者对初步聚合模型进行训练，直至各参与者与对应的边缘服务器的交互轮次达到预设次数R1，得到第二模型；接收各边缘服务器上传的第二模型，并将通过二次聚合得到的二次聚合模型再次下发至各参与者进行训练后，接收由各边缘服务器上传的经过训练的第三模型，直至边缘服务器与自身的交互轮次达到预设次数R2，得到更新模型。3.根据权利要求1所述的面向长期驾驶模型训练任务的激励方法，其特征在于，所需发放至第k个参与者的奖励其中，表示所需发放至第k个参与者的基础奖励，表示所需发放至第k个参与者的持续性奖励，表示第k个参与者为第一次参与训练时所需发放的新参与者奖励。4.根据权利要求3所述的面向长期驾驶模型训练任务的激励方法，其特征在于，式中，ρ表示持续性奖励的金额，r2表示与第k个参与者通信连接的边缘服务器和云服务器的实际交互轮次。5.根据权利要求3所述的面向长期驾驶模型训练任务的激励方法，其特征在于，式中，θ
k
表示第k个参与者是否为第一次参与训练，θ
k
＝{0,1}，θ
k
＝1表示第k个参与者是第一次参与训练，θ
k
＝0表示第k个参与者不是第一次参与训练。6.根据权利要求3所述的...

【专利技术属性】
技术研发人员：付宇钏，李镇宇，刘莎，李长乐，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人