基于数据质量评估的强化联邦学习动态采样方法及设备技术

技术编号:38223321 阅读:10 留言:0更新日期:2023-07-25 17:55
本申请提供一种基于数据质量评估的强化联邦学习动态采样方法及设备,能够根据初始梯度信息构建初始全局模型,并根据初始全局模型的模型性能确定每个客户端的贡献指数,将贡献指数应用到联邦学习的客户端采样中,可以基于贡献指数评估每个客户端的数据质量。然后根据贡献指数和预设的目标精度确定每个客户端的最优动作价值函数值,因为最优动作价值函数综合考虑了模型性能和模型精度,所以根据最优动作价值函数值对预设数量个客户端进行采样,能够有效地在大量参与联邦学习的客户端中智能化地筛选出高数据质量的客户端,利用具有高数据质量的客户端进行强化联邦学习,可以提高联邦学习得到的全局模型的质量和精度。邦学习得到的全局模型的质量和精度。邦学习得到的全局模型的质量和精度。

【技术实现步骤摘要】
基于数据质量评估的强化联邦学习动态采样方法及设备


[0001]本申请涉及数据处理
,尤其涉及一种基于数据质量评估的强化联邦学习动态采样方法及设备。

技术介绍

[0002]在联邦学习中,参与的客户端数量通常非常庞大且客户端拥有的数据质量复杂多样,因为模型分发和重新上传的带宽受限,在所有参与设备上并行执行模型更新和聚合是不切实际的,所以一般只选取一部分客户端参与联邦学习的训练过程。因此,客户端采样方法对于降低联邦学习的通信开销,提高联邦训练过程中的收敛速度和最终模型精度等至关重要。相关技术中基于客户端上的数据样本数量占整个训练样本的比例进行客户端采样来降低联邦学习的通信开销,但是,简单地将数据量作为评判客户端质量的指标,忽略了数据量大的客户端可能数据质量较低的可能,此时根据数据量选择客户端反而会降低模型质量并影响最终模型精度。

技术实现思路

[0003]有鉴于此,本申请的目的在于提出一种基于数据质量评估的强化联邦学习动态采样方法及设备,用于提高联邦学习得到的模型的质量和精度。
[0004]基于上述目的,本申请的第一方面提供了一种基于深度强化学习和数据质量评估的联邦学习客户端动态采样方法,包括:确定客户端的初始梯度信息;根据所述初始梯度信息构建联邦学习在当前通信回合的初始全局模型;根据所述初始全局模型的模型性能确定每个客户端的贡献指数;根据贡献指数和预设的目标精度确定每个所述客户端的最优动作价值函数值;根据所述最优动作价值函数值对预设数量个客户端进行采样。
[0005]可选地,所述根据所述梯度信息构建联邦学习在当前通信回合的初始全局模型,包括:根据联邦学习的通信轮次数确定历史全局模型;确定每个所述客户端在联邦学习的当前通信轮次的样本量;根据所述初始梯度信息、所述样本量和所述客户端数量确定聚合梯度;根据所述聚合梯度和所述历史全局模型确定联邦学习在当前通信回合的所述初始全局模型。
[0006]可选地,所述模型性能包括标准模型性能和终端模型性能;所述根据所述初始全局模型的模型性能确定每个客户端的贡献指数,包括:根据预设的标准测试集确定所述初始全局模型的所述标准模型性能;根据每个所述客户端的数据集确定所述初始全局模型的所述终端模型性能;根据所述标准模型性能和所述终端模型性能确定每个客户端的贡献指数。
[0007]可选地,所述根据贡献指数和预设的目标精度确定每个所述客户端的最优动作价值函数值,包括:根据所述客户端数量确定动作空间,其中,每个客户端对应所述动作空间内的一个选取动作;根据所述目标精度和所述贡献指数确定所述动作空间中每个所述选取动作对应的即时奖励;根据所述即时奖励和预设的折扣因子确定每个所述选取动作对应的所述最优动作价值函数值。
[0008]可选地,所述根据所述动作价值函数值对预设数量个客户端进行采样,包括:对所述动作价值函数值进行降序排列,得到选取集合;在所述选取集合中选取前所述预设数量个目标动作价值函数值;将所述目标价值函数值对应的客户端确定目标客户端,并对所述目标客户端进行采样。
[0009]可选地,所述根据所述目标精度和所述贡献指数确定所述动作空间中每个所述选取动作对应的即时奖励,包括:根据所述联邦学习的通信轮次数确定所述初始全局模型在预设的验证集中的当前测试精度;确定所述当前测试精度和所述目标精度确定精度差值;根据所述精度差值和所述贡献指数确定所述即时奖励。
[0010]可选地,所述基于数据质量评估的强化联邦学习动态采样方法还包括:根据每个通信轮次的即时奖励和所述折扣因子确定所述累计折扣奖励,其中,所述累计折扣奖励和通信轮次之间为反比关系;响应于所述累计折扣奖励小于等于预设的奖励阈值,结束训练并输出聚合后的全局模型。
[0011]本申请的第二方面提供了一种基于数据质量评估的强化联邦学习动态采样装置,包括:信息获取模块,被配置为:确定客户端的初始梯度信息;模型重建模块,被配置为:根据所述初始梯度信息构建联邦学习在当前通信回合的初始全局模型;贡献计算模块,被配置为:根据所述初始全局模型的模型性能确定每个客户端的贡献指数;价值计算模块,被配置为:根据贡献指数和预设的目标精度确定每个所述客户端的最优动作价值函数值;动态采样模块,被配置为:根据所述最优动作价值函数值对预设数量个客户端进行采样。
[0012]本申请的第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请第一方面提供的所述的方法。
[0013]本申请的第四方面提供了一种非暂态计算机可读存储介质,所述非暂态计算机可
读存储介质存储计算机指令,所述计算机指令用于使计算机执行本申请第一方面提供的所述方法。
[0014]从上面所述可以看出,本申请提供的基于数据质量评估的强化联邦学习动态采样方法及设备,能够根据初始梯度信息构建初始全局模型,并根据初始全局模型的模型性能确定每个客户端的贡献指数,将贡献指数应用到联邦学习的客户端采样中,可以基于贡献指数评估每个客户端的数据质量。然后根据贡献指数和预设的目标精度确定每个强化联邦学习客户端的最优动作价值函数值,根据最优动作价值函数值对预设数量个客户端进行动态采样,因为最优动作价值函数综合考虑模型性能和模型精度,所以根据最优动作价值函数值对预设数量个客户端进行采样,能够有效地在大量参与联邦学习的客户端中筛选出高数据质量的客户端,利用具有高数据质量的客户端进行联邦学习,可以提高联邦学习得到的全局模型的质量和精度。
附图说明
[0015]为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本申请实施例联邦学习的架构图;图2为本申请实施例基于数据质量评估的强化联邦学习动态采样方法的流程图;图3为本申请实施例构建初始全局模型的流程图;图4为本申请实施例确定贡献指数的流程图;图5为本申请实施例确定最优动作价值函数值的流程图;图6为本申请实施例客户端选取的流程图;图7为本申请实施例采用基于数据质量评估的强化联邦学习动态采样方法的联邦学习方法的流程图;图8为本申请实施例基于数据质量评估的强化联邦学习动态采样装置的结构示意图;图9为本申请实施例电子设备的结构示意图。
具体实施方式
[0017]为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
[0018]需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据质量评估的强化联邦学习动态采样方法,其特征在于,包括:确定客户端的初始梯度信息;根据所述初始梯度信息构建联邦学习在当前通信回合的初始全局模型;根据所述初始全局模型的模型性能确定每个客户端的贡献指数;根据贡献指数和预设的目标精度,通过深度强化学习确定每个所述客户端的最优动作价值函数值;根据所述最优动作价值函数值对预设数量个客户端进行采样。2.根据权利要求1所述的方法,其特征在于,所述根据所述梯度信息构建联邦学习在当前通信回合的初始全局模型,包括:根据联邦学习的通信轮次数确定历史全局模型;确定每个所述客户端在联邦学习的当前通信轮次的样本量;根据所述初始梯度信息、所述样本量和所述客户端数量确定聚合梯度;根据所述聚合梯度和所述历史全局模型确定联邦学习在当前通信回合的所述初始全局模型。3.根据权利要求1所述的方法,其特征在于,所述模型性能包括标准模型性能和终端模型性能;所述根据所述初始全局模型的模型性能确定每个客户端的贡献指数,包括:根据预设的标准测试集确定所述初始全局模型的所述标准模型性能;根据每个所述客户端的数据集确定所述初始全局模型的所述终端模型性能;根据所述标准模型性能和所述终端模型性能确定每个客户端的贡献指数。4.根据权利要求1所述的方法,其特征在于,所述根据贡献指数和预设的目标精度,通过深度强化学习确定每个所述客户端的最优动作价值函数值,包括:获取联邦学习在所述当前通信回合的上一通信回合的历史模型数据,并根据所述历史模型数据构建深度强化学习的状态空间;根据所述客户端数量确定深度强化学习的动作空间,其中,每个客户端对应所述动作空间内的一个选取动作;根据所述目标精度和所述贡献指数确定所述动作空间中每个所述选取动作对应的即时奖励;根据所述即时奖励和预设的折扣因子确定每个所述选取动作在所述状态空间下的所述最优动作价值函数值。5.根据权利要求4所述的方法...

【专利技术属性】
技术研发人员:梁美玉赵泽华杜军平薛哲李昂
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1