System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于动态知识蒸馏和动态正则化的Non-IID联邦学习方法技术_技高网

基于动态知识蒸馏和动态正则化的Non-IID联邦学习方法技术

技术编号:44020576 阅读:12 留言:0更新日期:2025-01-15 01:04
本发明专利技术公开了一种基于动态知识蒸馏和动态正则化的Non‑IID联邦学习方法,包括客户端的本地模型训练后输出本地数据标签的分布P<subgt;s</subgt;;将本地模型参数上传到服务器;服务器汇总随机抽样得到的一组客户端模型参数,并输出全局模型参数供下一轮使用;客户端下载全局模型参数,将全局模型参数加载到本地模型上并输出全局数据标签分布P<subgt;t</subgt;;在客户端进行动态知识蒸馏,整合P<subgt;s</subgt;、P<subgt;t</subgt;和动态函数d(r),计算客户端的本地损失函数;反向传播更新客户端的局部模型。本发明专利技术在非独立且同分布Non‑IID的客户端数据情况下能够显著提高模型的收敛速度和准确性。

【技术实现步骤摘要】

本专利技术涉及联邦学习,具体的讲,是涉及一种基于动态知识蒸馏和动态正则化的non-iid联邦学习方法。


技术介绍

1、联邦学习(fl)是一种著名的分布式学习范式,由谷歌于2016年首次推出,其算法为fedavg。fl的核心是利用分布在不同地理位置的客户的本地数据,对共享模型进行协作训练。fl的一个关键优势在于它能够同时在多个客户端上进行训练,而无需本地数据离开设备,从而有效保护了数据隐私。在此框架下,客户端通过集中式服务器交换中间变量和参数,在尊重数据隐私的同时保持协作训练。因此,联合学习技术在众多前沿领域展现出了广泛的应用潜力,涵盖了医疗保健(healthcare)、自动驾驶(autonomous driving)、区块链(blockchain)和工业物联网(industrial internet of things)等关键领域。

2、尽管联合学习(fl)具有效率和隐私优势,但在实际部署中仍面临挑战。这些挑战包括通信资源的限制、客户端数据结构的变化以及系统架构的异构性。尤其具有挑战性的是,客户端数据中存在非独立和同分特征(non-iid),这会导致局部目标函数与全局优化方向不一致,从而影响模型的收敛性。此外,一些研究人员还强调客户端漂移是fl的一个重大挑战。在具有异构数据集的场景中,由于局部最优点的不同,局部训练的模型可能会偏离全局目标,从而可能导致收敛问题或模型发散。

3、为了缓解客户端漂移,人们提出了各种策略。例如,在局部训练期间向优化损失函数添加正则化项,以稳定参数更新。此外,对目标函数的调整旨在使局部模型和全局模型更加一致。人们还探索了知识提炼技术来解决客户端数据漂移问题。例如,yao等人应用知识蒸馏技术来保持本地模型和全局模型之间的一致性。在这里,全局模型充当了指导局部模型训练的老师,确保了参数空间和优化方向的一致性。其他研究则使用无数据知识蒸馏方法来缓解数据异质性问题,不过这种方法会因生成器的使用而带来计算和通信开销。

4、尽管取得了进步,但现有方法往往忽视了训练过程中客户端遗忘的动态性质。在非同源数据环境下,在跨客户端的本地模型训练过程中,会发生大量遗忘先前从其他客户端训练数据中学到的知识的现象,这种现象被广泛称为“客户端灾难性遗忘”,如图3所示,其根源可以追溯到本地数据集的独特分布与全局数据集的整体分布之间的巨大差异。因此,如何在缓解客户端漂移同时解决灾难性遗忘问题是目前联邦学习的研究中面对的重要问题之一。


技术实现思路

1、针对现有技术中存在的客户端漂移和灾难性遗忘等问题,本专利技术提供一种基于动态知识蒸馏和动态正则化的non-iid联邦学习方法,通过动态知识蒸馏技术进行自适应梯度校正,并结合动态正则化技术对局部目标和全局目标进行约束和调整,从而训练过程中不同程度的客户端遗忘问题并缓解客户端漂移,实现提高模型的收敛速度和准确性的效果。

2、为了实现上述目的,本专利技术采用的技术方案如下:

3、一种基于动态知识蒸馏和动态正则化的non-iid联邦学习方法,包括以下步骤:

4、s10、在第r轮客户端i的本地模型训练后,输出本地数据标签的分布ps;

5、s20、将本地模型参数wir上传到服务器;

6、s30、服务器汇总随机抽样得到的一组客户端模型参数w1r,w2r,…,wmr,m为客户端总数,并输出全局模型参数w0r+1,供下一轮使用;

7、s40、客户端i下载全局模型参数w0r+1;

8、s50、将全局模型参数w0r+1加载到客户端的本地模型上,并输出全局数据标签的分布pt;

9、s60、在客户端i进行动态知识蒸馏,整合ps、pt和动态函数d(r),计算客户端i第r轮的本地损失函数表示为

10、

11、式中,表示客户端i的预测损失,为模型参数,wr-1表示上一轮全局模型参数,bi表示小批量数据集,表示上一轮训练中客户端i的模型参数的梯度,α表示近端项的惩罚系数,kl表示kl散度;

12、s70、反向传播更新客户端i的本地模型,其中客户端i的更新规则表示为

13、

14、式中,η表示学习率,表示修正后的梯度,表示上一轮训练中模型参数的梯度。

15、具体地,所述动态函数d(r)用于在训练轮次中自适应地调整梯度修正,表示为

16、

17、式中,r为通信轮数量。

18、具体地,所述修正后的梯度通过求解客户端i修正后的目标函数li1获得,表示为

19、

20、式中,bi=(xi,yi)∈di表示小批量数据集。

21、具体地,所述客户端i修正后的目标函数表示为

22、

23、式中,表示客户端i的预测损失,动态函数d(r)为通信轮数r的函数。

24、与现有技术相比,本专利技术具有以下有益效果:

25、本专利技术整合了动态知识蒸馏和动态正则化技术来解决客户端和服务器之间的不一致性问题,通过动态更新每个客户端的局部目标函数,加快了精确全局模型的实现,通过动态知识蒸馏来完善梯度,有效解决了客户端漂移问题,并通过正则化动态调整全局和局部模型,提高了收敛速度,相比现有联邦学习方法,本专利技术在实际应用中表现出更快的收敛速度和更高的泛化精度。

本文档来自技高网...

【技术保护点】

1.一种基于动态知识蒸馏和动态正则化的Non-IID联邦学习方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于动态知识蒸馏和动态正则化的Non-IID联邦学习方法,其特征在于,所述动态函数d(r)用于在训练轮次中自适应地调整梯度修正,表示为

3.根据权利要求2所述的一种基于动态知识蒸馏和动态正则化的Non-IID联邦学习方法,其特征在于,所述修正后的梯度通过求解客户端i修正后的目标函数Li1获得,表示为

4.根据权利要求3所述的一种基于动态知识蒸馏和动态正则化的Non-IID联邦学习方法,其特征在于,所述客户端i修正后的目标函数表示为

【技术特征摘要】

1.一种基于动态知识蒸馏和动态正则化的non-iid联邦学习方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于动态知识蒸馏和动态正则化的non-iid联邦学习方法,其特征在于,所述动态函数d(r)用于在训练轮次中自适应地调整梯度修正,表示为

3.根据权利要...

【专利技术属性】
技术研发人员:王瑞锦张逢春李冬芬张凤荔赖金山郑晶晶王柯阳
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1