一种基于模型稀疏化与权重量化的联邦学习模型压缩方法技术

技术编号:29587403 阅读:18 留言:0更新日期:2021-08-06 19:46
本发明专利技术公开了一种基于模型稀疏化与权重量化的联邦学习模型压缩方法,所述方法包括以下步骤:步骤1,客户端使用本地数据集进行本地模型训练;步骤2,客户端对本地模型训练生成的权重矩阵进行模型稀疏化;步骤3,客户端对稀疏化之后的矩阵进行权重量化;步骤4,客户端将完成压缩后的模型通过无线信道传输到服务器;步骤5,服务器对接收到的权重矩阵进行解压缩,并完成联邦学习聚合。本发明专利技术的优越效果在于有效解决了联邦学习训练过程中的资源不足问题,并通过优化算法提升了联邦学习的训练精度。

【技术实现步骤摘要】
一种基于模型稀疏化与权重量化的联邦学习模型压缩方法
本专利技术属于数据处理领域,尤其涉及一种基于模型稀疏化与权重量化的联邦学习模型压缩方法。
技术介绍
目前,前所未有的数据增长以及计算与并行处理的进步引发了包括了无线通信在内的领域对机器学习的研究兴趣。对于无线通信,由于传统的基于模型的方法不足以捕获现代无线网络日益增长的复杂性和异构性,采用机器学习进行系统设计和分析尤其有吸引力。例如,申请号为2018106746983的专利申请公开了一种基于非对称三元权重量化的深度神经网络模型压缩方法,包括:在深度神经网络训练时,在每一次前向计算之前,将网络的每一层浮点权重量化为非对称的三元值,参数更新阶段使用原始的浮点型网络权重;对训练完成的深度神经网络进行压缩存储。去除深度神经网络的冗余参数,对网络模型进行压缩。申请号为2019102115318的专利申请公开了一种基于Q-Learning算法的自动化模型压缩方法,其通过将深度神经网络的模型性能包括推理时间,模型大小,能耗及准确率作为约束条件,设计可以根据网络结构自动选择模型压缩方法的算法,从而获得性能最优的压缩方案选择。通过这种自动化模型压缩框架在五种不同网络结构下的模型使用。由于管理大规模数据以保持机器学习算法的效率和扩展性是个挑战,在无线网络中,数据是由数十亿个设备生成并分发的,这就需要探索能够有效处理分布式数据集的解决方案。传统的集中式机器学习方案不适合此类情景是因为它们需要在中央实体中传输和处理数据,由于私有数据的不可访问性,在实践中无法实现。因此,分布式学习解决方案的思想得以产生。联邦学习是一种新兴的分布式方法,它意识到上述挑战中的问题,包括隐私和资源限制且将训练数据集保留在本地并在本地进行模型训练。之后,每个学习者都将其本地模型参数(而不是原始训练数据集)传输到中央聚合器。聚合器利用本地模型参数更新全局模型,本地模型最终反馈给各个本地学习者,每个本地学习者仅通过聚合器共享的全局模型从其他学习者的数据集中受益,而无需显式访问其隐私敏感数据。除了保护隐私之外,联邦学习也大量减少了本地学习者与中央聚合器之间的通信开销。然而,联邦学习的参与设备数量众多且网络连接速度缓慢或不稳定,互联网速度的不对称性导致上行链路比下行链路质量更差。此外,在某些加密协议为了保证用户更新不被监视而在上行传输时将增加大量额外的数据比特。在某些资源受限的条件下,上述这些因素将导致本地学习者无法将完整的模型发送到服务器进行全局聚合,从而使得联邦学习的训练精度降低,这成为联邦学习的发展瓶颈。
技术实现思路
本专利技术的目的在于提供一种能够克服上述技术问题的基于模型稀疏化与权重量化的联邦学习模型压缩方法,本专利技术所述方法包括以下步骤:步骤1,客户端使用本地数据集进行本地模型训练:各个客户端根据其本地数据集独立地进行模型更新,在任意一个客户端,使用随机梯度下降(SGD)算法减少本地模型的损失函数,本地模型采用如下公式(1)进行更新:公式(1)中,ωt,m与ωt-1,m分别表示客户端Um在t次与t-1次迭代中的本地模型更新结果;Dt,m表示用于更新ωt,m的训练数据集,数据集从客户端Um的本地数据集Dm中随机生成;ηt为第t次迭代的学习率;为损失函数F(ωt-1,m,Dt,m)关于ωt-1,m的梯度;步骤2,客户端对本地模型训练生成的权重矩阵进行模型稀疏化,对本地模型训练生成的权重ωt,m进行模型稀疏化:st,m=At,mωt,m……(2),公式(2)中,st,m表示对ωt,m模型稀疏化后得到的权重向量,At,m表示d×d的稀疏矩阵,并采取了对稀疏矩阵At,m的优化算法;步骤3,客户端对稀疏化之后的矩阵进行权重量化:在模型稀疏化完成后对权重向量st,m中的每一个元素进行独立量化,独立量化后的参数向量通过如下公式(3)获得:xt,m=st,m+qt,m……(3),公式(3)中,qt,m表示一个d×1的量化噪声向量,qt,m~CN(0,Ωt,m),Ωt,m表示协方差矩阵,独立量化后的qt,m的各元素之间保持独立,Ωt,m表示为步骤4,客户端将完成压缩后的模型通过无线信道传输到服务器:客户端Um将压缩后的权重向量xt,m通过无线信道传输到服务器,假设信道为平坦衰落模型,则服务器接收到的权重向量yt,m能够表示为以下公式(4):yt,m=ht,mxt,m+nt,m……(4),公式(4)中,ht,m表示客户端Um与服务器之间的平坦信道衰落,nt,m表示服务器端的加性高斯白噪声;步骤5,服务器对接收到的权重矩阵进行解压缩并完成联邦学习聚合:通过解压缩将接收到的权重向量yt,m还原为本地模型更新后地权重,本专利技术所述方法采用最小均方误差(MMSE)准则进行解压缩,解压缩结果通过如下公式(5)得到:公式(5)中,Dt,m为d×d的解压缩矩阵,实现对yt,m的解稀疏化,C表示由所有可能的量化参数向量组成的集合并采取对解稀疏矩阵Dt,m的优化算法,在完成解压缩之后,用所有解压缩得到的权重向量进行全局更新,之后服务器将全局更新后的权重向量返回各个客户端,完成联邦学习的一次迭代过程。进一步的,步骤2中,所述损失函数F(ωt,m,Dt,m)通过以下公式计算:公式(6)中,l(ωt,m;x)表示属于Dt,m的数据元素x的损失值,Nt,m表示Dt,m的大小。进一步的,如图3所示,步骤5中,所述对稀疏矩阵At,m与解稀疏矩阵Dt,m的优化算法的具体步骤如下:步骤A1,初始化相关参数:通过迭代的方式对稀疏矩阵At,m和解稀疏矩阵Dt,m相关参数进行初始化,需要初始的参数包括迭代次数K1与KA,收敛门限ε1与εA,其中,KA和εA表示总的迭代轮数和收敛门限,K1与ε1表示每一轮中更新稀疏矩阵At,m所需的迭代轮数和收敛门限;步骤A2,迭代更新稀疏矩阵At,m与解稀疏矩阵Dt,m:在第ka轮中,执行以下3个步骤:步骤A201,对稀疏矩阵At,m进行优化,优化方式为迭代的方式,在第k1轮中,通过优化下述第m个用户的目标函数对At,m进行更新:表示为以下公式(7):公式(7)中的参数的含义为:ω1和ω2代表精度损失和资源消耗代价函数的权重值,zt,m表示用户调度参数,当用户调度参数为1表示用户参与联邦学习聚合,当用户调度参数为0表示用户不参与联邦学习聚合,Nm为第m个用户的训练样本数,N为所有用户总的训练样本数,β2表示资源开销中通信开销所占的权重,公式(7)中,G1,m表示模型精度损失函数中与At,m相关的项,如以下公式(8)所示:公式(8)中,G2,m表示通信代价函数中与At,m相关的项,如以下公式(9)所示:G2,m的非凸性且不满足后续优化的条件,通过使用一阶泰勒展开将G2,m近似为一种凸的形式如以下公式(10)所示:G3,m表示通信传输所消耗能量与计算所消耗能量和最大能耗的差本文档来自技高网
...

【技术保护点】
1.一种基于模型稀疏化与权重量化的联邦学习模型压缩方法,其特征在于,包括以下步骤:/n步骤1,客户端使用本地数据集进行本地模型训练:/n各个客户端根据其本地数据集独立地进行模型更新,在任意一个客户端,使用随机梯度下降(SGD)算法减少本地模型的损失函数,本地模型采用如下公式(1)进行更新:/n

【技术特征摘要】
1.一种基于模型稀疏化与权重量化的联邦学习模型压缩方法,其特征在于,包括以下步骤:
步骤1,客户端使用本地数据集进行本地模型训练:
各个客户端根据其本地数据集独立地进行模型更新,在任意一个客户端,使用随机梯度下降(SGD)算法减少本地模型的损失函数,本地模型采用如下公式(1)进行更新:



公式(1)中,ωt,m与ωt-1,m分别表示客户端Um在t次与t-1次迭代中的本地模型更新结果;Dt,m表示用于更新ωt,m的训练数据集,数据集从客户端Um的本地数据集Dm中随机生成;ηt为第t次迭代的学习率;为损失函数F(ωt-1,m,Dt,m)关于ωt-1,m的梯度;
步骤2,客户端对本地模型训练生成的权重矩阵进行模型稀疏化,对本地模型训练生成的权重ωt,m进行模型稀疏化:
st,m=At,mωt,m……(2),
公式(2)中,st,m表示对ωt,m模型稀疏化后得到的权重向量,At,m表示d×d的稀疏矩阵,并采取了对稀疏矩阵At,m的优化算法;
步骤3,客户端对稀疏化之后的矩阵进行权重量化:
在模型稀疏化完成后对权重向量st,m中的每一个元素进行独立的量化,量化后的参数向量通过如下公式(3)获得:
xt,m=st,m+qt,m……(3),
公式(3)中,qt,m表示一个d×1的量化噪声向量,qt,m~CN(0,Ωt,m),Ωt,m表示协方差矩阵,独立量化后的qt,m的各元素之间保持独立,Ωt,m表示为
步骤4,客户端将完成压缩后的模型通过无线信道传输到服务器:
客户端Um将压缩后的权重向量xt,m通过无线信道传输到服务器,假设信道为平坦衰落模型,则服务器接收到的权重向量yt,m能够表示为以下公式(4):
yt,m=ht,mxt,m+nt,m……(4)
公式(4)中,ht,m表示客户端Um与服务器之间的平坦信道衰落,nt,m表示服务器端的加性高斯白噪声;
步骤5,服务器对接收到的权重矩阵进行解压缩并完成联邦学习聚合:
通过解压缩将接收到的权重向量yt,m还原为本地模型更新后地权重,本发明所述方法采用最小均方误差(MMSE)准则进行解压缩,解压缩结果通过如下公式(5)得到:



公式(5)中,Dt,m为d×d的解压缩矩阵,实现对yt,m的解稀疏化,C表示由所有可能的量化参数向量组成的集合,并采取对解稀疏矩阵Dt,m的优化算法,在完成解压缩之后,用所有解压缩得到的权重向量进行全局更新,之后服务器将全局更新后的权重向量返回各个客户端,完成联邦学习的一次迭代过程。


2.根据权利要求1所述的一种基于模型稀疏化与权重量化的联邦学习模型压缩方法,其特征在于,所述步骤2中,步骤2中,所述损失函数F(ωt,m,Dt,m)通过以下公式计算:



公式(6)中,l(ωt,m;x)表示属于Dt,m的数据元素x的损失值,Nt,m表示Dt,m的大小。
<...

【专利技术属性】
技术研发人员:赵中原王屹东纪晓东陈柏平周惠宣
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1