本发明专利技术提供了一种联邦学习各个工作节点更新的方法
【技术实现步骤摘要】
一种联邦学习各个工作节点更新的方法、系统及存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种联邦学习各个工作节点更新的方法
、
系统及存储介质
。
技术介绍
[0002]SGD
作为目前优化神经网络中最基础的迭代算法,其最基本思想是:用在随机
、
小批量的子集上计算出的梯近似在整个数据集上计算出的真实的梯度
。
[0003]SGD
‑
M
是在
SGD
基础上添加动量
(Momentum)
,从而得到更加高效的梯度下降算法
。
利用此方法是保留了上一次迭代的梯度更新方向,并在之前梯度更新的基础上进行改进,减少了迭代过程的震荡,使得迭代过程高效
。
[0004]Adam
算法利用梯度的一阶矩估计值和二阶矩估计值来动态地调整每个参数的学习率,并且经过偏置校正,使得每一步的有效学习率都在一定的范围内变动
。
[0005]现有技术的缺陷如上:
[0006]SGD
的缺点是它在所有方向上均匀地缩放梯度
。
在训练数据稀疏的情况下,这可能导致训练速度有限和性能不佳
。
[0007]SGD
‑
M
考虑了过去和当前的梯度来进行网络参数的更新,在多数的情况下具有良好的体现
。
但是它会导致超调现象,即所更新的权重超过了目标值,无法改变更新的方向
。<br/>[0008]Adam
算法在一系列不同的深度学习任务
(
如图像分类
、
自然语言处理等
)
的测试中,自适应梯度方法的泛化效果不如动量
SGD
的泛化效果
。
技术实现思路
[0009]本专利技术提供了一种联邦学习各个工作节点更新的方法,包括如下步骤:
[0010]步骤1:当每个工作节点训练完成一轮之后会产生一个损失值
loss
,记录当前轮的损失值
loss1
;
[0011]步骤2:当下一轮的损失值产生之后,记录下一轮的损失值
loss2
,计算
loss1
和
loss2
的差值
Δ
l
;
[0012]步骤3:根据
Δ
l
更新学习率
lr
,进一步更新
AdaPID
算法的三个参数
Kp、Ki、Kd
,
Kp
为比例项系数,
Ki
为积分项系数,
Kd
为微分项系数;
[0013]步骤4:判断模型是否收敛,如果,那么迭代结束,否则返回执行步骤
1。
[0014]作为本专利技术的进一步改进,在所述步骤3中,通过公式
(1)
,在每一轮参数更新后,该轮的学习率
lr
会发生变化;
[0015]lr
i
=
lr
i
(1+tanh(
Δ
l
i
)) 公式
(1)
[0016]其中,
lr
i
表示每个工作节点的学习率,
Δ
l
i
表示每个工作节点这一轮和上一轮的形成的损失变化值
。
[0017]作为本专利技术的进一步改进,在所述步骤3中,每个工作节点的参数选择通过公式
(3)
结合当轮的学习率对
AdaPID
算法的三个参数
Kp、Ki、Kd
进行调整;
[0018][0019]是第
i
个工作节点中的微分项系数
。
[0020]本专利技术还公开了一种采用本专利技术所述联邦学习各个工作节点更新的方法进行数据处理的方法,包括如下步骤:
[0021]第一步:中心服务器建立基本模型,并将模型的基本结构与参数下发给各参与方;
[0022]第二步:各参与方利用本地数据进行模型训练,并将模型的参数返回给中心服务器;
[0023]第三步:中心服务器汇总各参与方的模型,构建更精准的全局模型,以整体提升模型性能和效果;
[0024]第四步:重复第一步至第三步的过程,直到全局模型收敛
。
[0025]作为本专利技术的进一步改进,所述参与方为各种机构,参与方的参数为机构的参数
。
[0026]作为本专利技术的进一步改进,机构的参数包括医院的病人数据
、
银行的客户信息
。
[0027]本专利技术还公开了一种联邦学习各个工作节点更新的系统,包括:存储器
、
处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本专利技术所述方法的步骤
。
[0028]本专利技术还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本专利技术所述方法的步骤
。
[0029]本专利技术的有益效果是:本专利技术将
AdaPID
算法运用到联邦学习上,通过结合自适应调整学习率策略,提出了每个工作节点可以拥有自己的模型调节参数,解决了
Adam
算法带来的后期出现收敛震荡,甚至不收敛的问题
。
本专利技术在加快联邦学习训练的同时,保证了后期的稳定性以及模型的收敛
。
附图说明
[0030]图1是本专利技术的流程图
。
具体实施方式
[0031]本专利技术公开了一种联邦学习各个工作节点更新的方法,使得每个工作节点拥有自己的一个调节参数,每个工作节点有自己的自适应参数去调节模型,最后在中心节点进行聚合,这样可以加快全局模型的收敛,并且可以避免出现模型不收敛的情况
。
[0032]如图1所示,本专利技术的方法包括如下步骤:
[0033]步骤1:当每个工作节点训练完成一轮之后会产生一个损失值
loss
,记录当前轮的损失值
loss1
;
[0034]步骤2:当下一轮的损失值产生之后,记录下一轮的损失值
loss2
,计算
loss1
和
loss2
的差值
Δ
l
;
[0035]步骤3:根据
Δ
l
更新学习率
lr
,进一步更新
AdaPID
算法的三个参数
Kp、Ki、Kd
,
Kp、Ki、Kd
是自动控制原理中
PID
算法的系数,其中
Kp
为比例项系数,
Ki
为积分项系数,
Kd...
【技术保护点】
【技术特征摘要】
1.
一种联邦学习各个工作节点更新的方法,其特征在于,包括如下步骤:步骤1:当每个工作节点训练完成一轮之后会产生一个损失值
loss
,记录当前轮的损失值
loss1
;步骤2:当下一轮的损失值产生之后,记录下一轮的损失值
loss2
,计算
loss1
和
loss2
的差值
Δ
l
;步骤3:根据
Δ
l
更新学习率
lr
,进一步更新
AdaPID
算法的三个参数
Kp、Ki、Kd
,
Kp
为比例项系数,
Ki
为积分项系数,
Kd
为微分项系数;步骤4:判断模型是否收敛,如果,那么迭代结束,否则返回执行步骤
1。2.
根据权利要求1所述的方法,其特征在于:在所述步骤3中,通过公式
(1)
,在每一轮参数更新后,该轮的学习率
lr
会发生变化;
lr
i
=
lr
i
(1+tanh(
Δ
l
i
))
公式
(1)
其中,
lr
i
表示每个工作节点的学习率,
Δ
l
i
表示每个工作节点这一轮和上一...
【专利技术属性】
技术研发人员:代明军,赖雄,
申请(专利权)人:深圳大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。