保护隐私的模型联合训练方法及装置制造方法及图纸

技术编号:26970877 阅读:14 留言:0更新日期:2021-01-06 00:01
本说明书实施例提供了一种保护隐私的模型联合训练方法及装置。该联合训练由服务器和若干个终端共同进行,终端采用预测的随机化处理方式对训练所需的实际梯度进行处理,将得到的扰动梯度发送至服务器,使得服务器根据该扰动梯度得到训练后的模型的参数,而不是根据实际梯度得到训练后的模型参数。

【技术实现步骤摘要】
保护隐私的模型联合训练方法及装置
本说明书实施例涉及数据安全
,具体地,涉及保护隐私的模型的联合训练方法及装置。
技术介绍
为解决数据孤岛问题,通过多个端之间的配合实现的模型训练,逐渐引起业界的重视。该模型训练过程涉及的端(可以包括服务器和至少一个终端)的数量不唯一,端与端之间难免存在一定程度的不可信,可见,在各个端之间进行有效的隐私保护、保障信息安全是十分有必要的。
技术实现思路
本说明书实施例提供了一种保护隐私的模型的联合训练方法及装置,在有效的对模型进行训练的同时,有效地保障了信息安全。根据第一方面,提供了第一种保护隐私的模型的联合训练方法,所述联合训练由服务器和若干个终端共同进行,所述方法由所述若干个终端中的任意一个执行,所述方法包括:从所述服务器获取待训练的模型;将本地的训练样本输入所述模型,根据所述模型输出的结果,确定所述模型中各个参数对应的实际梯度;根据各个参数对应的实际梯度,确定目标梯度集;针对所述目标梯度集中的各个实际梯度,采用预设的随机化处理方式,得到各个实际梯度分别对应的各个扰动梯度;将得到的各个扰动梯度发送至所述服务器,使得所述服务器根据所述若干个终端分别发送的扰动梯度聚合得到训练后的模型参数,以得到训练后的模型。在一个实施例中,所述目标梯度集包括任意的第一实际梯度;采用预设的随机化处理方式,得到各个实际梯度分别对应的各个扰动梯度,包括:确定第一备选梯度和第二备选梯度;根据所述第一实际梯度,选择所述第一备选梯度、第二备选梯度之一,作为所述第一实际梯度对应的扰动梯度。在一个实施例中,确定第一备选梯度和第二备选梯度,包括:根据预设的第一隐私预算,确定所述第一备选梯度和所述第二备选梯度,所述第一备选梯度为与所述第一隐私预算负相关的正数,所述第二备选梯度为所述第一备选梯度的相反数。在一个实施例中,选择所述第一备选梯度、第二备选梯度之一,作为所述第一实际梯度的扰动梯度,包括:根据所述第一实际梯度和所述第一隐私预算,确定所述第一实际梯度对应的第一概率和第二概率,所述第一概率与所述第一实际梯度以及所述第一隐私预算正相关,所述第一概率和第二概率之和为1;以所述第一概率选择所述第一备选梯度,以所述第二概率选择所述第二备选梯度,将选择结果作为所述第一实际梯度的扰动梯度。在一个实施例中,确定所述第一实际梯度对应的第一概率和第二概率之前,所述方法还包括:确定针对所述第一实际梯度的归一化区间,所述归一化区间是根据服务器在对各扰动梯度进行聚合时采用的聚合方式得到的;确定所述第一实际梯度对应的第一概率和第二概率,包括:根据所述归一化区间对所述第一实际梯度进行归一化;根据归一化后的第一实际梯度,确定所述第一实际梯度对应的第一概率和第二概率。在一个实施例中,根据各个参数对应的实际梯度,确定目标梯度集,包括:从所述各个参数对应的实际梯度中,确定出第一指定数量个最大的实际梯度;根据第一指定数量个最大的实际梯度,确定目标梯度集。在一个实施例中,所述第一指定数量是从所述服务器获取的,所述第一指定数量是根据以下至少一种得到的:参与训练的终端的数量、所述模型的参数的数量、所述模型距上次训练的时长。在一个实施例中,其中,根据第一指定数量个最大的实际梯度,确定目标梯度集,包括:根据预设的第二隐私预算和第二指定数量,确定第三概率和第四概率,所述第二指定数量与所述第一指定数量正相关,所述第三概率和第四概率之和为1,且第三概率大于第四概率;利用第三概率对第一梯度集进行采样,利用第四概率对第二梯度集进行采样,得到所述第二指定数量个实际梯度作为目标梯度集;其中,所述第一梯度集由所述第一指定数量个最大的实际梯度构成,所述第二梯度集包括:所述各个参数对应的实际梯度中除所述第一指定数量个最大的实际梯度之外的实际梯度。在一个实施例中,其中,所述第三概率还根据所述模型的参数的数量确定。在一个实施例中,其中,将得到的各扰动梯度发送至所述服务器之后,所述方法还包括:接收所述服务器返回的训练后的模型的参数,以得到训练后的模型。根据第二方面,提供了第二种保护隐私的模型的联合训练方法,所述联合训练由服务器和若干个终端共同进行,所述方法由所述服务器执行,所述方法包括:针对每个终端,接收该终端发送的对应于模型参数的扰动梯度;所述扰动梯度是根据前述第一方面的联合训练方法得到的;针对所述模型每个参数,对接收到的各个扰动梯度中对应于该参数的扰动梯度进行聚合;根据针对各参数得到的各聚合结果,得到训练后的模型参数,以得到训练后的模型。在一个实施例中,其中,接收该终端发送的对应于模型参数的扰动梯度之前,所述方法还包括:根据参与训练的各终端的数量、所述模型参数的数量、所述模型距上次训练的时长中的至少一种,确定第一指定数量;将所述第一指定数量发送至该终端,使得该终端根据所述第一指定数量个最大的实际梯度,确定出该终端发送至服务器的扰动梯度。在一个实施例中,其中,得到训练后的模型的参数之后,所述方法还包括:将所述训练后的模型参数,发送至各终端,使得各终端得到训练后的模型。根据第三方面,提供了第一种保护隐私的模型的联合训练装置,所述联合训练由服务器和若干个终端共同进行,所述装置应用于所述若干个终端中的任意一个,所述装置包括:待训练的模型获取单元,配置为从所述服务器获取待训练的模型;实际梯度确定单元,配置为将本地的训练样本输入所述模型,根据所述模型输出的结果,确定所述模型中各个参数对应的实际梯度;目标梯度集确定单元,配置为根据各个参数对应的实际梯度,确定目标梯度集;扰动梯度确定单元,配置为针对所述目标梯度集中的各个实际梯度,采用预设的随机化处理方式,得到各个实际梯度分别对应的各个扰动梯度;第一发送单元,配置为将得到的各个扰动梯度发送至所述服务器,使得所述服务器根据所述若干个终端分别发送的扰动梯度聚合得到训练后的模型参数,以得到训练后的模型。根据第四方面,提供了第二种保护隐私的模型的联合训练装置,所述联合训练由服务器和若干个终端共同进行,所述装置应用于所述服务器,所述装置包括:扰动梯度获取单元,配置为针对每个终端,接收该终端发送的对应于模型参数的扰动梯度;所述扰动梯度是该终端利用第三方面的装置得到的;聚合单元,配置为针对所述模型每个参数,对接收到的各个扰动梯度中对应于该参数的扰动梯度进行聚合;参数调整单元,配置为根据针对各参数得到的各聚合结果,得到训练后的模型的参数,以得到训练后的模型。根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面和第二方面的方法。根据第六方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可本文档来自技高网...

【技术保护点】
1.一种保护隐私的模型联合训练方法,所述联合训练由服务器和若干个终端共同进行,所述方法由所述若干个终端中的任意一个执行,所述方法包括:/n从所述服务器获取待训练的模型;/n将本地的训练样本输入所述模型,根据所述模型输出的结果,确定所述模型中各个参数对应的实际梯度;/n根据各个参数对应的实际梯度,确定目标梯度集;/n针对所述目标梯度集中的各个实际梯度,采用预设的随机化处理方式,得到各个实际梯度分别对应的各个扰动梯度;/n将得到的各个扰动梯度发送至所述服务器,使得所述服务器根据所述若干个终端分别发送的扰动梯度聚合得到训练后的模型参数,以得到训练后的模型。/n

【技术特征摘要】
1.一种保护隐私的模型联合训练方法,所述联合训练由服务器和若干个终端共同进行,所述方法由所述若干个终端中的任意一个执行,所述方法包括:
从所述服务器获取待训练的模型;
将本地的训练样本输入所述模型,根据所述模型输出的结果,确定所述模型中各个参数对应的实际梯度;
根据各个参数对应的实际梯度,确定目标梯度集;
针对所述目标梯度集中的各个实际梯度,采用预设的随机化处理方式,得到各个实际梯度分别对应的各个扰动梯度;
将得到的各个扰动梯度发送至所述服务器,使得所述服务器根据所述若干个终端分别发送的扰动梯度聚合得到训练后的模型参数,以得到训练后的模型。


2.根据权利要求1所述的方法,其中,所述目标梯度集包括任意的第一实际梯度;
采用预设的随机化处理方式,得到各个实际梯度分别对应的各个扰动梯度,包括:
确定第一备选梯度和第二备选梯度;
根据所述第一实际梯度,选择所述第一备选梯度、第二备选梯度之一,作为所述第一实际梯度对应的扰动梯度。


3.根据权利要求2所述的方法,其中,确定第一备选梯度和第二备选梯度,包括:
根据预设的第一隐私预算,确定所述第一备选梯度和所述第二备选梯度,所述第一备选梯度为与所述第一隐私预算负相关的正数,所述第二备选梯度为所述第一备选梯度的相反数。


4.根据权利要求3所述的方法,其中,选择所述第一备选梯度、第二备选梯度之一,作为所述第一实际梯度的扰动梯度,包括:
根据所述第一实际梯度和所述第一隐私预算,确定所述第一实际梯度对应的第一概率和第二概率,所述第一概率与所述第一实际梯度以及所述第一隐私预算正相关,所述第一概率和第二概率之和为1;
以所述第一概率选择所述第一备选梯度,以所述第二概率选择所述第二备选梯度,将选择结果作为所述第一实际梯度的扰动梯度。


5.根据权利要求4所述的方法,其中,确定所述第一实际梯度对应的第一概率和第二概率之前,所述方法还包括:
确定针对所述第一实际梯度的归一化区间,所述归一化区间是根据服务器在对各扰动梯度进行聚合时采用的聚合方式得到的;
确定所述第一实际梯度对应的第一概率和第二概率,包括:
根据所述归一化区间对所述第一实际梯度进行归一化;
根据归一化后的第一实际梯度,确定所述第一实际梯度对应的第一概率和第二概率。


6.根据权利要求1所述的方法,其中,根据各个参数对应的实际梯度,确定目标梯度集,包括:
从所述各个参数对应的实际梯度中,确定出第一指定数量个最大的实际梯度;
根据第一指定数量个最大的实际梯度,确定目标梯度集。


7.根据权利要求6所述的方法,其中,所述第一指定数量是从所述服务器获取的,所述第一指定数量是根据以下至少一种得到的:参与训练的终端的数量、所述模型的参数的数量、所述模型距上次训练的时长。


8.根据权利要求6所述的方法,其中,根据第一指定数量个最大的实际梯度,确定目标梯度集,包括:
根据预设的第二隐私预算和第二指定数量,确定第三概率和第四概率,所述第二指定数量与所述第一指定数量正相关,所述第三概率和第四概率之和为1,且第三概率大于第四概率;
利用第三概率对第一梯度集进行采样,利用第四概率对第二梯度集进行采样,得到所述第二指定数量个实际梯度作为目标梯度集;其中,所述第一梯度集由所述第一指定数量...

【专利技术属性】
技术研发人员:刘文鑫徐文浩
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1