一种基于区块链的联邦学习可信训练方法及装置制造方法及图纸

技术编号:35441850 阅读:18 留言:0更新日期:2022-11-03 11:52
本发明专利技术涉及一种基于区块链的联邦学习可信训练方法。该方法包括以下步骤:协调方发起联邦学习训练任务请求;参与方将自身数据集的统计信息加密上链;监管方获取各参与方数据集每项特征的统计信息并校验各参与方数据集统计信息的分布总偏离度;参与方进行本地训练,训练所得梯度信息加密上链;监管方校验参与方的梯度信息;协调方对参与方的梯度信息进行安全聚合;协调方将聚合后的梯度信息发送给各参与方以更新本地模型;参与方判断模型是否收敛或者迭代次数是否到上限。本发明专利技术避免了由于分布不一致导致的训练失败的情况,可以通过梯度信息异常识别出恶意参与方,保障联邦学习任务正常运行,也提高了监管方在联邦学习的参与度和了解程度。和了解程度。和了解程度。

【技术实现步骤摘要】
一种基于区块链的联邦学习可信训练方法及装置


[0001]本专利技术涉及区块链及联邦学习技术,尤其涉及一种基于区块链的联邦学习可信训练方法及装置。

技术介绍

[0002]传统的联邦学习方法是通过多个参与方与一个协调方共同训练一个模型达到数据隐私共享的效果。在训练前各方协商好训练模型和数据格式,由协调方分发初始模型参数,然后参与方各自在本地使用自己的数据集进行训练,训练后,各个参与方将加密后的梯度参数发给协调方,协调方汇总各个参与方的梯度参数之后进行安全梯度聚合,再分发给各个参与方继续训练,该过程迭代若干次后直至满足预设迭代次数或模型收敛为止。
[0003]联邦学习旨在建立一个基于分布数据集的联邦学习模型。在模型训练的过程中,模型相关的信息能够在各方之间交换(或者是以加密形式进行交换),但各自的数据不能交换。这一交换不会暴露每个节点上任何受保护的隐私数据。传统联邦学习方法着重针对好奇敌手模型(敌手诚实地遵守协议,但也会试图从接收到的信息中学习更多除输出以外的信息)来保护各方数据隐私,但也存在以下几方面的缺点:
[0004](1)比较难预防恶意敌手的攻击,恶意敌手通过提供坏数据来腐败整个训练模型,让联邦学习任务失败。因为联邦学习过程设计多方共同协作,出于隐私保护各方也没办法看到其他成员的数据,所以当训练任务出现恶意敌手时,也很难识别出来。比如在多方数据参与计算过程中,有些节点是恶意节点(就是想参与计算,获取对方的原始数据),意在通过用非法数据或模型来套取数据。如果某个参与方,最开始与对方协商是用固定的一批数据参与联合计算,但是如果这个参与方是有恶意行为的(想通过模型或其他参与数据反推对方原始数据),对最开始协商的数据进行修改,如果对方不知道这批数据已经被修改,还进行联合计算,就有可能出现数据泄露风险。
[0005](2)由于训练设计多方,虽然参与方之间的数据集之间会存在一定相同的交集,但可能在分布上会有较大差异,如果数据集之间的分布差异性比较大,会使训练模型非常难收敛,从而导致训练任务失败。传统联邦学习方法缺乏在训练过程前识别数据集分布差异性的手段,来避免这种情况的发生。
[0006](3)很多时候联邦学习除了涉及参与方之外,还会涉及到监管方,传统的联邦学习的方法缺乏一些手段可以让监管单位在一定程度上对联邦学习任务进行审计,这对联邦学习落地带来一定困难。

技术实现思路

[0007]本专利技术的目的在于为克服现有技术的以上缺陷,而提供一种基于区块链的联邦学习可信训练方法及装置,提高监管方在联邦学习的参与度,让监管方进行相关的审计校验,以使联邦学习顺利进行。
[0008]为实现上述目的,本专利技术采用以下技术方案:
[0009]一种基于区块链的联邦学习可信训练方法,包括以下步骤:
[0010]步骤S1,协调方发起联邦学习训练任务请求;
[0011]步骤S2,参与方将自身数据集的统计信息加密上链;
[0012]步骤S3,监管方获取各参与方数据集每项特征的统计信息并校验各参与方数据集统计信息的分布总偏离度;
[0013]步骤S4,参与方进行本地训练,训练所得梯度信息加密上链;
[0014]步骤S5,监管方校验参与方的梯度信息;
[0015]步骤S6,协调方对参与方的梯度信息进行安全聚合;
[0016]步骤S7,协调方将聚合后的梯度信息发送给各参与方以更新本地模型;
[0017]步骤S8,参与方判断模型是否收敛或者迭代次数是否到上限,若否,返回步骤S4迭代,若是,则结束训练。
[0018]进一步地,步骤S1中,在协调方下发任务之前,协调方需要创建对应的智能合约以供参与方和监管方调用。
[0019]进一步地,步骤S2中,数据集的统计信息至少包括均值、中位数、标准差、WOE值、IV值。
[0020]进一步地,步骤S3中,监管方获取各参与方数据集统计信息之后,监管方两两比较参与方数据集同一项特征的偏离度是否超过设定值,遍历所有参与方的所有特征,最后汇总得到分布总偏离度,若分布总偏离度低于阈值,则校验通过并进入下一步,否则终止训练任务。
[0021]进一步地,步骤S3中,监管方两两比较参与方数据集同一项特征的偏离度时,依据参与方数据集一项特征的分布规律及统计信息生成随机数集,然后判断随机数集落在另一参与方数据集对应项特征的分布范围之外的比例,若比例超过设定值,则记偏离度为1,否则记偏离度为0;遍历所有参与方的所有特征之后,最后把偏离度加起来得到分布总偏离度。
[0022]进一步地,步骤S4包括:
[0023]步骤S41,参与方将任务编码和参数信息摘要上传到区块链中;
[0024]步骤S42,参与方查询该任务编码的其他参与方的参数信息摘要是否与自身一致,若一致,则进行下一步,否则终止训练任务;
[0025]步骤S43,初始化模型训练环境,拉取本地数据集,开始执行训练任务,训练所得梯度信息加密上链。
[0026]进一步地,步骤S5包括:
[0027]步骤S51,用随机数初始化一个数据集作为虚拟数据集,虚拟数据集的记录数为训练批次大小,虚拟数据集每条记录的特征数量与参与方数据集数据记录的特征数量相同;同时随机初始化虚拟标签集;
[0028]步骤S52,根据参与方提交的梯度变更量与上一次提供给参与方的模型权重相加,得到参与方训练后的模型权重,用该权重初始化一个训练模型;
[0029]步骤S53,用虚拟数据集作为数据源传入训练模型,正向传播得到模型结果,再与虚拟标签集联合计算损失函数和虚拟梯度;以虚拟梯度与实际梯度差值最小为优化方向,用梯度下降法迭代更新虚拟数据集及虚拟标签集,最终得出最优虚拟数据集;
[0030]步骤S54,计算最优虚拟数据集的统计信息,并与参与方提交的数据集统计信息进行比较,若偏差大于设定值,则终止训练任务,否则进入下一步。
[0031]进一步地,在步骤S54中,当最优虚拟数据集的统计信息与参与方提交的数据集统计信息偏差大于设定值,监管方发布终止任务信息与相关的监控报告;协调方监控到监管方发出终止任务信息后,获取相关监控报告,并通知各个参与方终止训练任务,并将相关监控报告发送给各个参与方。
[0032]本专利技术还公开了一种基于区块链的联邦学习可信训练系统,该系统包括协调方、参与方和监管方,协调方分别与参与方连接,协调方和参与方组成联邦学习集群,参与方连接于区块链,监管方连接于区块链;
[0033]协调方用于发起联邦学习训练任务请求;
[0034]参与方用于将自身数据集的统计特征加密上链;
[0035]监管方用于获取各参与方数据集统计特征并校验各参与方数据集统计特征的分布总偏离度;
[0036]参与方还用于进行本地训练,并将训练所得梯度信息加密上链;
[0037]监管方还用于校验参与方的梯度信息;
[0038]协调方还用于对参与方的梯度信息进行安全聚合;
[0039]协调方还用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于区块链的联邦学习可信训练方法,其特征在于,包括以下步骤:步骤S1,协调方发起联邦学习训练任务请求;步骤S2,参与方将自身数据集的统计信息加密上链;步骤S3,监管方获取各参与方数据集每项特征的统计信息并校验各参与方数据集统计信息的分布总偏离度;步骤S4,参与方进行本地训练,训练所得梯度信息加密上链;步骤S5,监管方校验参与方的梯度信息;步骤S6,协调方对参与方的梯度信息进行安全聚合;步骤S7,协调方将聚合后的梯度信息发送给各参与方以更新本地模型;步骤S8,参与方判断模型是否收敛或者迭代次数是否到上限,若否,返回步骤S4迭代,若是,则结束训练。2.如权利要求1所述的方法,其特征在于,所述步骤S2中,数据集的统计信息至少包括均值、中位数、标准差、WOE值、IV值。3.如权利要求1所述的方法,其特征在于,所述步骤S3中,监管方获取各参与方数据集统计信息之后,监管方两两比较参与方数据集同一项特征的偏离度是否超过设定值,遍历所有参与方的所有特征,最后汇总得到分布总偏离度,若分布总偏离度低于阈值,则校验通过并进入下一步,否则终止训练任务。4.如权利要求3所述的方法,其特征在于,所述步骤S3中,监管方两两比较参与方数据集同一项特征的偏离度时,依据参与方数据集一项特征的分布规律及统计信息生成随机数集,然后判断随机数集落在另一参与方数据集对应项特征的分布范围之外的比例,若比例超过设定值,则记偏离度为1,否则记偏离度为0;遍历所有参与方的所有特征之后,最后把偏离度加起来得到分布总偏离度。5.如权利要求1所述的方法,其特征在于,所述步骤S4包括:步骤S41,参与方将任务编码和参数信息摘要上传到区块链中;步骤S42,参与方查询该任务编码的其他参与方的参数信息摘要是否与自身一致,若一致,则进行下一步,否则终止训练任务;步骤S43,初始化模型训练环境,拉取本地数据集,开始执行训练任务,训练所得梯度信息加密上链。6.如权利要求1所述的方法,其特征在于,所述步骤S5包括:步骤S51,用随机数初始化一个数据集作为虚拟数据集,虚拟数据集的记录数为训练批次大小,虚拟数据集每条记录的特征数量与参与方数据集数据记...

【专利技术属性】
技术研发人员:王济平黎刚汤克云周健雄谢晓锋
申请(专利权)人:京信数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1