数据处理方法、装置和存储介质制造方法及图纸

技术编号:32230938 阅读:10 留言:0更新日期:2022-02-09 17:35
本公开提出一种数据处理方法、装置和存储介质,涉及机器学习技术领域。本公开的一种数据处理方法,包括:根据联邦学习的成员集合中所有成员的训练数据,获取第一联合建模模型;根据第一联合建模模型和测试数据集合,获取第一价值评估量;针对每个成员:根据成员集合中除当前的成员的训练数据以外的数据,获取第二联合建模模型;根据第二联合建模模型和测试数据集合,获取第二价值评估量;根据第一价值评估量和第二价值评估量,确定当前的成员的边际价值评估量;根据各个成员的边际价值评估量确定待剔除的成员。通过这样的方法,能够提高联邦学习中多方合作的成员的可靠度,进而便于实现提升模型的准确度。现提升模型的准确度。现提升模型的准确度。

【技术实现步骤摘要】
数据处理方法、装置和存储介质


[0001]本公开涉及机器学习
,特别是一种数据处理方法、装置和存储介质。

技术介绍

[0002]联邦学习概念最早于2016年由Google提出,当时Google为了充分利用海量移动设备(例如手机、平板电脑、相机等)用户所产生的大量私人数据而设计了联邦学习框架。该方法在充分利用海量数据提升模型效果的同时,因不需传输用户私人数据,有效克服了数据隐私问题。
[0003]国内联邦学习技术研究最早由微众银行开展,并分别于2018年9月和2020年4月发表了《联邦学习白皮书》V1.0和V2.0版,成功将联邦学习概念由最初的解决数据隐私问题拓展到解决跨机构的数据孤岛问题,让行业看到了该技术极大的应用前景。根据数据和任务特点,联邦学习有三种模式:纵向联邦学习(Vertical Federated Learning)、横向联邦学习(Horizontal Federated Learning)与联邦迁移学习(Federated Transfer Learning)。
[0004]由于联邦学习能够从技术的角度保证各方数据安全,同时可实现联合建模,因此极大促进了多方数据合作的发展。

技术实现思路

[0005]本公开的一个目的在于提高联邦学习中参与成员的可靠度。
[0006]根据本公开的一些实施例的一个方面,提出一种数据处理方法,包括:根据联邦学习的成员集合中所有成员的训练数据,基于联邦学习算法生成并训练模型,获取第一联合建模模型;根据第一联合建模模型和测试数据集合,获取第一联合建模模型的价值评估量,作为第一价值评估量;
[0007]针对每个成员:
[0008]根据成员集合中除当前的成员的训练数据以外的数据,基于联邦学习算法生成并训练模型,获取第二联合建模模型;
[0009]根据第二联合建模模型和测试数据集合,获取第二联合建模模型的价值评估量,作为第二价值评估量;
[0010]根据第一价值评估量和第二价值评估量,确定当前的成员的边际价值评估量;
[0011]根据各个成员的边际价值评估量确定待剔除的成员。
[0012]在一些实施例中,根据各个成员的边际价值评估量确定待剔除的成员包括:判断是否存在边际价值评估量小于预定阈值的成员;在存在边际价值评估量小于预定阈值的成员的情况下,确定待剔除的成员。
[0013]在一些实施例中,数据处理方法还包括:通过在成员集合中剔除待剔除的成员更新成员集合。
[0014]在一些实施例中,数据处理方法还包括:根据更新后的成员集合,执行获取第一联合建模模型的操作,并更新更新后的成员集合中每个成员的边际价值评估量;判断更新后
的成员集合中是否存在边际价值评估量小于预定阈值的成员;在存在边际价值评估量小于预定阈值的成员的情况下,确定待剔除的成员,执行通过剔除待剔除的成员更新成员集合的操作,并更新更新后的成员集合中每个成员的边际价值评估量,直至不存在边际价值评估量小于预定阈值的成员;在不存在边际价值评估量小于预定阈值的成员的情况下,确定成员集合中的成员为稳定成员。
[0015]在一些实施例中,数据处理方法还包括:根据稳定成员的边际价值评估量确定稳定成员的权重,其中,稳定成员的权重与对应的边际价值评估量正相关。
[0016]在一些实施例中,根据稳定成员的边际价值评估量确定稳定成员的权重包括:通过将稳定成员的边际价值评估量做归一化运算,获取稳定成员的权重。
[0017]在一些实施例中,获取模型的价值评估量包括:获取模型的损失函数值;通过计算损失函数值的绝对值的倒数,获取模型的价值评估量。
[0018]在一些实施例中,根据第一价值评估量和第二价值评估量,确定当前的成员的边际价值评估量包括:确定第一价值量与第二价值评估量的差,作为当前的成员的边际价值评估量。
[0019]根据本公开的一些实施例的一个方面,提出一种数据处理装置,包括:第一模型获取单元,被配置为根据联邦学习的成员集合中所有成员的训练数据,基于联邦学习算法生成并训练模型,获取第一联合建模模型;第一确定单元,被配置为根据第一联合建模模型和测试数据集合,获取第一联合建模模型的价值评估量,作为第一价值评估量;第二模型获取单元,被配置为针对每个成员,根据成员集合中除当前的成员的训练数据以外的数据,基于联邦学习算法生成并训练模型,获取第二联合建模模型;第二确定单元,被配置为根据第二联合建模模型和测试数据集合,获取第二联合建模模型的价值评估量,作为第二价值评估量;第三确定单元,被配置为根据第一价值评估量和第二价值评估量,确定当前的成员的边际价值评估量;剔除确定单元,被配置为根据各个成员的边际价值评估量确定待剔除的成员。
[0020]在一些实施例中,剔除确定单元被配置为:判断是否存在边际价值评估量小于预定阈值的成员;在存在边际价值评估量小于预定阈值的成员的情况下,确定待剔除的成员。
[0021]在一些实施例中,数据处理装置还包括:更新单元,被配置为通过在成员集合中剔除待剔除的成员更新成员集合。
[0022]在一些实施例中,更新单元还被配置为根据更新后的成员集合触发第一模型获取单元,直至剔除确定单元确定成员集合中的成员为稳定成员。
[0023]在一些实施例中,数据处理装置还包括权重确定单元,被配置为根据稳定成员的边际价值评估量确定稳定成员的权重,其中,稳定成员的权重与对应的边际价值评估量正比相关。
[0024]根据本公开的一些实施例的一个方面,提出一种数据处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中提出的任意一种数据处理方法。
[0025]根据本公开的一些实施例的一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中提出的任意一种数据处理方法的步骤。
附图说明
[0026]此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
[0027]图1为本公开的数据处理方法的一些实施例的流程图。
[0028]图2为本公开的数据处理方法的另一些实施例的流程图。
[0029]图3为本公开的数据处理装置的一些实施例的示意图。
[0030]图4为本公开的数据处理装置的另一些实施例的示意图。
[0031]图5为本公开的数据处理装置的又一些实施例的示意图。
具体实施方式
[0032]下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
[0033]相关技术中,联邦学习的各合作方主要采用主观评估的方法,通过讨论协商确定各自数据价值以及建模收益分配。由于缺少客观、定量的评估方法,难以确定各个合作方都能为联邦学习模型带来正向效果。另外,也存在难以公平合理界定各方权益的问题。
[0034]本公开的数据处理方法的一些实施例的流程图如图1所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:根据联邦学习的成员集合中所有成员的训练数据,基于联邦学习算法生成并训练模型,获取第一联合建模模型;根据所述第一联合建模模型和测试数据集合,获取所述第一联合建模模型的价值评估量,作为第一价值评估量;针对每个成员:根据所述成员集合中除当前的成员的训练数据以外的数据,基于联邦学习算法生成并训练模型,获取第二联合建模模型;根据所述第二联合建模模型和所述测试数据集合,获取所述第二联合建模模型的价值评估量,作为第二价值评估量;根据所述第一价值评估量和所述第二价值评估量,确定当前的成员的边际价值评估量;根据各个成员的边际价值评估量确定待剔除的成员。2.根据权利要求1所述的方法,其中,所述根据各个成员的边际价值评估量确定待剔除的成员包括:判断是否存在所述边际价值评估量小于预定阈值的成员;在存在所述边际价值评估量小于预定阈值的成员的情况下,确定所述待剔除的成员。3.根据权利要求1或2所述的方法,还包括:通过在所述成员集合中剔除所述待剔除的成员更新所述成员集合。4.根据权利要求3所述的方法,还包括:根据更新后的所述成员集合,执行所述获取第一联合建模模型的操作,并更新更新后的所述成员集合中每个成员的所述边际价值评估量;判断更新后的所述成员集合中是否存在边际价值评估量小于预定阈值的成员;在存在所述边际价值评估量小于预定阈值的成员的情况下,确定所述待剔除的成员,执行通过剔除所述待剔除的成员更新所述成员集合的操作,并更新更新后的所述成员集合中每个成员的所述边际价值评估量,直至不存在所述边际价值评估量小于预定阈值的成员;在不存在所述边际价值评估量小于预定阈值的成员的情况下,确定当前的成员为稳定成员。5.根据权利要求2或4所述的方法,还包括:根据所述稳定成员的边际价值评估量确定所述稳定成员的权重,其中,所述稳定成员的权重与对应的边际价值评估量正相关。6.根据权利要求5所述的方法,其中,所述根据所述稳定成员的边际价值评估量确定所述稳定成员的权重包括:通过将所述稳定成员的边际价值评估量做归一化运算,获取所述稳定成员的权重。7.根据权利要求1所述的方法,其中,获取模型的价值评估量包括:获取模型的损失函数值;通过计算所述损失函数值的绝对值的倒数,获取...

【专利技术属性】
技术研发人员:张立平王希予宋红花赵国梁孙中伟
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1