联邦学习系统中共享数据的方法、装置、设备及介质制造方法及图纸

技术编号:31607742 阅读:44 留言:0更新日期:2021-12-29 18:34
本申请提供了一种联邦学习系统中共享数据的方法,其中,联邦学习系统包括第一设备和至少一个第二设备,该方法包括:第一设备获取至少一个第二设备的反馈信息,然后第一设备根据至少一个第二设备的反馈信息更新至少一个第二设备的训练数据。如此考虑了第二设备的差异,采用差异化方式下发共享数据,使得第二设备能够根据更新后的训练数据进行针对性训练,提高了模型预测精度和模型训练效率。提高了模型预测精度和模型训练效率。提高了模型预测精度和模型训练效率。

【技术实现步骤摘要】
联邦学习系统中共享数据的方法、装置、设备及介质


[0001]本申请涉及人工智能(artificial intelligence,AI)领域,尤其涉及一种联邦学习系统中共享数据的方法、装置、设备以及计算机可读存储介质。

技术介绍

[0002]联邦学习(federated learning,FL)是为了解决机器学习中存在的数据孤岛以及隐私保护问题而提出的一种新算法。该算法提供了一种联邦学习系统。联邦学习系统通常包括中心设备以及边缘设备。每个边缘设备持有自己的数据集,边缘设备之间的数据集互相隔离。各个边缘设备使用自己的数据集进行模型训练,并将梯度上传至中心设备,中心设备聚合各个边缘设备的梯度进行模型更新并将更新后的模型重新下发至各个边缘设备。
[0003]现有机器学习任务一般默认数据遵循独立同分布的假设。在联邦学习中,不同边缘设备之间的数据极有可能不满足该假设。为了解决联邦学习中数据分布影响联邦学习效果的问题,业界提出了一些共享数据的方法。具体地,在训练初始阶段,对参与联邦学习的每个边缘设备,从共享数据集中随机采样部分数据,分发给各个边缘设备。边缘设备基于共享数据与私有数据,进行模型训练。
[0004]然而,基于上述方法训练所得模型的预测精度以及模型训练效率仍然难以满足业务需求。

技术实现思路

[0005]本申请提供了一种联邦学习系统中共享数据的方法,该方法根据至少一个第二设备的反馈信息针对性地更新至少一个第二设备的训练数据,基于更新后的训练数据进行模型训练可以提高模型训练效率以及模型预测精度,能够满足业务需求。本申请还提供了上述方法对应的装置、设备、计算机可读存储介质以及计算机程序产品。
[0006]第一方面,本申请提供了一种联邦学习系统中共享数据的方法。所述联邦学习系统包括第一设备和至少一个第二设备。该联邦学习系统可以部署在云环境,具体为云环境上的多个计算设备(例如中心服务器)。联邦学习系统也可以部署在边缘环境,具体为边缘环境中的多个计算设备(例如边缘服务器)。联邦学习系统还可以部署在端设备(例如台式机等用户终端)。在一些实现方式中,联邦学习系统也可以分布式地部署于不同环境,例如第一设备部署在云环境,至少一个第二设备部署在边缘环境。
[0007]具体地,第一设备获取至少一个第二设备的反馈信息,然后根据至少一个第二设备的反馈信息更新至少一个第二设备的训练数据,如此可以实现根据第二设备的反馈信息针对性地更新第二设备的训练数据。
[0008]由于更新后的训练数据中至少有一部分数据是来自于第一设备的共享数据集中的共享数据,这些共享数据具有相同的数据分布,因此,减少了至少一个第二设备的训练数据的分布差异,提升了联邦学习效果。并且,该方法考虑了第二设备的差异,采用差异化方式下发共享数据,使得第二设备能够根据更新后的训练数据进行针对性训练,提高了模型
预测精度和模型训练效率。
[0009]在一些可能的实现方式中,第一设备可以根据至少一个第二设备的目标数据更新至少一个第二设备的训练数据。其中,至少一个第二设备的目标数据为第一设备的共享数据集中与至少一个第二设备的反馈信息匹配的数据。具体地,第一设备可以根据至少一个第二设备的反馈信息从共享数据集中确定目标数据,然后根据目标数据更新至少一个第二设备的训练数据。
[0010]其中,第二设备的训练数据在更新后至少包括上述目标数据。如此,第二设备可以根据包括上述目标数据在内的训练数据进行针对性训练,提高了模型预测精度和模型训练效率。
[0011]在一些可能的实现方式中,第一设备可以在至少一个第二设备的反馈信息满足预设条件时,根据至少一个第二设备的反馈信息更新所述至少一个第二设备的训练数据。其中,预设条件可以为如下所示的条件中的至少一个:设备处于空闲状态,传输时延不超过预设时长(表征通信状况良好),运算能力大于运算能力阈值,存储容量大于存储容量阈值。
[0012]由于第一设备可以根据至少一个第二设备的反馈信息决定是否更新至少一个第二设备的训练数据,如此,可以避免不必要的数据传输,降低通信压力。
[0013]在一些可能的实现方式中,所述反馈信息包括所述第二设备的配置信息或所述第二设备训练的模型的属性信息。其中,配置信息可以包括算力、通信状态、存储容量、空闲状态中的一种或多种。模型的属性信息可以包括模型构建参数、模型性能和模型精度中的一种或多种。模型构建参数具体是用于构建模型的参数,例如可以为模型梯度、模型权重等等。模型精度包括准确率、召回率、精确度中的任意一种或多种,模型性能包括模型训练时间等等。
[0014]在一些可能的实现方式中,所述模型的属性信息包括模型构建参数,第一设备可以根据模型构建参数如模型梯度构建至少一个第二设备训练的模型对应的模型副本,然后通过模型副本对共享数据集中的样本数据进行预测,获得预测错误的样本数据,接着第一设备根据预测错误的样本数据更新至少一个第二设备的训练数据。
[0015]由此,第二设备可以根据预测错误的样本数据进行针对性训练,提高模型训练精度。此外,通过上述预测错误的样本数据进行针对性训练,可以减少训练次数,提高模型训练效率。
[0016]在一些可能的实现方式中,配置信息包括算力、通信状态、存储容量、空闲状态中的一种或多种,模型的属性信息包括模型性能和模型精度中的一种或多种。第一设备可以根据算力、通信状态、存储容量、空闲状态、模型性能和模型精度中的一种或多种确定至少一个第二设备对应的训练数据的数量,然后第一设备可以根据至少一个第二设备对应的训练数据的数量,更新至少一个第二设备的训练数据。如此实现针对性地下发共享数据,通过该共享数据进行针对性训练,可以提高模型精度和模型训练效率。
[0017]在一些可能的实现方式中,第一设备可以向至少一个第二设备发送第一标识,其中,第一标识可以是目标数据的标识,第二设备可以根据该第一标识从本地或者第三方平台获取数据,从而更新训练数据。由于仅需发送目标数据的标识,无需发送目标数据,大幅减少了第一设备需要传输的数据量,减少了第一设备对网络资源的占用,降低了第一设备的通信压力,提高了传输效率。
[0018]在一些可能的实现方式中,第一设备记录有第二标识,该第二标识具体为至少一个第二设备持有的数据的标识,第一设备可以根据第二标识以及至少一个第二设备的反馈信息,通过增量更新方式更新至少一个第二设备的训练数据。由于采用增量更新方式,因此,第一设备无需发送第二设备已持有数据的标识,进一步减少了第一设备需要传输的数据量,提高了传输效率。
[0019]第二方面,本申请提供了一种联邦学习系统中共享数据的方法。该联邦学习系统包括第一设备和至少一个第二设备。至少一个第二设备可以生成至少一个第二设备的反馈信息,然后至少一个第二设备向第一设备发送反馈信息,该反馈信息用于第一设备更新至少一个第二设备的训练数据。该方法考虑了第二设备的差异,采用差异化方式下发共享数据,使得第二设备能够根据更新后的训练数据进行针对性训练,提高了模型预测精度和模型训练效率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联邦学习系统中共享数据的方法,其特征在于,所述联邦学习系统包括第一设备和至少一个第二设备,所述方法包括:所述第一设备获取所述至少一个第二设备的反馈信息;所述第一设备根据所述至少一个第二设备的反馈信息更新所述至少一个第二设备的训练数据。2.根据权利要求1所述的方法,其特征在于,所述第一设备根据所述至少一个第二设备的反馈信息更新所述至少一个第二设备的训练数据,包括:所述第一设备根据所述至少一个第二设备的目标数据更新所述至少一个第二设备的训练数据,所述至少一个第二设备的目标数据为所述第一设备的共享数据集中与所述至少一个第二设备的反馈信息匹配的数据。3.根据权利要求1或2所述的方法,其特征在于,所述第一设备根据所述至少一个第二设备的反馈信息更新所述至少一个第二设备的训练数据,包括:所述至少一个第二设备的反馈信息满足预设条件时,所述第一设备根据所述至少一个第二设备的反馈信息更新所述至少一个第二设备的训练数据。4.根据权利要求1至3任一项所述的方法,其特征在于,所述反馈信息包括所述第二设备的配置信息或所述第二设备训练的模型的属性信息。5.根据权利要求4所述的方法,其特征在于,所述模型的属性信息包括模型构建参数;所述第一设备根据所述至少一个第二设备的反馈信息更新所述至少一个第二设备的训练数据,包括:所述第一设备根据所述模型构建参数构建所述至少一个第二设备训练的模型对应的模型副本;所述第一设备通过所述模型副本对共享数据集中的样本数据进行预测,获得预测错误的样本数据;所述第一设备根据预测错误的样本数据更新所述至少一个第二设备的训练数据。6.根据权利要求4或5所述的方法,其特征在于,所述配置信息包括算力、通信状态、存储容量、空闲状态中的一种或多种,所述模型的属性信息包括模型性能和模型精度中的一种或多种;所述第一设备根据所述至少一个第二设备的反馈信息更新所述至少一个第二设备的训练数据,包括:所述第一设备根据所述算力、所述通信状态、所述存储容量、所述空闲状态、所述模型性能和所述模型精度中的一种或多种确定所述至少一个第二设备对应的训练数据的数量;所述第一设备根据所述至少一个第二设备对应的训练数据的数量,更新所述至少一个第二设备的训练数据。7.根据权利要求1至6任一项所述的方法,其特征在于,所述第一设备根据所述至少一个第二设备的反馈信息更新所述至少一个第二设备的训练数据,包括:所述第一设备向所述至少一个第二设备发送第一标识,所述至少一个第二设备的训练数据在更新后包括所述至少一个第二设备根据所述第一标识获取的数据。8.根据权利要求1至7任一项所述的方法,其特征在于,所述第一设备记录有第二标识,
所述第二标识包括所述至少一个第二设备持有的数据的标识;所述第一设备根据所述至少一个第二设备的反馈信息更新所述至少一个第二设备的训练数据,包括:所述第一设备根据所述第二标识以及所述至少一个第二设备的反馈信息,通过增量更新方式更新所述至少一个第二设备的训练数据。9.一种联邦学习系统中共享数据的方法,其特征在于,所述联邦学习系统包括第一设备和至少一个第二设备,所述方法包括:所述至少一个第二设备生成所述至少一个第二设备的反馈信息;所述至少一个第二设备向所述第一设备发送所述反馈信息,所述反馈信息用于所述第一设备更新所述至少一个第二设备的训练数据。10.根据权利要求9所述的方法,其特征在于,所述方法还包括:所述至少一个第二设备接收所述第一设备发送的目标数据,所述目标数据为所述第一设备的共享数据集中与所述至少一个第二设备的反馈信息匹配的数据。11.根据权利要求9所述的方法,其特征在于,所述方法还包括:所述至少一个第二设备接收所述第一设备发送的目标数据的标识,所述目标数据为所述第一设备的共享数据集中与所述至少一个第二设备的反馈信息匹配的数据;所述至少一个第二设备根据所述目标数据的标识获取所述目标数据。12.根据权利要求10或11所述的方法,其特征...

【专利技术属性】
技术研发人员:宁伟康廖振生
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1