用于联邦学习模型的数据集切换方法和装置制造方法及图纸

技术编号:28839995 阅读:18 留言:0更新日期:2021-06-11 23:38
本公开的实施例公开了用于联邦学习模型的数据集切换方法和装置。该方法的一具体实施方式包括:获取待替换的数据集的数据属性信息;根据该数据属性信息,从预设的备选数据集集合中确定目标备选数据集;将该目标备选数据集加载至该联邦学习模型进行模型训练。该实施方式实现了将相近数据源作为备选,以保证联邦学习模型的训练效果和稳定性。

【技术实现步骤摘要】
用于联邦学习模型的数据集切换方法和装置
本公开的实施例涉及计算机
,具体涉及用于联邦学习模型的数据集切换方法和装置。
技术介绍
随着机器学习技术的发展,联邦学习(FederatedLearning)因其能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模,逐渐得到越来越多的应用。当参与联邦学习的多个机构中的数据源出现问题(例如无法访问或数据质量难以满足要求)而无法继续使用时,相关的方式通常是将发生上述问题的数据源进行缺失值处理,重新训练模型。
技术实现思路
本公开的实施例提出了用于联邦学习模型的数据集切换方法和装置。第一方面,本公开的实施例提供了一种用于联邦学习模型的数据集切换方法,该方法包括:获取待替换的数据集的数据属性信息;根据数据属性信息,从预设的备选数据集集合中确定目标备选数据集;将目标备选数据集加载至联邦学习模型进行模型训练。在一些实施例中,上述根据数据属性信息,从预设的备选数据集集合中确定目标备选数据集,包括:按照预设的选取规则从预设的备选数据集集合中选取目标数目个准备选数据集;从目标数目个准备选数据集中确定目标备选数据集。在一些实施例中,上述数据属性信息包括数据的特征信息;以及上述按照预设的选取规则从预设的备选数据集集合中选取目标数目个准备选数据集,包括:根据与数据的特征信息相似程度由高至低的顺序从预设的备选数据集集合中选取目标数目个准备选数据集。在一些实施例中,上述数据属性信息包括历史合作数据信息;以及上述按照预设的选取规则从预设的备选数据集集合中选取目标数目个准备选数据集,包括:获取历史合作数据信息所指示的至少一个数据集的历史模型评价信息,其中,数据集的历史模型评价信息用于指示加入数据集对模型效果带来的增益大小;根据数据集的历史模型评价信息所指示的增益大小从预设的备选数据集集合中选取目标数目个准备选数据集。在一些实施例中,上述从目标数目个准备选数据集中确定目标备选数据集,包括:获取目标数目个准备选数据集各自的数据成本信息;根据数据成本信息和历史模型评价信息所指示的增益大小,从目标数目个准备选数据集中确定目标备选数据集。在一些实施例中,上述数据属性信息包括特征统计向量,上述特征统计向量中的元素用于指示特征的统计值;以及上述按照预设的选取规则从预设的备选数据集集合中选取目标数目个准备选数据集,包括:根据特征统计向量,对预设的备选数据集集合中的备选数据集进行聚类,生成至少一个备选数据集组;将与待替换的数据集属于同一备选数据集组的其他备选数据集确定为目标数目个准备选数据集。在一些实施例中,上述预设的备选数据集集合通过以下步骤得到:获取预设的原始备选数据集集合;根据数据属性信息所指示的待替换的数据集的数据格式,对预设的原始备选数据集集合中的原始备选数据集进行数据清洗,生成预设的备选数据集集合。第二方面,本公开的实施例提供了一种用于联邦学习模型的数据集切换装置,该装置包括:获取单元,被配置成获取待替换的数据集的数据属性信息;确定单元,被配置成根据数据属性信息,从预设的备选数据集集合中确定目标备选数据集;加载单元,被配置成将目标备选数据集加载至联邦学习模型进行模型训练。在一些实施例中,上述确定单元包括:选取子单元,被配置成按照预设的选取规则从预设的备选数据集集合中选取目标数目个准备选数据集;确定子单元,被配置成从目标数目个准备选数据集中确定目标备选数据集。在一些实施例中,上述数据属性信息包括数据的特征信息。上述选取子单元进一步被配置成根据与数据的特征信息相似程度由高至低的顺序从预设的备选数据集集合中选取目标数目个准备选数据集。在一些实施例中,上述数据属性信息包括历史合作数据信息。上述选取子单元包括:第一获取模块,被配置成获取历史合作数据信息所指示的至少一个数据集的历史模型评价信息,其中,数据集的历史模型评价信息用于指示加入数据集对模型效果带来的增益大小;选取模块,被配置成根据数据集的历史模型评价信息所指示的增益大小从预设的备选数据集集合中选取目标数目个准备选数据集。在一些实施例中,上述确定子单元,包括:第二获取模块,被配置成获取目标数目个准备选数据集各自的数据成本信息;第一确定模块,被配置成根据数据成本信息和历史模型评价信息所指示的增益大小,从目标数目个准备选数据集中确定目标备选数据集。在一些实施例中,上述数据属性信息包括特征统计向量,上述特征统计向量中的元素用于指示特征的统计值。上述选取子单元,包括:聚类模块,被配置成根据特征统计向量,对预设的备选数据集集合中的备选数据集进行聚类,生成至少一个备选数据集组;第二确定模块,被配置成将与待替换的数据集属于同一备选数据集组的其他备选数据集确定为目标数目个准备选数据集。在一些实施例中,上述预设的备选数据集集合通过以下步骤得到:获取预设的原始备选数据集集合;根据数据属性信息所指示的待替换的数据集的数据格式,对预设的原始备选数据集集合中的原始备选数据集进行数据清洗,生成预设的备选数据集集合。第三方面,本公开的实施例提供了一种服务器,该服务器包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本公开的实施例提供的用于联邦学习模型的数据集切换方法和装置,首先获取待替换的数据集的数据属性信息;而后,根据数据属性信息,从预设的备选数据集集合中确定目标备选数据集;最后,将目标备选数据集加载至联邦学习模型进行模型训练。从而实现了将相近数据源作为备选,以保证联邦学习模型的训练效果和稳定性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:图1是本公开的一个实施例可以应用于其中的示例性系统架构图;图2是根据本公开的用于联邦学习模型的数据集切换方法的一个实施例的流程图;图3是根据本公开的实施例的用于联邦学习模型的数据集切换方法的一个应用场景的示意图;图4是根据本公开的用于联邦学习模型的数据集切换方法的又一个实施例的流程图;图5是根据本公开的用于联邦学习模型的数据集切换装置的一个实施例的结构示意图;图6是适于用来实现本公开的实施例的电子设备的结构示意图。具体实施方式下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。图1示出了可以应用本公开的用于联邦学习本文档来自技高网...

【技术保护点】
1.一种用于联邦学习模型的数据集切换方法,包括:/n获取待替换的数据集的数据属性信息;/n根据所述数据属性信息,从预设的备选数据集集合中确定目标备选数据集;/n将所述目标备选数据集加载至所述联邦学习模型进行模型训练。/n

【技术特征摘要】
1.一种用于联邦学习模型的数据集切换方法,包括:
获取待替换的数据集的数据属性信息;
根据所述数据属性信息,从预设的备选数据集集合中确定目标备选数据集;
将所述目标备选数据集加载至所述联邦学习模型进行模型训练。


2.根据权利要求1所述的方法,其中,所述根据所述数据属性信息,从预设的备选数据集集合中确定目标备选数据集,包括:
按照预设的选取规则从所述预设的备选数据集集合中选取目标数目个准备选数据集;
从所述目标数目个准备选数据集中确定所述目标备选数据集。


3.根据权利要求2所述的方法,其中,所述数据属性信息包括数据的特征信息;以及
所述按照预设的选取规则从所述预设的备选数据集集合中选取目标数目个准备选数据集,包括:
根据与所述数据的特征信息相似程度由高至低的顺序从所述预设的备选数据集集合中选取目标数目个准备选数据集。


4.根据权利要求2所述的方法,其中,所述数据属性信息包括历史合作数据信息;以及
所述按照预设的选取规则从所述预设的备选数据集集合中选取目标数目个准备选数据集,包括:
获取所述历史合作数据信息所指示的至少一个数据集的历史模型评价信息,其中,所述数据集的历史模型评价信息用于指示加入所述数据集对模型效果带来的增益大小;
根据所述数据集的历史模型评价信息所指示的增益大小从所述预设的备选数据集集合中选取目标数目个准备选数据集。


5.根据权利要求4所述的方法,其中,所述从所述目标数目个准备选数据集中确定所述目标备选数据集,包括:
获取所述目标数目个准备选数据集各自的数据成本信息;
根据数据成本信息和历史模型评价信...

【专利技术属性】
技术研发人员:刘舒程建波彭南博黄志翔
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1