一种模型联合训练的方法和系统技术方案

技术编号：30832918 阅读：23 留言：0更新日期：2021-11-18 12:51

本说明书实施例公开了一种模型联合训练的方法及系统。所述方法包括：多个联合训练的参与终端分别基于所述终端自身持有的私有数据联合进行模型训练，多个联合训练的参与终端分别使用基于梯度的优化算法生成各自的梯度；所述多个参与终端分别将所述各自的梯度发送给服务器；所述服务器从多个所述梯度中选取可信任梯度，并且根据选取的所述可信任梯度更新所述联合训练模型的参数；所述样本数据为文本数据、语音数据或者图形数据。语音数据或者图形数据。语音数据或者图形数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型联合训练的方法和系统
分案说明
[0001]本申请是针对2020年04月23日提交的中国申请202010326265.6提出的分案。

[0002]本说明书涉及机器学习领域，特别涉及一种模型联合训练的方法和系统。

技术介绍

[0003]多方联合建模，即多个参与方在保护各自私有数据的基础上，共同建立一个机器学习模型。但在这个场景下，多个参与方中的一方或者多方可能会为了自己的利益，对训练数据下毒，使得最终训练得到的模型有偏，例如：模型会对于某些样本做出错误的判断，从而下毒的参与方可以从中获益。
[0004]因此期待一种模型联合训练的方法和系统，在多方联合建模的场景下，可以抵御多个参与方中的一方或者多方对训练数据下毒。

技术实现思路

[0005]本说明书实施例之一提供一种模型联合训练的方法，所述方法包括：
[0006]多个联合训练的参与终端分别基于所述终端自身持有的样本数据进行模型联合训练，多个联合训练的参与终端分别使用基于梯度的优化算法生成各自的梯度；所述多个参与终端分别将所述各自的梯度发送给服务器；所述服务器从多个所述梯度中选取可信任梯度，并且根据选取的所述可信任梯度更新所述联合训练模型的参数；所述样本数据为文本数据、语音数据或者图形数据。
[0007]本说明书实施例之一提供一种模型联合训练的系统，所述系统包括：
[0008]梯度生成模块，用于使得多个联合训练的参与终端分别基于所述终端自身持有的样本数据进行模型联合训练，多个联合训练的参与终端分别使用...

【技术保护点】

【技术特征摘要】
1.一种模型联合训练的方法，所述方法包括：获取多个梯度，其中，所述多个梯度由多个联合训练的参与终端分别基于所述终端自身持有的样本数据进行模型联合训练得到；计算所述多个梯度的第一平均值，并且分别比较所述多个梯度与所述第一平均值，获取多个偏差结果；基于所述多个偏差结果，从所述多个梯度中选取可信任梯度，并且根据选取的所述可信任梯度更新联合训练模型的参数，其中，所述多个梯度中除可信任梯度外的其他梯度为可疑梯度，所述可疑梯度不被用于本次更新所述联合训练模型的参数；所述样本数据为文本数据、语音数据或者图形数据。2.根据权利要求1所述的方法，其中，所述从所述多个梯度中选取可信任梯度包括：从所述多个梯度中选取偏差小于预设阈值的所述梯度作为可信任梯度。3.根据权利要求1所述的方法，其中，所述从所述多个梯度中选取可信任梯度包括：确定所述多个偏差结果的偏差由小到大的排名，从所述多个梯度中选取排名小于预设阈值的所述梯度作为可信任梯度。4.根据权利要求1所述的方法，其中，所述根据选取的所述可信任梯度更新所述联合训练模型的参数包括：计算所述多个可信任梯度的第二平均值；将所述第二平均值作为所述联合训练模型的参数对应的梯度，使用所述基于梯度的优化算法更新所述联合训练模型的参数。5.一种模型联合训练的系统，所述系统包括：生成模块，用于：获取多个梯度，其中，所述多个梯度由多个联合训练的参与终端分别基于所述终端自身持有的样本数据进行模型联合训练得到；计算所述多个梯度的第一平均值，并且分别比较所述多个梯度与所...

【专利技术属性】
技术研发人员：陈超超，曹绍升，王力，周俊，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人