基于安全联邦学习的自适应启动模型训练的模型评估方法技术

技术编号:30548888 阅读:30 留言:0更新日期:2021-10-30 13:28
本发明专利技术属于机器学习领域,具体公开了基于安全联邦学习的自适应启动模型训练的模型评估方法,新增样本各特征的PSI值,一旦PSI值达到预设的阈值,则通知其他节点,计算所有特征的平均PSI值,根据具体场景设置PSI阈值,达到阈值则准备启动模型训练;更新模型的流程:与模型训练过程中的评估指标做比较,如果出现显著差别,则提示需要将新增数据集fuse_new_data_evaluate加入原模型训练的融合数据集中,在原模型参数的基础上,进一步进行模型训练。一方面,可以及时使用新的样本集,另一方面可以及时获取模型在当前样本分布中的表现情况,判断训练模型时基于的样本分布假设是否发生变化。生变化。生变化。

【技术实现步骤摘要】
基于安全联邦学习的自适应启动模型训练的模型评估方法


[0001]本专利技术涉及机器学习领域,具体为基于安全联邦学习的自适应启动模型训练的模型评估方法。

技术介绍

[0002]机器学习(Machine Learning,简称ML)是指用某些算法指导计算机利用已知数据自主构建合理的模型,并利用此模型对新的情境给出判断的过程,在网络搜索、在线广告、商品推荐、机械故障预测、保险定价、金融风险管理等各种应用中发挥着非常重要的作用。传统上,机器学习模型是在一个集中的数据语料库上训练的,这些数据可能是由单个或多个数据提供者收集的。虽然已经开发了并行分布式算法来加速训练过程,但是训练数据本身仍然集中收集和存储在一个数据中心。
[0003]2018年5月,欧盟通过General Data Protection Regulation(GDPR)法案把对隐私保护的要求提到了一个新的高度。除此以外,还有很多关于隐私数据的法律法规开始公布。因此,以前平台机构以任意方式进行数据共享受到挑战,也给机器学习的数据收集带来了严重的隐私问题。因为用于机器学习训练的数据通常是敏感的,可能来自具有不同隐私要求的多个所有者。这一严重的隐私问题限制了数据的实际数量。
[0004]有很多学者提出利用安全多方计算技术直接对数据加密进行训练,显然这样会带来相当大的计算开销。为了应对这一挑战,研究者们引入了联邦学习(FL)系统,专业人士对联邦学习的概念进行了扩展,涵盖了更多的场景,形成了全面安全的联邦学习框架,包括横向联邦学习(HFL)、纵向联邦学习(VFL)和联邦转移学习(FTL)。
[0005]联邦学习的定义是各方数据都保留在本地,不泄露隐私也不违反法规;多个参与者联合数据建立虚拟的共有模型,并且共同获益的体系。具体来说,可以做到各自数据不出本地,然后通过加密机制下的参数交换方式,在不违反数据隐私法规情况下,建立一个虚拟的共有模型。联邦学习作为一种保障数据安全的建模方法,在销售、金融等行业中拥有巨大的应用前景。在这些行业中,受到知识产权、隐私保护、数据安全等诸多因素影响,数据无法被直接聚合来进行机器学习模型训练。此时,就需要借助联邦学习来训练一个联合模型。
[0006]从目前公开的代码、论文和专利看,现有技术中,联邦学习方案更关注模型的训练阶段,很少提及模型评估及如何根据评估结果获得更优的模型。在模型建立好之后,随着时间的流逝,样本分布可能发生改变,比如新用户加入,不同地区开展业务等,样本分布发生改变后,会影响模型效果。为了避免这种情况带来的误差引起不必要的损失,可以在模型部署后使用新增样本对模型效果进行评估,设计指标自动出发模型训练。本专利技术则提出了这样一种基于安全联邦学习的自适应启动模型训练的模型评估方法。

技术实现思路

[0007]本专利技术的目的在于提供基于安全联邦学习的自适应启动模型训练的模型评估方法,以解决上述
技术介绍
中提出的问题。
[0008]为实现上述目的,本专利技术提供如下技术方案:基于安全联邦学习的自适应启动模型训练的模型评估方法,包括如下具体步骤:
[0009]S1、联邦学习参与者各方准备训练数据,具体如下:
[0010]S1

1、联邦学习的参与者可以有多方,由P1,P2,...,Pn表示,每个参与方各自拥有训练数据data_1,data_2,...,data_n;
[0011]S1

2、参与方其中有一方拥有标签y,假设拥有标签的节点是P1,称为发起方,无标签的节点为P2,...,Pn,称为参与方;
[0012]S2、融合数据集:筛选每个参与方共同拥有的样本ID,形成一份融合数据集fuse_data;
[0013]S3、使用融合数据集对纵向联邦学习中的二分类模型进行训练,具体如下:
[0014]S3

1、各方根据自己的数据维度及模型要求初始化模型;
[0015]S3

2、参与方计算本节点的数据进入本地模型后的输出结果并将发送给发起方;
[0016]S3

3、发起方计算真实标签与
[0017]S3

4、每一轮训练过程中更新模型参数,加密后发送给P1;
[0018]S3

5、发起方P1根据真实标签计算每个参与方的模型梯度,再将梯度发送给各参与方,辅助参与方根据梯度更新模型参数,根据训练要求,梯度可以加密传输或者非加密传输;
[0019]S3

6、参与方获得模型梯度后,根据模型梯度更新本地模型参数;
[0020]S3

7、每一轮训练完成后,判断模型是否收敛,如果收敛,则停止迭代,保存模型,如果没有终止条件,则重复(3

2)至(3

6)阶段;
[0021]S4、积累用户数据,使用模型进行预测,具体如下:
[0022]S4

1、在获得新用户后,通过新用户的ID对其他节点进行求交,确定该用户在每个节点都有特征数据,形成无用户标签的fuse_new_data_predict;
[0023]S4

2、求交成功后,调用模型,计算获得预测标签y_predict,及预测概率predict_probability;
[0024]S4

3、当新用户积累到一定量,即大于训练样本的10%且大于1000条的时候,计算各节点每一个特征的PSI,计算公式如下:
[0025][0026]S5、在线学习,具体如下:
[0027]S5

1、不断获得新用户的真实标签y_true,并将标签加入fuse_new_data_predict中,形成有标签的数据集fuse_new_data_evaluate;
[0028]S5

2、设置模型训练触发条件:计算新增样本各特征的PSI值,一旦某节点的值达到预设的阈值,则通知其他节点,计算所有特征的平均PSI值,根据具体场景设置PSI阈值,达到阈值则准备启动模型训练;
[0029]S5

3、可选步骤,计算新样本fuse_new_data_evaluate与原模型的评估结果,并计算与原训练数据fuse_data评估结果的变化率,如果变化超过5%,可以辅助说明模型需要
进一步训练;
[0030]S5

4、自动更新模型:如果PSI值达到触发条件,则将新增数据集fuse_new_data_evaluate加入原模型训练的融合数据集中,在原模型参数的基础上,进一步进行模型训练。
[0031]优选的,步骤S3

7中,根据以下条件判断模型是否收敛:
[0032]a:计算本轮与上轮模型参数的变化情况,如果平均模型参数的变化率小于1%,则认为模型收敛;
[0033]b:可以在原始数据中设置一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于安全联邦学习的自适应启动模型训练的模型评估方法,其特征在于,包括如下具体步骤:S1、联邦学习参与者各方准备训练数据,具体如下:S1

1、联邦学习的参与者可以有多方,由P1,P2,...,Pn表示,每个参与方各自拥有训练数据data_1,data_2,...,data_n;S1

2、参与方其中有一方拥有标签y,假设拥有标签的节点是P1,称为发起方,无标签的节点为P2,...,Pn,称为参与方;S2、融合数据集:筛选每个参与方共同拥有的样本ID,形成一份融合数据集fuse_data;S3、使用融合数据集对纵向联邦学习中的二分类模型进行训练,具体如下:S3

1、各方根据自己的数据维度及模型要求初始化模型;S3

2、参与方计算本节点的数据进入本地模型后的输出结果并将发送给发起方;S3

3、发起方计算真实标签与S3

4、每一轮训练过程中更新模型参数,加密后发送给P1;S3

5、发起方P1根据真实标签计算每个参与方的模型梯度,再将梯度发送给各参与方,辅助参与方根据梯度更新模型参数,根据训练要求,梯度可以加密传输或者非加密传输;S3

6、参与方获得模型梯度后,根据模型梯度更新本地模型参数;S3

7、每一轮训练完成后,判断模型是否收敛,如果收敛,则停止迭代,保存模型,如果没有终止条件,则重复(3

2)至(3

6)阶段;S4、积累用户数据,使用模型进行预测,具体如下:S4

1、在获得新用户后,通过新用户的ID对其他节点进行求交,确定该用户在每个节点都有特征数据,形成无用户标签的fuse_new_data_predict;S4

2、求交成功后,调用模型,计算获得预测标签y_predict,及预测概率predict_probability;S4

3、当新用户积累...

【专利技术属性】
技术研发人员:曾佳祝文伟
申请(专利权)人:神谱科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1