基于安全联邦学习的自适应启动模型训练的模型评估方法技术

技术编号：30548888 阅读：30 留言：0更新日期：2021-10-30 13:28

本发明专利技术属于机器学习领域，具体公开了基于安全联邦学习的自适应启动模型训练的模型评估方法，新增样本各特征的PSI值，一旦PSI值达到预设的阈值，则通知其他节点，计算所有特征的平均PSI值，根据具体场景设置PSI阈值，达到阈值则准备启动模型训练；更新模型的流程：与模型训练过程中的评估指标做比较，如果出现显著差别，则提示需要将新增数据集fuse_new_data_evaluate加入原模型训练的融合数据集中，在原模型参数的基础上，进一步进行模型训练。一方面，可以及时使用新的样本集，另一方面可以及时获取模型在当前样本分布中的表现情况，判断训练模型时基于的样本分布假设是否发生变化。生变化。生变化。

全部详细技术资料下载

【技术实现步骤摘要】
基于安全联邦学习的自适应启动模型训练的模型评估方法

[0001]本专利技术涉及机器学习领域，具体为基于安全联邦学习的自适应启动模型训练的模型评估方法。

技术介绍

[0002]机器学习(Machine Learning，简称ML)是指用某些算法指导计算机利用已知数据自主构建合理的模型，并利用此模型对新的情境给出判断的过程，在网络搜索、在线广告、商品推荐、机械故障预测、保险定价、金融风险管理等各种应用中发挥着非常重要的作用。传统上，机器学习模型是在一个集中的数据语料库上训练的，这些数据可能是由单个或多个数据提供者收集的。虽然已经开发了并行分布式算法来加速训练过程，但是训练数据本身仍然集中收集和存储在一个数据中心。
[0003]2018年5月，欧盟通过General Data Protection Regulation(GDPR)法案把对隐私保护的要求提到了一个新的高度。除此以外，还有很多关于隐私数据的法律法规开始公布。因此，以前平台机构以任意方式进行数据共享受到挑战，也给机器学习的数据收集带来了严重的隐私问题。因为用于机器学习训练的数据通常是敏感的，可能来自具有不同隐私要求的多个所有者。这一严重的隐私问题限制了数据的实际数量。
[0004]有很多学者提出利用安全多方计算技术直接对数据加密进行训练，显然这样会带来相当大的计算开销。为了应对这一挑战，研究者们引入了联邦学习(FL)系统，专业人士对联邦学习的概念进行了扩展，涵盖了更多的场景，形成了全面安全的联邦学习框架，包括横向联邦学习(HFL)、纵向联邦学习(...

【技术保护点】

【技术特征摘要】
1.基于安全联邦学习的自适应启动模型训练的模型评估方法，其特征在于，包括如下具体步骤：S1、联邦学习参与者各方准备训练数据，具体如下：S1
‑
1、联邦学习的参与者可以有多方，由P1,P2,...,Pn表示，每个参与方各自拥有训练数据data_1,data_2,...,data_n；S1
‑
2、参与方其中有一方拥有标签y，假设拥有标签的节点是P1，称为发起方，无标签的节点为P2,...,Pn,称为参与方；S2、融合数据集：筛选每个参与方共同拥有的样本ID，形成一份融合数据集fuse_data；S3、使用融合数据集对纵向联邦学习中的二分类模型进行训练，具体如下：S3
‑
1、各方根据自己的数据维度及模型要求初始化模型；S3
‑
2、参与方计算本节点的数据进入本地模型后的输出结果并将发送给发起方；S3
‑
3、发起方计算真实标签与S3
‑
4、每一轮训练过程中更新模型参数，加密后发送给P1；S3
‑
5、发起方P1根据真实标签计算每个参与方的模型梯度，再将梯度发送给各参与方，辅助参与方根据梯度更新模型参数，根据训练要求，梯度可以加密传输或者非加密传输；S3
‑
6、参与方获得模型梯度后，根据模型梯度更新本地模型参数；S3
‑
7、每一轮训练完成后，判断模型是否收敛，如果收敛，则停止迭代，保存模型，如果没有终止条件，则重复(3
‑
2)至(3
‑
6)阶段；S4、积累用户数据，使用模型进行预测，具体如下：S4
‑
1、在获得新用户后，通过新用户的ID对其他节点进行求交，确定该用户在每个节点都有特征数据，形成无用户标签的fuse_new_data_predict；S4
‑
2、求交成功后，调用模型，计算获得预测标签y_predict，及预测概率predict_probability；S4
‑
3、当新用户积累...

【专利技术属性】
技术研发人员：曾佳，祝文伟，
申请(专利权)人：神谱科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人