安全混洗梯度提升决策树的纵向联邦学习隐私保护方法技术

技术编号：41298991 阅读：20 留言：0更新日期：2024-05-13 14:47

本发明专利技术公开了安全混洗梯度提升决策树的纵向联邦学习隐私保护方法，基于安全混洗，减小了纵向联邦学习的隐私预算，在保证模型可用性的同时提升了隐私性，实现了模型可用性和隐私性的更优平衡。系统包括：用户利用本地数据训练梯度提升决策树模型，并将决策树模型参数的梯度发送至混洗器；混洗器接收各个用户上传的梯度，对梯度进行混洗，并将混洗后的梯度发送给服务器；服务器接收混洗后的梯度，聚合各个梯度得到全局模型。其中混洗器接收被差分隐私扰动后的梯度数据，服务器接收的梯度除了被差分隐私扰动加密，其中的用户和用户梯度的一一对应关系也被混洗器削弱，进一步保证了用户的隐私，此外，混洗器只需进行简单运算，系统开销小，系统运行效率高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及纵向联邦学习(vertical federated learning，vfl)领域，尤其涉及安全混洗梯度提升决策树的纵向联邦学习隐私保护方法。

技术介绍

1、近十年来，人工智能、深度学习的发展如火如荼，催生了智慧医疗、智慧工业、人像识别等各种新兴技术，这些便利我们生活的技术离不开海量数据的支持。然而，现阶段不同的机构、组织、企业拥有不同量级的隐私数据，这些数据难以安全地被共享，形成了一座座数据孤的问题。如何能在既保护数据隐私、符合安全监管的条件下，利用多方数据训练更优质的模型造福社会成为亟待解决的问题。

2、为了解决这个问题，学者们提出了联邦学习，联邦学习以交换模型参数的方式代替交换隐私数据。与传统的分布式学习相比，联邦学习以交换中间数据代替原始数据共享，大大减小了用户隐私数据的暴露的风险。与集中式深度学习相比，联邦学习系统通过分布式的多方协作破解了数据孤岛的壁垒，使得模型更加精确、功耗大大降低，因此在学术领域和工业领域受到广泛关注。

3、尽管联邦学习可以通过较少的通信次数得到高质量的模型，并且一定程度上保护了用户

4、的隐私数据，但是仍存在本地训练数据泄露、全局模型不可用等安全问题。联邦学习所面对的安全威胁既有来自于内部的投毒攻击、生成对抗网络攻击，也有来自于外部的模型反演攻击、成员推理攻击。为了应对各种隐私攻击，研究者们提出了安全多方计算、同态加密、差分隐私等防范的方法。

5、混洗模型是谷歌工程师提出的esa框架中的一个变体，用于在全局模型中保持高隐私性和高准确度

6、boosting与差分隐私联邦学习结合的方法是在国际数据库顶级会议sigmod2021上被提出的思路，该方法将gbdt决策树和差分隐私相融合，第一次实现了纵向联邦学习，针对梯度加密、直方图构建、发送和分割点寻找进行升级，优化了现有的secureboost方案，实现速度和规模的提升。samuel horvath等人在fedshuffle的基础上提出了新的混洗算法框架fedshufflegen，考虑随机重组、数据不平衡、用户子采样等因素，优化本地模型并提升收敛速度。近几年关于纵向联邦学习和安全混洗的研究在如火如荼地进行，学者们都在研究更为高效安全的算法，混洗与纵向联邦学习的结合是数据安全领域未来不断努力的方向。

技术实现思路

1、本专利技术的目的在于提供安全混洗梯度提升决策树的纵向联邦学习隐私保护方法，不仅保证了模型的准确率，而且能够进一步提升模型的隐私性，达到了模型可用性和隐私性的动态更优。

2、本专利技术采用的技术方案是：

3、安全混洗梯度提升决策树的纵向联邦学习隐私保护方法，应用于具有多个用户、一个服务器、一个混洗器的系统，用户具有大量本地数据且具有存储和计算能力，服务器具有初始数据用于构建全局模型且具有进行计算和存储能力，混洗器具有计算功能，其特征在于：方法包括以下步骤：

4、s1，各用户训练本地模型得到各自本地树裁剪后的梯度信息并上传至混洗器；

5、s2，混洗器接收到各个用户发送的梯度信息后，进行混洗得到扰动后的数据，再发送给服务器：

6、s3，服务器将扰动后的数据进行聚合得到全局模型并下发至各用户。

7、进一步地，步骤s1具体包括以下步骤：

8、步骤s11：设定有k个用户，k∈n+，n+表示正整数；总隐私预算为ε，ε∈(0，1)；每个用户有nuser个数据集合，nuser∈n+，n+表示正整数；每个数据集合对应1棵决策树，即每个用户有nuser棵决策树，计算得到每个集合的隐私预算为εensemble＝ε/nuser；

9、步骤s12：每个用户将数据分配到各数据集合，初始化数据集合iensemble＝di/，其中，d表示k个用户的数据集d＝{d1，d2，...di...，dk}，i∈[1，k]；iensemble表示用户i分配到各数据集合内的数据即本地数据集合，iensemble＝{i1，i2，...，inuser}；其中，inuser表示用户的第nuser个数据集合；

10、步骤s13：对本地数据集合进行加噪得到加噪本地数据i′ensemble，i′ensemble＝iensemble+εensemble；

11、步骤s14：对于每个用户，依据i′ensemble构造本地差分隐私梯度提升决策树ht(t∈[1，nuser])；

12、步骤s15：随机化用户数据并计算每个用户的总梯度，对于用户i(i∈[1，k])，得到用户i的总梯度为表示取梯度，r表示随机化；

13、步骤s16：裁剪梯度得gi＝gi+{1+||gi||/c}，表示二范数，c表示裁剪变量，c＞＝0，i∈[1，k]；

14、步骤s17：各用户将本地树裁剪后的梯度g＝{g1，g2，...gi...，gk}发送至混洗器。

15、进一步地，步骤s2具体包括以下步骤：

16、步骤s21：混洗器接收各个用户的梯度信息gi(r(di)，通过随机排列，在σsout＝σgi(r(di)的条件下对梯度向量g进行扰动；其中，σ表示取平均，sout表示扰动后的数据；

17、步骤s22：将扰动后的数据sout发送给服务器。

18、进一步地，步骤s2具体包括以下步骤：

19、步骤s31：服务器接收混洗器发送的扰动后的数据sout向量，并对sout进行聚合得到全局模型

20、步骤s32：返回全局模型z和隐私树的参数(εt，δ)，并下发至用户。

21、本专利技术采用以上技术方案，具有如下有益效果：1、本专利技术使用混洗算法减小了纵向联邦学习的隐私预算，在保证模型可用性的同时提升了数据的隐私性，实现了模型可用性和隐私性的更优平衡。此外，混洗器只需进行简单运算，系统开销小，系统运行效率高。2、本专利技术的数据存储于用户，混洗器接收被差分隐私扰动后的梯度数据，服务器接收的梯度除了被差分隐私扰动加密，其中的用户和用户梯度的一一对应关系也被混洗器削弱，进一步保证了用户的隐私。

本文档来自技高网...

【技术保护点】

1.安全混洗梯度提升决策树的纵向联邦学习隐私保护方法，应用于具有多个用户、一个服务器、一个混洗器的系统，用户具有大量本地数据且具有存储和计算能力，服务器具有初始数据用于构建全局模型且具有进行计算和存储能力，混洗器具有计算功能，其特征在于：方法包括以下步骤：

2.根据权利要求1所述的安全混洗梯度提升决策树的纵向联邦学习隐私保护方法，其特征在于：步骤S1具体包括以下步骤：

3.根据权利要求2所述的安全混洗梯度提升决策树的纵向联邦学习隐私保护方法，其特征在于：步骤S2具体包括以下步骤：

4.根据权利要求3所述的安全混洗梯度提升决策树的纵向联邦学习隐私保护方法，其特征在于：步骤S2具体包括以下步骤：

【技术特征摘要】

2.根据权利要求1所述的安全混洗梯度提升决策树的...

【专利技术属性】
技术研发人员：叶阿勇，陆文婷，黄川，
申请(专利权)人：福建师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人