一种基于数据特征维度切分表示的纵向联邦学习方法技术

技术编号：42561418 阅读：5 留言：0更新日期：2024-08-29 00:31

本发明专利技术公开了一种基于数据特征维度切分表示的纵向联邦学习方法，该方法首先各数据中心获得具有相同ID样本的数据，各数据中心将本地数据切分成特征数量相同数据子集，服务器将全局子集表征网络下发给各数据中心，各数据中心通过表征网络将子集潜在特征投影上传至服务器，服务器计算全局损失函数下发给各数据中心。其次各数据中心根据本地和全局损失函数更新本地子集表征网络并上传至服务器，服务器安全聚合后下发给各数据中心。最后各数据中心将通过训练后的表征网络得到的潜在特征上传至服务器，聚合形成全局数据潜在表征。本发明专利技术提升了纵向联邦学习方法训练模型的精度，发挥联邦学习在多数据中心协作中的潜力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能分布式联邦学习，具体涉及一种基于数据特征维度切分表示的纵向联邦学习方法。

技术介绍

1、随着人工智能技术的迅速发展，数据已成为推动技术进步和经济增长的核心资源，目前数据要素已经被列为五大生产要素之一。在传统的人工智能范式中，模型训练通常需要将数据收集汇总至一个中央服务器。由于原生数据的传输，这种方法会导致数据隐私泄露。实际上，数据通常由不同地区或机构的数据中心存储与保管，而不同机构间的数据具有巨大的价值潜力。如何在保护数据隐私的前提下实现不同数据中心间的有效协作，是当前各领域智能化发展的关键问题。

2、不同数据中心的数据，通常由于业务、区域等差异，存在许多相同id样本，但却拥有不同维度的特征。纵向联邦学习是在该场景下，安全挖掘数据特征，实现业务智能化的一个重要方法。该方法通过多个数据中心协作训练一个全局机器学习模型来解决这一问题。在每个数据中心，可以根据其本地数据特征独立训练全局模型的一部分网络。在每轮训练中，服务器收集所有数据中心的本地网络输出，进行梯度计算并将梯度反向传播至各数据中心，通过迭代训练，达成模型的共同优化和学习。例如，在同一地区的不同的医疗机构的数据中心之间，它们可能拥有相同患者的一些不同医疗诊断数据，这些数据隐私数据都保存在各医院的数据中心中，如肿瘤医院数据中心拥有大量患者的肿瘤等特征数据，体检医院数据中心则拥有患者更加全面的身体指标，为了最大化提高医疗资源利用率，可以在不泄露病人数据的前提下，由两家医院在本地进行相关模型的协作训练，实现这些医院数据中心间的协作，用于疾病预防等研究。

3、然而，现有的纵向联邦学习方法在实际应用中还存在一些限制，尤其是当各数据中心持有的相同样本的数据标签较少时，由于无法有效利用无标签样本，导致协作训练的模型性能下降。

技术实现思路

1、本专利技术针对现有技术不足，设计并实现一种基于数据特征维度切分表示的纵向联邦学习方法。

2、首先，通过基于数据特征维度切分数据集，将全局数据的特征表示任务转化为一个多视图的联邦特征表示任务，捕捉不同数据中心数据在特征空间中的联系。具体来说，根据各数据中心持有的最小特征维度，将所有数据中心的数据按照此最小维度切分成维度相同的数据子集。

3、其次，本专利技术在各数据中心利用所有无标签数据训练相同的本地特征子集表征网络，根据本地子集间以及各数据中心子集间相同id样本之间的潜空间关系，构造一个可表示所有子集间的重构、对比和距离的损失函数，以训练一个能够输出所有子集潜在表征的全局特征子集表征网络。

4、最后，在此基础上，对所有子集的潜在表征进行平均聚合，以形成代表全局数据的潜在表征。该全局潜在表征用于训练下游的分类模型等。

5、本专利技术通过使用无标签数据训练子集表征进而学习到全局数据潜在表征，同时在训练时充分利用了各数据中心间相同id的样本在潜空间上的联系来增强表征网络的学习能力，从而显著提升下游有监督学习任务的性能。这种方法不仅增强了模型的泛化能力，也优化了数据利用效率，为复杂数据环境下的联邦学习提供了一种新的解决方案。

6、一种基于数据特征维度切分表示的纵向联邦学习方法，包括如下步骤：

7、s1:各数据中心通过隐私求交等方法进行数据对齐操作，获得用于训练的所有具有相同id样本的数据其中n和dm分别表示样本数量和样本特征数量。

8、s2:根据各数据中心持有的数据xm的特征数量dm，根据最小特征维度，将所有本地数据切分成特征数量相同的数据子集并对子集中加入高斯噪声，用于保护数据隐私。服务器将全局子集表征网络初始化后下发给各数据中心。

9、s3:各数据中心计算本地损失函数llocal，同时通过表征网络将子集潜在特征投影上传至服务器。服务器收集所有特征投影计算全局损失函数lglobal，并下发给各数据中心。

10、s4:各数据中心根据本地损失函数和全局损失函数更新本地子集表征网络，并将得到的表征网络上传至服务器。

11、s5:服务器对所有数据中心的表征网络执行安全聚合操作后，重新下发给各数据中心。

12、s6:迭代s3至s5直到本地表征网络收敛，各数据中心将所有子集通过训练后的表征网络得到的潜在特征上传至服务器，聚合形成全局数据潜在表征，用于下游分类任务的训练。

13、进一步，s2中：

14、s21:针对每个数据中心的数据维度不同，对数据中心本地数据按照特征数据量划分成维度相同的子集，子集数量和子集个数由服务器决定，同时允许子集之间存在重叠部分。

15、s22:全局子集表征网络由编码器、解码器和投影器组成，构成表征网络训练的基本结构，其中编码器用于将数据投影到潜在特征空间，解码器用于将潜在特征还原成原始数据，投影器用于将潜在特征投影到统一空间，用于上传至服务器计算损失的同时起到了保护数据隐私的作用。

16、进一步，s3中：

17、s31:本地损失主要包括表征网络重构损失、对比损失和距离损失，其中重构损失由原始数据和重构数据之间的差异计算得到，对比损失主要由本地不同的子集对之间的相同样本和不同样本构成的正负样本对计算得到。距离损失主要由本地不同的子集对中，相同样本在特征空间上的距离构成。

18、s32:全局损失主要包括对比损失和距离损失，主要是由不同数据中心的子集之间构成的子集对计算得到。

19、进一步，s6中：对于服务器，将利用无标签数据训练完成的子集表征网络分发给所有数据中心，数据中心即可以将所有标签数据转换成潜在特征表示，提取有效表征。

20、服务器收到所有数据中心的标签样本的潜在表征，通过样本id,将相同样本的潜在表征进行平均聚合，形成全局数据的潜在表征，不仅保护了数据隐私，还提取数据的有效特征，用于分类任务。

21、本专利技术有益效果：本专利技术针对各数据中心持有的数据特征数量不一，导致无法使用相同的本地模型对无标签数据进行预训练全局表征的问题，本专利技术提出了一种基于数据特征维度切分表示的纵向联邦学习方法，通过使用表征学习技术以有效利用无标签数据预训练操作，通过使用无标签样本训练进行预训练全局数据潜在表征，以提升纵向联邦学习方法训练模型的精度，发挥联邦学习在多数据中心协作中的潜力，支撑各领域的智能化发展是非常有意义的。

本文档来自技高网...

【技术保护点】

1.一种基于数据特征维度切分表示的纵向联邦学习方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于数据特征维度切分表示的纵向联邦学习方法，其特征在于，所述将所有本地数据切分成特征数量相同数据子集具体为：针对每个数据中心的数据维度不同，对数据中心本地数据按照特征数据量划分成维度相同的子集，子集数量和子集个数由服务器决定，同时允许子集之间存在重叠部分。

3.根据权利要求1所述的基于数据特征维度切分表示的纵向联邦学习方法，其特征在于，步骤S2中还包括，在数据子集中加入高斯噪声，保护数据隐私。

4.根据权利要求1所述的基于数据特征维度切分表示的纵向联邦学习方法，其特征在于，所述全局子集表征网络由编码器、解码器和投影器组成，编码器用于将数据投影到潜在特征空间，解码器用于将潜在特征还原成原始数据，投影器用于将潜在特征投影到统一空间，上传至服务器计算损失的同时保护数据隐私。

5.根据权利要求4所述的基于数据特征维度切分表示的纵向联邦学习方法，其特征在于，所述本地损失包括表征网络重构损失、对比损失和距离损失，其中重构损失由原始数据和重构数

6.根据权利要求1所述的基于数据特征维度切分表示的纵向联邦学习方法，其特征在于，所述迭代过程中，对于服务器，将利用无标签数据训练完成的子集表征网络分发给所有数据中心，数据中心将所有标签数据转换成潜在特征表示，提取有效表征。

7.根据权利要求1至6任一所述的基于数据特征维度切分表示的纵向联邦学习方法，其特征在于，所述聚合形成全局数据潜在表征具体过程为：服务器收到所有数据中心的标签样本的潜在表征，通过样本ID，将相同样本的潜在表征进行平均聚合，形成全局数据的潜在表征。

...

【技术特征摘要】

1.一种基于数据特征维度切分表示的纵向联邦学习方法，其特征在于，包括如下步骤：

3.根据权利要求1所述的基于数据特征维度切分表示的纵向联邦学习方法，其特征在于，步骤s2中还包括，在数据子集中加入高斯噪声，保护数据隐私。

...

【专利技术属性】
技术研发人员：史豫坤，薛梅婷，曾艳，张纪林，魏振国，胡帆，殷昱煜，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人