纵向联邦学习系统中基于样本交换的标签推断攻击方法技术方案

技术编号：39655981 阅读：9 留言：0更新日期：2023-12-09 11:24

本发明专利技术涉及联邦学习技术领域，具体是纵向联邦学习系统中基于样本交换的标签推断攻击方法，包括以下操作步骤：构建纵向联邦学习模型，对纵向联邦学习模型进行训练；将纵向联邦学习模型的训练阶段依次划分为正常收敛阶段和标签推断攻击阶段；在正常收敛阶段，各个参与者按照纵向联邦学习原理进行训练；在标签推断攻击阶段，将恶意攻击方中没有标签的训练样本定义为目标攻击样本，并将目标攻击样本替换为标签已知的训练样本，以得到该目标攻击样本在各次迭代训练中的异常梯度；将异常梯度二阶范数取最小值时对应的样本的标签作为该目标攻击样本的标签；本发明专利技术能在不破坏联邦训练任务并不被其他参与方检测的前提下，对训练数据的标签进行推断

全部详细技术资料下载

【技术实现步骤摘要】
纵向联邦学习系统中基于样本交换的标签推断攻击方法

[0001]本专利技术涉及联邦学习
，具体是纵向联邦学习系统中基于样本交换的标签推断攻击方法
。

技术介绍

[0002]联邦学习能够实现在用户隐私数据不出域的前提下，通过交换模型参数或者参数更新，实现多个参与方联合训练机器学习模型
。
根据数据分布的不同，联邦学习可以被分为横向联邦学习和纵向联邦学习
。
[0003]联邦学习提供了数据使用的安全性保证，能够规避数据安全监管风险，当下的联邦学习在工程实现上，普遍对安全性给予更多的关注，为了保护用户数据安全，使用加密算法或者多方安全计算秘密共享等方式，实现数据的隐私计算
。
[0004]但是，现有技术对大数据量进行加解密涉及大量的计算操作，或者采用秘密共享又会使得数据通信量倍数扩大，将导致联邦学习算法的运行速度较慢，算法性能较低
。
现有的联邦学习模型与明文数据集中式的模型训练速度相比，相差数倍甚至数十倍，并且随着数据量的扩大，性能差距愈专利技术显
。
而现实业务中，企业与企业之间，用户与企业服务之间都非常强调效率，如果性能损失很大，一个任务执行效率非常慢，会影响联邦学习在实际业务中落地，用户也无法接受企业所提供的服务，造成业务受损，用户流失等负面结果，进而对企业的正常发展产生不利影响
。

技术实现思路

[0005]针对现有安全隐私领域存在的技术问题，本专利技术提供了纵向联邦学习系统中基于样本交换的标签推断...

【技术保护点】

【技术特征摘要】
1.
纵向联邦学习系统中基于样本交换的标签推断攻击方法，其特征在于，包括以下操作步骤：
S1、
基于纵向联邦学习原理，构建纵向联邦学习模型，对纵向联邦学习模型进行训练；并将纵向联邦学习模型中训练样本均具有标签的参与者定义为主动方，剩余的参与者定义为被动方；任一个被动方或者多个被动方联合起来作为恶意攻击方，恶意攻击方在每个类别的训练样本集中均拥有一个标签已知的训练样本；
S2、
将纵向联邦学习模型的训练阶段依次划分为正常收敛阶段和标签推断攻击阶段；在正常收敛阶段，各个参与者按照纵向联邦学习原理进行训练；在标签推断攻击阶段，将恶意攻击方中没有标签的训练样本定义为目标攻击样本，并将目标攻击样本替换为标签已知的训练样本，接着对样本替换完成的恶意攻击方按照纵向联邦学习原理进行训练，以得到该目标攻击样本在各次迭代训练中的异常梯度；
S3、
计算目标攻击样本各个异常梯度的二阶范数，并选择其中二阶范数最小时对应的标签已知的样本的标签作为该目标攻击样本的标签
。2.
根据权利要求1所述的纵向联邦学习系统中基于样本交换的标签推断攻击方法，其特征在于，正常收敛阶段的具体过程如下：
S2A1、
在开始训练时，纵向联邦学习模型按照纵向联邦学习原理进行正常的迭代训练，在该迭代训练过程中，主动方回传给恶意攻击方的梯度集合为，其中
G
表示梯度集合的名称，
t
表示迭代的轮数，
n
表示训练样本的个数；
S2A2、
计算梯度集合中各个梯度向量的二阶范数，并对计算出的二阶范数进行曲线拟合，以得到拟合曲线；
S2A3、
计算拟合曲线的斜率，若拟合曲线的斜率小于指定斜率阈值
τ
且各个梯度向量的二阶范数均小于范数阈值
ε
时，正常收敛阶段停止迭代训练，接下来进入标签推断攻击阶段进行迭代训练；反之，则继续进行正常收敛阶段的迭代训练，直到满足正常收敛阶段停止迭代训练的条件
。3.
根据权利要求2所述的纵向联邦学习系统中基于样本交换的标签推断攻击方法，其特征在于，假设正常收敛阶段在第
t
轮迭代训练时停止，则在第
t+1
轮迭代训练时进入标签推断攻击阶段；标签推断攻击阶段的具体过程如下：
S2B1、
设定恶意攻击方在每个类别的训练样本集中均拥有一个标签已知的训练样本，并构成集合
D
p
，
D
p
={x1,x2,
…
,x
C
}
，其中
x1表示第一种类别标签对应的训练样本，
x2表示第二种类别标签对应的训练样本，
x
C
表示第
C
种类别标签对应的训练样本，即训练样本的标签种类一共有
C
种；
S2B2、
在第
t+1
轮迭代训练中，对于目标攻击样本
x
i
，在集合
D
p
中选择已知标签的训练样本
x
c
，恶意攻击方将自己训练样本集中的目标攻击样本
x
i
替换为已知标签的训练样本
x
c
，以构成新的训练样本集；
S2B3、
新的训练样...

【专利技术属性】
技术研发人员：宋金珂，程浩然，
申请(专利权)人：数据空间研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人