一种基于差分隐私的图像数据生成方法技术

技术编号:30411721 阅读:19 留言:0更新日期:2021-10-20 11:45
本发明专利技术属于保障机器学习安全的技术领域,具体是一种基于差分隐私的图像数据生成方法。S1~通过层次聚类方法,用卷积神经网络的提取数据的特征,将每一个样本点都视为一个单独的类别,之后依次计算样本点之间的相似度,将相似度接近的样本聚合成一类,不断地进行簇的合并直到最终得到将图像划分成多个聚类的要求;S2~使用基于差分隐私的生成对抗网络训练得到的每一个聚类;S3~使用R

【技术实现步骤摘要】
一种基于差分隐私的图像数据生成方法


[0001]本专利技术属于保障机器学习安全的
,具体是一种基于差分隐私的图像数据生成方法。

技术介绍

[0002]目前运用差分隐私来保障机器学习主要有三大类,分别是数据集在进入机器学习模型训练之前运用差分隐私进行数据预处理,差分隐私保障数据集在机器学习过程中的安全和差分隐私保障数据集在机器学习训练之后的安全。虽然后两种方法能一定程度上抵御第三方的攻击,但是在某一些场合下机器学习模型本身就是一个不被信任的个体。如果我们不做任何预处理,直接将整个数据输送到机器模型中,那么机器学习模型就可能获取到数据集中的一些隐私数据,从而造成用户的隐私泄露。这对数据所有者来说并不是一个特别友好的事情,而通过差分隐私进行数据预处理则可以很好地避免隐私数据被机器学习模型给窃取。由D. Su等人提出差分隐私k

means算法(D. Su, J. Cao, N. Li, E. Bertino, and H. Jin. Differentially private k

means clustering. In ACM CODASPY, 2016.),他们把数据集分成了k个聚类,再进行特征剪裁和加入噪声以此来保障隐私。但是这种只能运用于低维特征的数据集并且在添加噪声的过程中依赖于数据的L2范式。由Martin Arjovsky等人提出的Wasserstein GAN(WGAN)(Martin Arjovsky,SoumithChintala, and L
´<br/>eon Bottou1.Wasserstein GAN, 2017),通过删除判别器最后一层的sigmoid函数,不再对生成器和判别器取损失函数以及每次更新判别器的参数之后把他们的绝对值截断到不超过一个固定的常数。但是整个过程中机器模型没有执行安全措施,在生成图像的过程中也就没有足够的隐私保障。由M. Abadi等人提出的MomentAccount的(MA)(M. Abadi, A. Chu, I. Goodfellow, H. B. McMahan, I. Mironov,K. Talwar, and L. Zhang. Deep learning with differential privacy. In ACM CCS, 2016)通过追踪每个时刻的尾部边界来计算隐私损失,可以及时有效的避免泄漏的隐私超过隐私预算,但是MA在复杂问题追踪隐私损失时并没有表现得那么优异。

技术实现思路

[0003]本专利技术为了提高在生成数据过程中的隐私性以及合成后的数据在机器学习中的可用性,提供一种基于差分隐私的图像数据生成方法。
[0004]本专利技术采取以下技术方案:一种基于差分隐私的图像数据生成方法,包括以下步骤。
[0005]S1~通过层次聚类方法,用卷积神经网络的提取数据的特征,将每一个样本点都视为一个单独的类别,之后依次计算样本点之间的相似度,将相似度接近的样本聚合成一类,不断地进行簇的合并直到最终得到将图像划分成多个聚类的要求,用卷积神经网络的提取数据的特征,卷积核本身是多个不同的滤波器,它可以网络随机初始化之后再通过梯度下降算法来进行更新,根据指定的标签来不断修正卷积核的参数。卷积核与图像进行点
乘,能提取到图像的特征,将每一个样本点都视为一个单独的类别,之后依次计算样本点之间的相似度,相似度矩阵计算公式为:,其中,a和Ks,是预先设定的参数,表示的Ks个最近的邻居。将这些与相邻的聚类按照相似度从大到小进行排序,与相似度最大的一个会和融合成一个新的聚类。根据它们的时间状态,我们会给他们的标签y上打上一个时间戳t。我们训练卷积神经网络是在一个递归型框架中,这就可以使用上一轮的聚类标签结合在一起来预测当前的聚类标签, 不断地执行聚类,直到我们获得所需的聚类数量。
[0006]S2~使用基于差分隐私的生成对抗网络训练得到的每一个聚类,首先我们会初始化判别器参数和生成器参数。然后我们通过随机噪声产生一串随机数,生成器根据这一串随机数生成一组新的数据,并希望以此“欺骗”判别器。在训练判别器时,我们会固定生成器的参数,我们从真实数据中抽取样本和从上一轮生成器所生成的样本进行拼接成一个新的数据,代表均匀分布;接着我们在判别器中计算梯度,进行梯度裁剪,λ表示梯度惩罚项的系数,C表示梯度剪裁的边界;为了保证数据在深度学习模型中的隐私性,我们在梯度加入差分隐私中的高斯噪声,M表示随机算法,d表示一个小的数据集,σ表示噪声尺度,I是超参数;用RDP Account来更新这一次的隐私会计;更新判别参数,表示Adam超参数,m表示一个训练批量的大小。在循环更新k次的判别器参数后,我们会传递一个向量给生成器,再次随机生成一组向量继续训练生成器,更新生成器参数 。
[0007]S3~使用R
´
enyi Differential Privacy Accountant追踪生成对抗网络每次迭代中的隐私损失,表示当前的隐私预算,和α表示概率,和表示一个小批量数据集,表示一个完整的数据集,表示选取函数;差分隐私的强组合性可以为我们保证每一次的迭代的隐私损失都是可叠加的,只要最后的隐私损失之和不超过我们开始设定好的。
[0008]S4~每一次随机地抽取一个聚类进行数据生成,直到所有的聚类都被抽取完则停止,最后将每个聚类通过人工神经网络得到的数据进行合成,就得到了满足一般深度学习模型的数据集。
[0009]与现有技术相比,本专利技术具有以下有益效果:1. 本专利技术引入了层次聚类方法,通过表征学习提高了对图像特征提取的精确度从而使数据集得到更好地划分。层次聚类是一种应对图像处理特别有效的手段,它是一种以过聚类开始的聚类方式,即使卷积神经网络一开始没有学习到好的表征,他仍然是可依靠;随着更好的表征不断地被学习到,这种过聚类也就会慢慢地消失。并且层次聚类可以处理大规模的图像数据集,从而可以保证聚类后的每一个聚类都有充足的样本,有着足够的样本生成对抗网络就可以生成更加准确的数据。
[0010]2. 本专利技术是把原始数据划分成多个聚类,每个聚类包含的都是相似的样本,相较于直接把整个数据集当成人工神经网络的输入数据,每个聚类单独训练可以生成更加准确的样本。如果不划分多个聚类而直接训练一个完整的数据,人工神经网络需要训练更多轮的次数,同时在训练过程中也需要加入更大的噪声来保证隐私,但是这显然会降低生成数据的准确度,我们把原始数据划分成多个聚类,单独训练每个聚类不仅可以减少训练次数,并且在保证有着相同的隐私安全的前提下,梯度中所加入的噪声尺度也可以大幅度减小,这可以显著提升数据生成的准确度。
[0011]3.本专利技术通过引入R
´
enyi Differential PrivacyAccountant追踪隐私损失,这会比MomentAccount可以更准确地计算隐私损失,更紧密地保障了隐私损失不会超过隐私预算,提高了数据的可用性。
附图说明
[0012]图1为本专利技术的卷本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于差分隐私的图像数据生成方法,其特征在于:包括以下步骤,S1~通过层次聚类方法,用卷积神经网络的提取数据的特征,将每一个样本点都视为一个单独的类别,之后依次计算样本点之间的相似度,将相似度接近的样本聚合成一类,不断地进行簇的合并直到最终得到将图像划分成多个聚类的要求;S2~使用基于差分隐私的生成对抗网络训练得到的每一个聚类,首先初始化判别器参数θd和生成器参数θg;然后通过随机噪声产生一串随机数,生成器根据这一串随机数生成一组新的数据;在训练判别器时,固定生成器的参数,从真实数据中抽取样本和从上一轮生成器所生成的样本进行拼接成一个新的数据,代表均匀分布;在判别器迭代中的梯度中加入高斯噪声保障数据安全性,判别器在经过多次循环训练之后,返回给生成器一组向量,生成器利用这一组向量调整自己的参数再次生成数据,如此多次循环,直到产生所需求的数据;S3~使用R
´
enyi Differential Privacy Accountant追踪生成对抗网络每次迭代中的隐私损失,表示当前的隐私预算,和α表示概率,和表示一个小批量数据集,表示一个完整的数据集,表示选取函数;S4~每一次随机地抽取一个聚类进行数据生成,直到所有的聚类都被抽取完则停止,最后将每个聚类通过人工神经网络得到的数据进行合成,就得到了满足一般深度学习模型的数据集。2.根据权利要求1所述的基于差分...

【专利技术属性】
技术研发人员:王庆生董于杰高志煕杨顺陈永乐邱鹏飞安俊杰范军俊王庆伟张云仙
申请(专利权)人:山西清众科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1