一种基于差分隐私的图像数据生成方法技术

技术编号：30411721 阅读：32 留言：0更新日期：2021-10-20 11:45

本发明专利技术属于保障机器学习安全的技术领域，具体是一种基于差分隐私的图像数据生成方法。S1～通过层次聚类方法，用卷积神经网络的提取数据的特征，将每一个样本点都视为一个单独的类别，之后依次计算样本点之间的相似度,将相似度接近的样本聚合成一类，不断地进行簇的合并直到最终得到将图像划分成多个聚类的要求；S2～使用基于差分隐私的生成对抗网络训练得到的每一个聚类；S3～使用R

全部详细技术资料下载

【技术实现步骤摘要】
一种基于差分隐私的图像数据生成方法

[0001]本专利技术属于保障机器学习安全的
，具体是一种基于差分隐私的图像数据生成方法。

技术介绍

[0002]目前运用差分隐私来保障机器学习主要有三大类，分别是数据集在进入机器学习模型训练之前运用差分隐私进行数据预处理，差分隐私保障数据集在机器学习过程中的安全和差分隐私保障数据集在机器学习训练之后的安全。虽然后两种方法能一定程度上抵御第三方的攻击，但是在某一些场合下机器学习模型本身就是一个不被信任的个体。如果我们不做任何预处理，直接将整个数据输送到机器模型中，那么机器学习模型就可能获取到数据集中的一些隐私数据，从而造成用户的隐私泄露。这对数据所有者来说并不是一个特别友好的事情，而通过差分隐私进行数据预处理则可以很好地避免隐私数据被机器学习模型给窃取。由D. Su等人提出差分隐私k
‑
means算法（D. Su, J. Cao, N. Li, E. Bertino, and H. Jin. Differentially private k
‑
means clustering. In ACM CODASPY, 2016.），他们把数据集分成了k个聚类，再进行特征剪裁和加入噪声以此来保障隐私。但是这种只能运用于低维特征的数据集并且在添加噪声的过程中依赖于数据的L2范式。由Martin Arjovsky等人提出的Wasserstein GAN(WGAN)（Martin Arjovsky,SoumithChintala, and L
´<...

【技术保护点】

【技术特征摘要】
1.一种基于差分隐私的图像数据生成方法，其特征在于：包括以下步骤，S1～通过层次聚类方法，用卷积神经网络的提取数据的特征，将每一个样本点都视为一个单独的类别，之后依次计算样本点之间的相似度,将相似度接近的样本聚合成一类，不断地进行簇的合并直到最终得到将图像划分成多个聚类的要求；S2～使用基于差分隐私的生成对抗网络训练得到的每一个聚类，首先初始化判别器参数θd和生成器参数θg；然后通过随机噪声产生一串随机数，生成器根据这一串随机数生成一组新的数据；在训练判别器时，固定生成器的参数，从真实数据中抽取样本和从上一轮生成器所生成的样本进行拼接成一个新的数据，代表均匀分布；在判别器迭代中的梯度中加入高斯噪声保障数据安全性，判别器在经过多次循环训练之后，返回给生成器一组向量，生成器利用这一组向量调整自己的参数再次生成数据，如此多次循环，直到产生所需求的数据；S3～使用R
´
enyi Differential Privacy Accountant追踪生成对抗网络每次迭代中的隐私损失，表示当前的隐私预算，和α表示概率，和表示一个小批量数据集，表示一个完整的数据集,表示选取函数；S4～每一次随机地抽取一个聚类进行数据生成，直到所有的聚类都被抽取完则停止，最后将每个聚类通过人工神经网络得到的数据进行合成，就得到了满足一般深度学习模型的数据集。2.根据权利要求1所述的基于差分...

【专利技术属性】
技术研发人员：王庆生，董于杰，高志煕，杨顺，陈永乐，邱鹏飞，安俊杰，范军俊，王庆伟，张云仙，
申请(专利权)人：山西清众科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人