System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种保护用户隐私的样本信息提取方法技术_技高网
当前位置: 首页 > 专利查询>南京大学专利>正文

一种保护用户隐私的样本信息提取方法技术

技术编号:41157626 阅读:19 留言:0更新日期:2024-04-30 18:21
本发明专利技术公开一种保护用户隐私的样本信息提取方法,通过构造以MMD统计量为优化目标的优化问题,选择空间内最能代表原样本信息且分布尽可能相同的点集,并隐藏原有的真实用户的数据集,并用提取信息后的新数据集进行后续的训练和预测。注意到提取后的样本只要在样本空间中即可,并不一定是原样本中真实的点,因此可以有效地保护用户的隐私。因为采用MMD统计量,尽可能保证了新样本与原样本在分布上是相同的,因此在后续的训练与预测中仍能保持较好的效果。

【技术实现步骤摘要】

本专利技术涉及一种保护用户隐私的样本信息提取方法,属于训练数据集的隐私保护。


技术介绍

1、随着机器学习技术的不断发展,各类机器学习技术的应用场景更加广泛。但机器越是深入到我们生活的方方面面,我们对于机器学习中数据泄露的担忧就越是剧烈。上到我们在医院的诊疗病历,下到我们在淘宝商家的浏览与购买记录。一个显而易见的结论是:如果机器学习模型拥有更多的用户数据,它们会返回更加精准的结果。但另一方面,这也可能导致用户隐私的泄露。因此,在模型效果与隐私保护上有一定程度上的trade-off,但在保护每个用户隐私的前提下,尽可能地保留样本的信息、提高模型的效果是可能的。

2、目前,与机器学习相关的隐私保护设计许多领域以及具体方法:同态加密、多方安全计算等等,隐私保护的目标也可分为:对于训练数据的保护、对模型结构及参数的保护等。当前针对训练数据的保护的方法主要可分为两种:一种是直接在训练数据中加入随机噪声后再输出到模型,另一种是在更新梯度时在梯度中加入随机噪声。第一种的弊端是攻击者可以通过多次取相同输入值并取输出值的平均的方式来减小噪声项。第二种的弊端是在训练轮数很多时会引入过多的随机噪声从而使得模型的效果下降。


技术实现思路

1、专利技术目的:过去的针对训练数据集的隐私保护措施往往是引入随机噪声,但随机噪声可通过多次取平均的方式被减小,从而削弱效果。另一方面,许多算法对模型的输入敏感,在输入层微小的扰动可能会导致样本的分布产生变化,并影响模型的效果。因此,本专利技术构建了一个保护用户隐私的样本信息提取方法,可以在不提供原有样本的真实数据的前提下,尽可能地保留原样本的分布信息(既可以只有特征也可以包含标签)。数据提供方根据真实数据集构造新的分布相同的人造数据集提供给模型方进行训练预测,可尽可能地保证模型的训练效果。

2、技术方案:一种保护用户隐私的样本信息提取方法,主要针对训练数据进行保护,即降低每个用户真实信息被泄露的风险。构建的新样本中不一定包含原来的真实样本,且分布尽可能保持不变。具体包括如下步骤:

3、步骤100,数据提供方获得真实样本数据tr,样本个数为n。进行数据预处理。

4、步骤101,数据提供方设定希望的提取后的样本个数n′。(默认情况下n′=0.2n)。

5、步骤102,数据提供方将原样本随机划分为数量相等的两个子样本,并通过梯度下降得出使得两个子样本的j统计量值最大的各向异性高斯核∑d。

6、步骤103,数据提供方对原有的样本的特征进行k-means聚类(或称k-均值聚类,具体的k可通过aic、bic或类内相似度等准则选取)。

7、步骤104,数据提供方将原样本点按照最近的聚类中心建立索引,统计各聚类内的原样本个数n1,n2,…nk。

8、步骤105,数据提供方对每个聚类i(1≤i≤k),从其类内中的点不重复地选择个点作为初始的新样本点。由此得到t=0时刻的新样本s0。

9、步骤106,数据提供方在t=i时,对样本si和tr计算mmd(maximummeandiscrepancy,最大均值差异)统计量,核函数采用步骤102中的∑d。对计算出的mmd统计量计算梯度,更新样本si中每个样本的位置。

10、梯度更新的过程中,为保证更新的速度,每次可随机选取部分维度进行更新,并在该轮固定其他维度保持不变。

11、步骤107,数据提供方重复步骤106直至mmd统计量收敛或步数大于给定步数steps。最终得到的提取后的特征样本记为s。

12、步骤108,若原样本tr为无标签样本,则s为最终的提取后的样本;若原样本tr为有标签样本,则s作为最终样本的特征。对于s中的每个点,寻找原样本tr中的m个近邻并依照∑d计算距离,对距各个点的距离进行softmax(指数函数归一化)并赋权重。最后通过这m个近邻标签进行加权投票,赋予权重最大的标签(在回归问题下则为加权均值)。由此可得到带有标签的样本。

13、所述无标签样本在获得近邻标签后,若为分类问题,则对m个近邻中所有类别的权重和进行统计,取权重和最大的那个类别作为无标签样本的类别;若为回归问题,则用近邻的权重乘以近邻的属性值并求和即可。近邻个数m一般取3到10。

14、步骤109,数据提供方得到最终提取后的样本s并将s提交给不完全可信的模型训练方进行后续的训练以及预测。

15、所述步骤106的mmd统计量的计算方法为:先计算tr中的样本到tr内的另一个样本的平均距离,再计算si中的样本到si中另一个样本的平均距离,最后再计算tr中的样本到si中的样本的距离。最后用上述两个类内距离相加并减去两倍的类间距离,即可得mmd的平方。

16、因为我们的目标是最小化mmd,因此无需开方。

17、

18、所述j统计量:在计算完mmd统计量后,要得到j统计量,还需除以一个“标准差”σ项。σ项为:

19、

20、其中hij:=k(xi,xj)+k(yi,yj)-k(xi,yjj)-k(yi,xj),k为核函数,n为样本个数,λ为正则化项。

21、在步骤105中进行新样本点的选取前会进行步骤103中的聚类,并对各聚类内点的个数按比例分配初始点,迭代轮数减少,算法运行效率提高。

22、步骤104中建立索引的方法为:根据步骤102中计算出来的高斯核来计算距离,选取最近的聚类中心的下标作为其索引。

23、步骤107中,最终得到的样本s可认为是分布上趋近于原样本tr的特征的(当n和k都趋近于无穷大时),即

24、步骤108中,最终得到标签使用的算法是加权最近邻算法,具有一致性。当n趋向无穷时,可认为结合步骤107中可得:当n趋向无穷时,即提取方法可以保持提取后的样本在分布上一致。

25、步骤109中,在得到提取完的新样本后,新样本包含了原样本中的分布信息,且相比原样本,降低了样本数量。且新样本中不含原来的真实样本,保护了训练数据集。

26、一种计算机可读存储介质,该计算机可读存储介质存储有执行上所述的保护用户隐私的样本信息提取方法的计算机程序。

27、一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的保护用户隐私的样本信息提取方法。

28、有益效果:数据提供方不必提供真实数据给模型训练方,从而保证了每个用户的隐私。方法提取的新数据集在分布上已尽可能趋近原数据集,因此模型的分布信息得以保留,有助于缓解通常隐私保护场景下机器学习模型效果大幅下降的问题。在数据提供方提供提取后的数据集后,无额外加密解密步骤,不会导致训练和预测速度的减慢。相反,样本数量在提取过后可以较原有的样本更少,从而带来更小的训练开销。

本文档来自技高网...

【技术保护点】

1.一种保护用户隐私的样本信息提取方法,其特征在于,针对训练数据进行保护,降低每个用户真实信息被泄露的风险;具体包括如下步骤:

2.根据权利要求1所述的保护用户隐私的样本信息提取方法,其特征在于,梯度更新的过程中,为保证更新的速度,每次可随机选取部分维度进行更新,并在该轮固定其他维度保持不变。

3.根据权利要求1所述的保护用户隐私的样本信息提取方法,其特征在于,所述无标签样本在获得近邻标签后,若为分类问题,则对m个近邻中所有类别的权重和进行统计,取权重和最大的那个类别作为无标签样本的类别;若为回归问题,则用近邻的权重乘以近邻的属性值并求和即可。

4.根据权利要求1所述的保护用户隐私的样本信息提取方法,其特征在于,所述步骤106中的MMD统计量的计算方法为:先计算TR中的样本到TR内的另一个样本的平均距离,再计算Si中的样本到Si中另一个样本的平均距离,最后再计算TR中的样本到Si中的样本的距离。最后用上述两个类内距离相加并减去两倍的类间距离,即可得MMD的平方;

5.根据权利要求1所述的保护用户隐私的样本信息提取方法,其特征在于,在步骤105中进行新样本点的选取前会进行步骤103中的聚类,并对各聚类内点的个数按比例分配初始点。

6.根据权利要求1所述的保护用户隐私的样本信息提取方法,其特征在于,所述步骤104中建立索引的方法为:根据步骤102中计算出来的高斯核来计算距离,选取最近的聚类中心的下标作为其索引。

7.根据权利要求1所述的保护用户隐私的样本信息提取方法,其特征在于,所述步骤107中,最终得到的样本S可认为是分布上趋近于原样本TR的特征的,即

8.根据权利要求1所述的保护用户隐私的样本信息提取方法,其特征在于,所述步骤109中,在得到提取完的新样本后,新样本包含了原样本中的分布信息,且相比原样本,降低了样本数量;且新样本中不含原来的真实样本,保护了训练数据集。

9.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-8中任一项所述的保护用户隐私的样本信息提取方法。

10.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-8中任一项所述的保护用户隐私的样本信息提取方法的计算机程序。

...

【技术特征摘要】

1.一种保护用户隐私的样本信息提取方法,其特征在于,针对训练数据进行保护,降低每个用户真实信息被泄露的风险;具体包括如下步骤:

2.根据权利要求1所述的保护用户隐私的样本信息提取方法,其特征在于,梯度更新的过程中,为保证更新的速度,每次可随机选取部分维度进行更新,并在该轮固定其他维度保持不变。

3.根据权利要求1所述的保护用户隐私的样本信息提取方法,其特征在于,所述无标签样本在获得近邻标签后,若为分类问题,则对m个近邻中所有类别的权重和进行统计,取权重和最大的那个类别作为无标签样本的类别;若为回归问题,则用近邻的权重乘以近邻的属性值并求和即可。

4.根据权利要求1所述的保护用户隐私的样本信息提取方法,其特征在于,所述步骤106中的mmd统计量的计算方法为:先计算tr中的样本到tr内的另一个样本的平均距离,再计算si中的样本到si中另一个样本的平均距离,最后再计算tr中的样本到si中的样本的距离。最后用上述两个类内距离相加并减去两倍的类间距离,即可得mmd的平方;

5.根据权利要求1所述的保护用户隐私的样本信息提取方法,其特征在于,在步骤105中进行新样本点的选取前会...

【专利技术属性】
技术研发人员:高尉倪杰周志华
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1