基于抽样泛化路径的K‑Anonymity数据处理方法技术

技术编号：13977902 阅读：143 留言：0更新日期：2016-11-11 21:47

本发明专利技术公开了一种基于抽样泛化路径的K‑Anonymity数据处理方法，涉及数据处理技术领域。本发明专利技术提出了一种基于抽样路径的局域繁花算法——SPOLG算法，该算法基于泛化节点格寻找信息损失较小的泛化路径，为减少寻径时间，引入等概率抽样的思想，选用等概率抽样中的系统抽样方法进行取样，利用样本代替数据集在泛化格上寻找目标泛化路径，最后在该路径上对数据集进行泛化。此外，使用局域泛化技术能够降低信息损失量，提高发布数据集的可用性。实验结果证明，本方法匿名化的数据集信息损失度低，数据可用性高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理
，具体是一种基于抽样泛化路径的K-Anonymity数据处理方法。
技术介绍
随着安全意识的提高，人们越来越关注个人信息的隐私保护，而对于各种机构发布数据时如何进行隐私保护是近年来社会的热点话题。k-匿名是一种简单而有效的隐私保护模型，它通过对一些属性的匿名化处理，使得发布的数据集中每条记录至少具有k-1个与其不可区分的个体，使攻击者不能通过发布的数据攻击具体个体。使用k-匿名技术不可避免会造成发布数据的信息损失，因此，如何提高k-匿名化后数据集的可用性一直以来都是k-匿名隐私保护的研究重点；实施k-匿名要考虑两个方面：(1)确保数据发布过程中隐私不泄露；(2)发布的匿名数据具有实用性。基于以上两个要求，众多学者提出了许多匿名算法。但大体上可以分为全域泛化算法和局域泛化算法。全域泛化算法主要包括Incognito算法、Datafly算法、Samaratis算法、Classfly及Classfly等；局域泛化算法主要包括Top-Down Specialization、Mondrian、基于遗传算法的方法、基于聚类的匿名算法等。全域泛化算法要求所有属性泛化到同一级别，往往会产生较大的信息损失。相比之下，局域泛化算法不仅可以实现k-匿名而且一定程度上降低了匿名表的信息损失，使得泛化后的数据集更具有可用性。然而，在局域泛化中想要寻找最优k-匿名已经被证明是NP难问题，如何优化k-匿名算法、尽可能提高数据的可用性成为亟待解决的问题。
技术实现思路
本专利技术提供一种，基于抽样泛化路径的K-Anonymity数据处理方法，极大地提高了算法效...

【技术保护点】
一种基于抽样泛化路径的K‑Anonymity数据处理方法，其特征在于：通过算法SPOLG(T,QI,k,α)匿名化数据表，T表示待抽样数据集；α表示抽样率，QI为准标识符集，k为匿名隐私约束条件常数；具体步骤如下：1)利用函数sample(T,α)抽取样本，另T'＝sample(T,α)，T'表示抽样数据集，具体过程如下：11)将数据集中的N条元组进行编号；12)将编号按间隔进行分段，其中L∈N；13)在第一段随机选取编号l,其中l∈N,l≤L；14)num＝T×α，并对num取整；15)按照以下规则抽取样本T'：l，l+L,l+2L,l+3L...,l+num×L；16)返回T'；2)利用函数path(QI,T')寻找抽样泛化路径，另P＝path(QI,T')，P表示所得抽样路径，具体过程如下：21)通过QI形成泛化格G；22)将泛化格G的第0层节点n0作为路径P的起点P0；23)通过泛化格找到n1直接泛化的节点，计算这些节点泛化T'所得到的信息损失量，选出泛化数据集T'信息损失量最小的节点n2作为路径P的第二个节点P1；24)重复步骤22)直至到达泛化格G的顶点ni作为路径的终点P...

【技术特征摘要】
1.一种基于抽样泛化路径的K-Anonymity数据处理方法，其特征在于：通过算法SPOLG(T,QI,k,α)匿名化数据表，T表示待抽样数据集；α表示抽样率，QI为准标识符集，k为匿名隐私约束条件常数；具体步骤如下：1)利用函数sample(T,α)抽取样本，另T'＝sample(T,α)，T'表示抽样数据集，具体过程如下：11)将数据集中的N条元组进行编号；12)将编号按间隔进行分段，其中L∈N；13)在第一段随机选取编号l,其中l∈N,l≤L；14)num＝T×α，并对num取整；15)按照以下规则抽取样本T'：l，l+L,l+2L,l+3L...,l+num×L；16)返回T'；2)利用函数path(QI...

【专利技术属性】
技术研发人员：吴响，俞啸，袁洋，臧昊，
申请(专利权)人：徐州医科大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人