基于多维敏感数据发布的多部图隐私保护方法技术

技术编号:15330314 阅读:52 留言:0更新日期:2017-05-16 13:48
本发明专利技术公开一种基于多维敏感数据发布的多部图隐私保护方法,主要包括将原始表数据构建成多部图形式和基于多部图的隐私保护策略两大部分。将ID作为一类节点,其对应的准标识符以标签形式来体现,每一个敏感属性采用一种类型的节点来表示,某个用户具有某种敏感属性则两个节点之间存在一条边来体现关联。对于采用聚类方法进行分组,同组的用户视为一个超级节点,与敏感属性之间的关联程度以带权重的边来体现,边的权重即是该组用户中具有该敏感属性值的概率,属性与属性之间的关联程度同样是以带权重的边来体现,以达到既保留了属性之间的关联性又有效的保护了多敏感属性及其关联的隐私安全。

Privacy preserving method for Multipartite Graphs Based on multidimensional sensitive data publishing

The invention discloses a multi map privacy protection method based on multidimensional sensitive data publishing, which mainly comprises two parts, namely, building the original table data into a multipartite graph form and a privacy protection strategy based on a multipartite map. ID as a node, the corresponding quasi identifiers to label form, each sensitive attribute is represented by a node type, a user has a sensitive attribute there is a side to reflect the correlation between two nodes. For grouping by clustering method, the same group of users as a super node, the correlation degree between attributes and sensitive to the weighted edge to reflect the weights of the edges is the probability of the sensitive attribute values with the group of users, the degree of correlation between the attribute and the attribute of the same kind is represented by the band the weight of the edge, so as to keep the relationship between attributes and the effective protection of the sensitive attributes and their associated privacy.

【技术实现步骤摘要】
基于多维敏感数据发布的多部图隐私保护方法
本专利技术涉及隐私保护
,具体涉及一种基于多维敏感数据发布的多部图隐私保护方法。
技术介绍
当今人类社会已步入信息时代,信息产业也呈现出高速发展的态势。互联网不断深入到政治、经济、文化、医疗及教育等各个领域并产生了大量的数据,而这些数据共享和发布可被用于进行海量数据分析。随着数据挖掘技术的日益发展及广泛应用,这些数据发布在科学研究、群体行为趋势分析,疾病预测以及经营决策和舆情监控等方面,给人们带来了极大的便利,具有重大的社会和经济价值。数据发布技术作为数据共享的一种有效手段,为数据的交换和共享提供了强有力的支持。然而,这些数据往往与个人信息相关,随着信息时代的发展和近年来隐私信息泄露等事件的不断发生引起人们的广泛关注,人们对隐私信息的概念悄然发生变化,对隐私信息的保护也越来越重视。因此,数据发布中的隐私保护问题一经提出就受到了社会和公众的日益重视,在保证信息可用性的同时,如何保护用户的隐私成为了数据分析研究领域的主要瓶颈问题。在现有的隐私保护研究中,大多数的研究主要针对单个敏感属性的数据集。然而在大多重要的实际应用中,往往需要涉及多维敏感属性,并需要对属性与属性之间存在的关联进行分析研究,相比单个敏感属性的数据而言,多维敏感属性数据的隐私保护更具挑战性,主要体现在以下几个方面:(1)数据集中需要保护的隐私信息涉及多维敏感属性,常用的泛化匿名技术会导致过多的信息损失;(2)多维敏感属性数据集中允许出现同一ID存在多条记录的情况,且大多属性域的值的个数并不多,用表数据形式来表示存在大量的数据冗余;(3)敏感属性与敏感属性、准标识符与敏感属性之间均存在关联,其关联信息会增强攻击者的背景知识,从而导致隐私信息泄露,因此其关联信息同样需要进行隐私保护。然而,现有面向具有多维敏感属性数据发布的隐私保护技术主要还是基于单个敏感属性数据发布方法进行简单扩展,主要采用准标识符的泛化、属性的垂直或水平剖分等简单的匿名处理方法,但匿名处理后的数据由于切断了准标识符与敏感信息之间的关联,因而在实际应用中,会导致处理后数据的由于信息损失量过大,大大降低了数据的利用价值。最近有相关研究提出一种对敏感属性进行泛化的匿名处理方法以减少信息损失,但其隐私模型对于敏感属性之间的多维关联性缺乏描述,攻击者可以利用这点进行攻击。比如,某医生只主治某一类疾病、某些疾病具有地域特色、某种婚姻状态的人更容易犯某些疾病等。
技术实现思路
本专利技术所要解决的技术问题是针对多维敏感数据的发布,现有隐私保护方法存在信息损失过多以及多敏感属性之间存在相关性以导致隐私泄露的问题,提供一种基于多维敏感数据发布的多部图隐私保护方法。为解决上述问题,本专利技术是通过以下技术方案实现的:基于多维敏感数据发布的多部图隐私保护方法,包括如下步骤:步骤1、构建多部图;即先将ID和各维敏感属性用不同类型的节点集来表示;再去掉ID,并以准标识符为ID节点的标签;后根据某个ID的记录所包含的敏感属性值,将不同节点集之间的节点用边连接起来,获得多部图;步骤2、在构建的多部图中,根据各条关系存在的概率作为该相应边的初始概率;步骤3、根据准标识符聚类分组实现匿名;即先根据多维准标识符的综合相似度;再采用基于k-匿名模型将将相似度最高的k个节点聚类为同一组或采用基于ρ-不确定性模型将高于设定阈值的节点聚类为同一组;后将该组节点视为一个整体即超级节点,并修改与该超级节点中所有节点的相关边的概率。步骤1中,准标识符为除了ID之外的非敏感属性。步骤3中,节点v1与v2之间综合相似度Sim(v1,v2)的计算公式如下:其中,xi表示第i个属性的优先因子;li(v1)表示v1节点的第i个属性的值;li(v2)表示v2节点的第i个属性的值;n表示准标识符中属性的维数;表示布尔函数,当(li(v1)≠li(v2)时,否则步骤3中,根据超级节点修改边的概率的计算公式为:其中,D为在同一个超级节点中包含某敏感属性的节点集,vj为节点,|G(vj)|为节点vj所在的超级节点中包含的节点数目,P(e)即为边e存在的概率。所述基于多维敏感数据发布的多部图隐私保护方法还进一步包括:步骤4、根据属性之间的关联性修改相关边的概率。步骤4中,根据属性M、S和D之间的关联性修改相关边的概率的计算公式为:P(M|S)=P(M,S)/P(S)P(D|M,S)=P(D,M|S)/P(M|S)其中,P(M|S)表示在S发生的条件下M发生的概率,P(M,S)表示M,S同时发生的概率,P(S)表示S发生的概率;P(D|M,S)表示在M,S同时发生的条件下D发生的概率;P(D,M|S)表示在S发生的条件下D,M同时发生的概率。与现有技术相比,本专利技术具有如下特点:1、采用多部图的方式来表示多维敏感属性数据:将ID作为一类节点(去掉ID属性值实现简单匿名),其对应的准标识符以标签形式来体现,每一个敏感属性采用一种类型的节点来表示,某个用户具有某种敏感属性则两个节点之间存在一条边来体现关联。2、采用概率图模型进行隐私保护:对于采用聚类方法进行分组,同组的用户视为一个超级节点,与敏感属性之间的关联程度以带权重的边来体现,边的权重即是该组用户中具有该敏感属性值的概率,属性与属性之间的关联程度同样是以带权重的边来体现,以达到既保留了属性之间的关联性又有效的保护了多敏感属性及其关联的隐私安全。附图说明图1为原始表数据。图2为匿名数据发布图。图3为构建多部图的示意图。图4为添加边的概率的示意图。图5为匿名分组的示意图。图6为修改条件概率作为边的权重的示意图。具体实施方式本专利技术面向多敏感属性数据的发布提供了一种基于的多部图隐私保护方法,主要包括将原始表数据构建成多部图形式和基于多部图的隐私保护策略两大部分。1、将原始表数据构建成多部图形式。如图1所示,原始数据集中Name列为ID,Age、Zip和Sex为非敏感属性,Salary,MaritalStatus,Disease为敏感属性。构建多部图时,采用无向图G(Vm,E,W)抽象表示多敏感属性数据集,Vm是顶点的有限集合(其中V1是带准标识符标签的用户节点集,Vi表示数据集中的第i-1个敏感属性的节点集),E是V上的二元关系表示不同节点集之间的关系,即某个用户拥有某个敏感属性值;W表示边的权重,即该条关系存在的概率;每条边的权重范围为(0,1],若两个节点之间不存在边则表示他们之间没有任何关系。举例说明:带有标签为(21,21853,M)的结点与标签为(3k)的节点之间存在一条权重为0.5的边,则表示该节点有50%的概率其salary敏感属性值为3k。2、基于多部图的隐私保护策略。为保护隐私的同时又提高数据的实用性,本专利技术对准标识符不作任何泛化,而是对准标识符进行聚类分组成超级节点,再将该组与某个敏感属性的节点以带权重的边相连,表示该组拥有某个敏感属性值的概率,即攻击者能将某个个体与敏感属性值关联起来的成功概率。类似的,同一条记录的不同敏感属性之间的关联也用带权重的边来表示,使得匿名发布图能在保证隐私安全的同时较好的保留属性之间的关联性。如图图2所示,为匿名数据发布图。具体来说,一种基于多维敏感数据发布的多部图隐私保护方法,具体实现过程如下:步骤一:构建本文档来自技高网
...
基于多维敏感数据发布的多部图隐私保护方法

【技术保护点】
基于多维敏感数据发布的多部图隐私保护方法,其特征是,包括如下步骤:步骤1、构建多部图;即先将ID和各维敏感属性用不同类型的节点集来表示;再去掉ID,并以准标识符为ID节点的标签;后根据某个ID的记录所包含的敏感属性值,将不同节点集之间的节点用边连接起来,获得多部图;步骤2、在构建的多部图中,根据各条关系存在的概率作为该相应边的初始概率;步骤3、根据准标识符聚类分组实现匿名;即先根据多维准标识符的综合相似度;再采用基于k‑匿名模型将将相似度最高的k个节点聚类为同一组或采用基于ρ‑不确定性模型将高于设定阈值的节点聚类为同一组;后将该组节点视为一个整体即超级节点,并修改与该超级节点中所有节点的相关边的概率。

【技术特征摘要】
1.基于多维敏感数据发布的多部图隐私保护方法,其特征是,包括如下步骤:步骤1、构建多部图;即先将ID和各维敏感属性用不同类型的节点集来表示;再去掉ID,并以准标识符为ID节点的标签;后根据某个ID的记录所包含的敏感属性值,将不同节点集之间的节点用边连接起来,获得多部图;步骤2、在构建的多部图中,根据各条关系存在的概率作为该相应边的初始概率;步骤3、根据准标识符聚类分组实现匿名;即先根据多维准标识符的综合相似度;再采用基于k-匿名模型将将相似度最高的k个节点聚类为同一组或采用基于ρ-不确定性模型将高于设定阈值的节点聚类为同一组;后将该组节点视为一个整体即超级节点,并修改与该超级节点中所有节点的相关边的概率。2.根据权利要求1所述基于多维敏感数据发布的多部图隐私保护方法,其特征是,步骤1中,准标识符为除了ID之外的非敏感属性。3.根据权利要求1所述基于多维敏感数据发布的多部图隐私保护方法,其特征是,步骤3中,节点v1与v2之间综合相似度Sim(v1,v2)的计算公式如下:其中,xi表示第i个属性的优先因子;li(v1)表示节点v1的第i个属性的值;li(v2)表示节点v2的第i个属性的值;n表示准标识符中...

【专利技术属性】
技术研发人员:王利娥李先贤郭亚萌
申请(专利权)人:广西师范大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1