一种数据周期性发布的隐私保护方法技术

技术编号:10497781 阅读:126 留言:0更新日期:2014-10-04 15:01
本发明专利技术涉及一种数据周期性发布的隐私保护方法。数据初次发布时,先扫描原始数据记录确定个体并基于身份进行重新编码,然后基于个体关联SA分组和保持个体关联的(k,l)匿名模型实现首次信息发布;在周期性后续发布时,先计算待发布数据和前次发布数据相同个体间的SA分组距离,再基于ε-分组不变性规则,利用局部重编码方法泛化元组进行信息发布。本发明专利技术充分考虑前后两次发布数据之间的个体关联性,保证了个体的隐私信息。

【技术实现步骤摘要】

本专利技术属于信息隐私保护发布安全领域,具体涉及。
技术介绍
大量医疗信息具有统计分析和病情研究的重要价值,为了满足这些隐私信息共享、科学研究等多方面的需要,必须对这些信息进行隐私保护发布处理。K-匿名是传统表数据领域的一类重要的隐私保护技术,但是这种技术仅适用于静态数据的发布,而且该技术也容易受到攻击。 医疗数据的发布通常具有周期性发布的特点,同时在待发布表中一个个体可能对应多条记录,在发布时应该从个体的角度去考虑其隐私的保护,并且考虑多次发布时发布数据之间的关联性。 医疗数据表属性分为三类:显式标识符(Identifier),指能清楚标识用户身份的属性,为了保护个人信息,常常在数据发布前将这些属性删除或加密;准标识符QI (Quasi Ident ifier),即同时存在于隐私表与外表中,可以利用链接来标识个体信息的一组属性称为准标识符属性;敏感属性SA(Sensitive Attribute),该类属性包含了个体的隐私信息。
技术实现思路
针对传统表数据领域隐私保护技术存在的问题,本专利技术提供,从个体的角度保证了的隐私信息的安全,抵制了表间的链接攻击,在保护隐私的同时最大程度地满足了数据的可用性。 为实现上述目的,本专利技术具体技术方案如下:,包括如下步骤: (I)预处理待发布表T,生成数据表T (QI, GID, ID, SA); (2)初始化发布表作汀+为空匿名表’结构与丁⑷^瓜’瓜^么)相同; (3)判断数据表T(QI,GID,ID,SA)是否为首次发布,如果是首次发布转步骤(4),否则转步骤(8); (4)设定安全保护参数k、I和ε ; (5)对表 T (QI,GID, ID, SA)进行泛化发布; (6)元组移回处理; (7)检查表T(QI,GID, ID, SA)记录是否已经全泛化,若未全泛化转步骤(5),否则转步骤(12); (8)计算T*(j_l)和T(j)中同一个体的SA分组距离; (9)根据SA分组距离将T(j)分成两组T’和T” ; (10)基于ε -分组不变性规则发布T (j); (11)判断T”是否已全泛化;如果完成转步骤(12),否则转步骤(5); (12)数据发布完成,表T*为最终隐私保护发布信息。 进一步地,上述步骤(1)中,预处理待发布表包括如下步骤: (1.1)根据医疗数据属性的分类,对待发布的数据表中属于同一个体的记录进行ID标注,表示为三类属性的表形式T (QI,ID, SA); (1.2)初始化每一个体为一个分组,添加分组标号GID,表示为T(QI,GID, ID, SA); (1.3)合并具有相同QI的分组; (1.4)删除显示标识符; 进一步地,上述步骤(5)中,泛化发布包括如下步骤: (5.1)采用自底向上的局部重编码方法对表T(QI,GID,ID, SA)中的QI属性进行泛化; (5.2)每泛化一次就会出现一些相同的QI分组,合并具有相同QI的分组,并重新标记GID ; (5.3)将满足个体关联的(k,I)-匿名约束的分组移除到匿名表T*中; 进一步地,上述步骤(5.3)中,个体关联(k,l)_匿名约束条件是发布表T*(QI,GID, ID, SA)必须满足表中的任何一个QI分组中至少包含k个不同的个体和I个距离大于一个设定值ε的个体关联SA分组。 进一步地,上述步骤(8)中,计算分组距离的方法包括如下步骤: (8.1)根据医疗常识确认两个敏感属性值vl和ν2之间的关联度,用RSA(vl,v2)表示,RSA e [O, I], RSA越接近I关联度越强,当vl = v2时,RSA = I ; [0031 ] (8.2)基于关联度计算SA分组距离,设G11sa和G12sa分别为两个体11和12的SA分组,两分组之间的敏感属性关联度可表示为!L(v,叫I w,.eGWvy SG\J,用Rsa (II,12)表示,则个体SA分组间的距离可表示为min(l-RSA(Il,12)),用DisSA(Il, 12)表示。 进一步地,上述步骤(10)中,ε-分组不变性规则的要求是出现在表T*(j_l)和T*(j)中的同一个体I’和I”表示,如果DisSA(I’,I’’)( ε,那么在发布个体I”时,表T*(j)中含有I”的QI分组与T*(j_l)中含有I’的QI分组必须具有相同的个体数,并且两个QI分组间对应的个体分组距离都必须小于等于ε。 本专利技术充分考虑了医疗数据中一个个体可能对应多条记录,且同一个体可能由于年龄等属性的变化而具有不同的QI属性的特点,在发布处理时利用个体关联(k,I)-匿名约束模型尽可能地考虑个体的隐私而非记录层次上的隐私,同时在后续发布时利用ε -分组不变性规则充分考虑前后两次发布数据之间的个体关联性,保证了个体的隐私信息。 【附图说明】 图1为本专利技术数据周期性发布的隐私保护方法流程图。 【具体实施方式】 下面结合附图和具体实施例对本专利技术作进一步描述。 如图1所示,本专利技术提供了,包括以下步骤: (I)预处理待发布表,包括如下步骤: (1.1)根据医疗数据属性的分类,对待发布的数据表中属于同一个体的记录进行ID标注,表不为三类属性的表形式T(QI,ID, SA);作为本专利技术的一个具体实施例的待发布表如表1所不; 表1 本文档来自技高网...

【技术保护点】
一种数据周期性发布的隐私保护方法,其特征在于,包括如下步骤:(1)预处理待发布表T,生成数据表T(QI,GID,ID,SA);(2)初始化发布表T*;T*为空匿名表,结构与T(QI,GID,ID,SA)相同;(3)判断数据表T(QI,GID,ID,SA)是否为首次发布,如果是首次发布转步骤(4),否则转步骤(8);(4)设定安全保护参数k、l和ε;(5)对表T(QI,GID,ID,SA)进行泛化发布;(6)元组移回处理;(7)检查表T(QI,GID,ID,SA)记录是否已经全泛化,若未全泛化转步骤(5),否则转步骤(12);(8)计算T*(j‑1)和T(j)中同一个体的SA分组距离;(9)根据SA分组距离将T(j)分成两组T’和T”;(10)基于ε‑分组不变性规则发布T(j);(11)判断T”是否已全泛化;如果完成转步骤(12),否则转步骤(5);(12)数据发布完成,表T*为最终隐私保护发布信息。

【技术特征摘要】
1.一种数据周期性发布的隐私保护方法,其特征在于,包括如下步骤: (1)预处理待发布表T,生成数据表T(QI,GID,ID,SA); (2)初始化发布表T*;T*为空匿名表,结构与T(QI,GID,ID, SA)相同; (3)判断数据表T(QI,GID,ID,SA)是否为首次发布,如果是首次发布转步骤(4),否则转步骤⑶; (4)设定安全保护参数k、I和ε; (5)对表T(QI,GID, ID, SA)进行泛化发布; (6)元组移回处理; (7)检查表T(QI,GID,ID,SA)记录是否已经全泛化,若未全泛化转步骤(5),否则转步骤(12); (8)计算T*(j-1)和T(j)中同一个体的SA分组距离; (9)根据SA分组距离将T(j)分成两组T,和T” ; (10)基于分组不变性规则发布T(j); (11)判断Τ”是否已全泛化;如果完成转步骤(12),否则转步骤(5); (12)数据发布完成,表Τ*为最终隐私保护发布信息。2.如权利要求1所述的一种数据周期性发布的隐私保护方法,其特征在于:步骤(1)中,所述预处理待发布表包括如下步骤: (1.D根据医疗数据属性的分类,对待发布的数据表中属于同一个体的记录进行ID标注,表示为三类属性的表形式T (QI,ID,SA); (1.2)初始化每一个体为一个分组,添加分组标号GID,表示为T(QI,GID, ID, SA); (1.3)合并具有相同QI的分组; (1.4)删除显示标识符。3.如权利要求1所述的一种数据周期性发布的隐私保护方法,其特征在于:步骤(5)中,所述泛化发布包括如下步骤: (5.1)采用自底向上的局部重编码...

【专利技术属性】
技术研发人员:张志祥金华华进韩小祥朱鹏程
申请(专利权)人:南通大学杏林学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1