【技术实现步骤摘要】
本专利技术涉及数据挖掘领域,具体地,涉及一种数据匿名保护的方法。
技术介绍
现实生活中,有很多数据需要公开作为人们的参考,常见的有医疗数据,人们的部分日常健康数据,地理位置数据等等,而这些数据本身可能与用户的信息相关,比如有研究表明人们日常活动的地理信息直接与其身份相关。不加保护的直接公布用户的信息会导致严重的隐私泄露,危害用户的隐私安全。基于用户隐私的考虑,LatanyaSweeney在2002年InternationalJournalofUncertainty,FuzzinessandKnowledge-BasedSystems上发表了k-ANONYMITY:AMODELFORPROTECTINGPRIVACY(k匿名:保护数据隐私的一个模型)提出了k匿名的概念。k匿名要求将用户的某种数据与其他至少k-1个人的数据组合在一起发表,这样恶意用户就不能分别其中一个数据和剩余的k-1个数据的区别,实现了用户隐私数据的保护。然而,在隐私保护的同时,会带来数据信息损失,以地理位置的隐私保护来说,关于地理位置的k匿名保护包含位置隐藏,提交噪声,信息存储等等,这些在LBS系统中和群智系统中都有研究。为了保护用户的地理位置隐私,地理位置常常会被过度处理,使得处理后的位置与原本的位置相差很大,处理后的位置保护的隐私但是不能传递该有的信息。因此,在保护数据k匿名隐私的同时减少处理带来的信息损失是非常必要的。对现有技术进行检索发现,JosepDomingo-Ferrer等在2002年IEEETransactionsonKnowledgeandDataEngineering ...
【技术保护点】
一种多元数据微融合的方法,其特征在于,包括如下步骤:步骤一,多元变量数据集X={x1,x2,...,xN},其中每一个数据元素xi是一个n元变量xi={yi1,yi2,...,yin},为了匿名保护,将数据集X分组,每一组的数据数量不小于k;步骤二,计算数据集的全局中心以及各个数据之间的欧式距离;步骤三,判断数据集中剩余数据的数量,如果小于k,转到步骤六,否则计算距离全局中心最远的数据,并生成一个新的分组;步骤四,依次选择距离分组数据中心最近的数据加入到分组,新的数据加入后重新计算分组中心,直至分组数据数量为k;步骤五,对分组进行扩展,使用分组的中心判断新的数据是否加入,并保证每一个分组的数量不超过2k‑1,转至步骤二;步骤六,将剩余的数据分别添加到信息损失增加最小的分组,并输出分组结果。
【技术特征摘要】
1.一种多元数据微融合的方法,其特征在于,包括如下步骤...
【专利技术属性】
技术研发人员:王雄,刘哲,田晓华,甘小莺,王新兵,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。