一种多元数据微融合的方法技术

技术编号:14707240 阅读:324 留言:0更新日期:2017-02-25 18:29
本发明专利技术提供了一种多元数据微融合的方法,包括步骤:一组数据集,数据集中每个元素为多元变量,需要将数据集分组每组数据数量不小于k;确定数据集分组的信息损失,目标是在每组数据数量不小k的情况下最小化分组带来的信息损失;得到数据集后确定数据集的中心,以及各个数据之间的距离;挑选距离数据集中心最远的数据并且以该数据为中心依次形成一个数据数量为k的分组;对已经形成的数据数量为k的分组进行扩展,并保证扩展后的数据集数据数量在k与2k‑1之间。本发明专利技术通过一方面利用每组的中心来选取新加入的数据,另一方面允许每组数据数量可变来减少因分组带来的信息损失,此外每组数据数量不小于k可以保证数据本身的匿名保护。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,具体地,涉及一种数据匿名保护的方法。
技术介绍
现实生活中,有很多数据需要公开作为人们的参考,常见的有医疗数据,人们的部分日常健康数据,地理位置数据等等,而这些数据本身可能与用户的信息相关,比如有研究表明人们日常活动的地理信息直接与其身份相关。不加保护的直接公布用户的信息会导致严重的隐私泄露,危害用户的隐私安全。基于用户隐私的考虑,LatanyaSweeney在2002年InternationalJournalofUncertainty,FuzzinessandKnowledge-BasedSystems上发表了k-ANONYMITY:AMODELFORPROTECTINGPRIVACY(k匿名:保护数据隐私的一个模型)提出了k匿名的概念。k匿名要求将用户的某种数据与其他至少k-1个人的数据组合在一起发表,这样恶意用户就不能分别其中一个数据和剩余的k-1个数据的区别,实现了用户隐私数据的保护。然而,在隐私保护的同时,会带来数据信息损失,以地理位置的隐私保护来说,关于地理位置的k匿名保护包含位置隐藏,提交噪声,信息存储等等,这些在LBS系统中和群智系统中都有研究。为了保护用户的地理位置隐私,地理位置常常会被过度处理,使得处理后的位置与原本的位置相差很大,处理后的位置保护的隐私但是不能传递该有的信息。因此,在保护数据k匿名隐私的同时减少处理带来的信息损失是非常必要的。对现有技术进行检索发现,JosepDomingo-Ferrer等在2002年IEEETransactionsonKnowledgeandDataEngineering上发表的Practicaldata-orientedmicroaggregationforstatisticaldisclosurecontrol(实际数据导向的微融合以控制统计泄露)中提出了一种保护k匿名的微融合技术,并表明多元数据的微融合是NP-hard,最优的结果中每个分组的大小在k与2k-1之间,基于该文的结果,文章作者在后续的研究中提出了MDAV方法微融合多元数据,该方法因为固定的分组大小和简单的分组机制,使得分组带来的信息损失仍然较大。AgustiSolanas等在2006年COMPSTATSymposiumoftheIASC上发表的V-MDAV:amultivariatemicroaggregationwithvariablegroupsize(V-MDAV:一种多元变量的微融合并允许可变组大小)中基于MDAV提出了可变分组的思想,但是该分组方式较为简单只能一定程度上减少信息损失。GeorgeKokolakis等在2009年在ComputationalStatisticsDataAnalysis中发表的Importancepartitioninginmicroaggregation中提出了IP方法以分组中心决定加入的下一个数据,但是仍然是固定的分组大小,只能在一定程度上降低信息损失。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提出一种多元数据微融合方法,通过可变分组大小与比较数据与分组中心距离,实现信息损失的降低。为达到上述目的,本专利技术所采用的技术方案如下:一种多元数据微融合的方法,多元数据X={x1,x2,...,xN本文档来自技高网
...
一种多元数据微融合的方法

【技术保护点】
一种多元数据微融合的方法,其特征在于,包括如下步骤:步骤一,多元变量数据集X={x1,x2,...,xN},其中每一个数据元素xi是一个n元变量xi={yi1,yi2,...,yin},为了匿名保护,将数据集X分组,每一组的数据数量不小于k;步骤二,计算数据集的全局中心以及各个数据之间的欧式距离;步骤三,判断数据集中剩余数据的数量,如果小于k,转到步骤六,否则计算距离全局中心最远的数据,并生成一个新的分组;步骤四,依次选择距离分组数据中心最近的数据加入到分组,新的数据加入后重新计算分组中心,直至分组数据数量为k;步骤五,对分组进行扩展,使用分组的中心判断新的数据是否加入,并保证每一个分组的数量不超过2k‑1,转至步骤二;步骤六,将剩余的数据分别添加到信息损失增加最小的分组,并输出分组结果。

【技术特征摘要】
1.一种多元数据微融合的方法,其特征在于,包括如下步骤...

【专利技术属性】
技术研发人员:王雄刘哲田晓华甘小莺王新兵
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1