一种多元数据微融合的方法技术

技术编号：14707240 阅读：339 留言：0更新日期：2017-02-25 18:29

本发明专利技术提供了一种多元数据微融合的方法，包括步骤：一组数据集，数据集中每个元素为多元变量，需要将数据集分组每组数据数量不小于k；确定数据集分组的信息损失，目标是在每组数据数量不小k的情况下最小化分组带来的信息损失；得到数据集后确定数据集的中心，以及各个数据之间的距离；挑选距离数据集中心最远的数据并且以该数据为中心依次形成一个数据数量为k的分组；对已经形成的数据数量为k的分组进行扩展，并保证扩展后的数据集数据数量在k与2k‑1之间。本发明专利技术通过一方面利用每组的中心来选取新加入的数据，另一方面允许每组数据数量可变来减少因分组带来的信息损失，此外每组数据数量不小于k可以保证数据本身的匿名保护。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域，具体地，涉及一种数据匿名保护的方法。
技术介绍
现实生活中，有很多数据需要公开作为人们的参考，常见的有医疗数据，人们的部分日常健康数据，地理位置数据等等，而这些数据本身可能与用户的信息相关，比如有研究表明人们日常活动的地理信息直接与其身份相关。不加保护的直接公布用户的信息会导致严重的隐私泄露，危害用户的隐私安全。基于用户隐私的考虑，LatanyaSweeney在2002年InternationalJournalofUncertainty,FuzzinessandKnowledge-BasedSystems上发表了k-ANONYMITY:AMODELFORPROTECTINGPRIVACY(k匿名：保护数据隐私的一个模型)提出了k匿名的概念。k匿名要求将用户的某种数据与其他至少k-1个人的数据组合在一起发表，这样恶意用户就不能分别其中一个数据和剩余的k-1个数据的区别，实现了用户隐私数据的保护。然而，在隐私保护的同时，会带来数据信息损失，以地理位置的隐私保护来说，关于地理位置的k匿名保护包含位置隐藏，提交噪声，信息存储等等，这些在LBS系统中和群智系统中都有研究。为了保护用户的地理位置隐私，地理位置常常会被过度处理，使得处理后的位置与原本的位置相差很大，处理后的位置保护的隐私但是不能传递该有的信息。因此，在保护数据k匿名隐私的同时减少处理带来的信息损失是非常必要的。对现有技术进行检索发现，JosepDomingo-Ferrer等在2002年IEEETransactionsonKnowledgeandDataEngineering...
一种多元数据微融合的方法

【技术保护点】
一种多元数据微融合的方法，其特征在于，包括如下步骤：步骤一，多元变量数据集X＝{x1,x2,...,xN}，其中每一个数据元素xi是一个n元变量xi＝{yi1,yi2,...,yin}，为了匿名保护，将数据集X分组，每一组的数据数量不小于k；步骤二，计算数据集的全局中心以及各个数据之间的欧式距离；步骤三，判断数据集中剩余数据的数量，如果小于k，转到步骤六，否则计算距离全局中心最远的数据，并生成一个新的分组；步骤四，依次选择距离分组数据中心最近的数据加入到分组，新的数据加入后重新计算分组中心，直至分组数据数量为k；步骤五，对分组进行扩展，使用分组的中心判断新的数据是否加入，并保证每一个分组的数量不超过2k‑1，转至步骤二；步骤六，将剩余的数据分别添加到信息损失增加最小的分组，并输出分组结果。

【技术特征摘要】
1.一种多元数据微融合的方法，其特征在于，包括如下步骤...

【专利技术属性】
技术研发人员：王雄，刘哲，田晓华，甘小莺，王新兵，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人