对抗大数据的推断攻击的隐私制造技术

技术编号:14009491 阅读:195 留言:0更新日期:2016-11-17 09:59
一种用于当用户希望公开地公布关于他自身的涉及他的隐私数据的一些数据时保护隐私数据的方法。具体地,该方法和装置教导响应于组合的公开数据具有类似属性,将多个公开数据组合为多个数据簇。生成的簇然后被处理以预测隐私数据,其中所述预测具有某个概率。响应于所述概率超过预定阈值,所述公开数据的至少一个被改变或删除。

【技术实现步骤摘要】
【国外来华专利技术】相关申请的交叉引用本申请请求于2013年2月8日,在美国专利和商标局提交,并且被分配的序列号为61/762480的临时申请的优先权和从其获得的所有利益。
本专利技术一般地涉及用于保护隐私的方法和装置,并且更特别地,涉及根据由用户生成的大量公开数据点生成隐私保护映射机制的方法和装置。
技术介绍
在大数据时代,用户数据的收集和挖掘已经成为大量的私有和公共机构的快速成长的惯常做法。例如,技术公司利用用户数据,以向他们的客户提供个性化服务,政府代理依赖数据以解决各类挑战,例如,国家安全、国民健康状况、预算和经费分配,或者医疗机构分析数据以发现疾病的起源和可能的治疗方案。在一些情形下,收集、分析或与第三方共享用户数据,在未经用户许可或觉察的情况下执行。在另一些情形下,数据被用户自愿向特定分析方公布,以获得服务作为回报,例如,产品评级被公布以获得推荐。这一服务,或者用户从允许访问该用户的数据所获得的其它利益,可以被称为效用。在二者之一的情形下,当一些被收集的数据可能被用户认为是敏感的(例如,政治观点、健康状态、收入水平)时,或乍看可能无害(例如产品评级),仍然导致对与其相关的更为敏感的数据的推断时,隐私风险将会增加。后者的威胁涉及推断攻击(inference attack),这是一种通过利用隐私数据与被公开公布数据的关系,对隐私数据进行推断的技术。在近些年中,在线隐私滥用的许多威胁已经显露,包括身份窃取、名誉损害、工作丢失、歧视、骚扰、网络恐吓、追踪甚至自杀。同时,对在线社会网络(OSN)提供方的指控已经变成常见的涉嫌非法数据收集、未经用户许可共享数据、未经通知用户改变隐私设置、误导用户追踪他们的浏览行为、不执行用户的删除行为,以及未适当地通知用户关于他们的数据的用途和其他哪些人得以访问这些数据。OSN的赔偿责任可能上升到几千万甚至几亿美元。互联网中管理隐私的一个中心问题在于同时管理公开数据和隐私数据。许多用户愿意公布关于他们的一些数据,比如他们的观影史或者他们的性别;他们这么做是因为这种数据允许有用的服务,并且因为这些属性很少被认为隐私。然而,用户还有其他他们认为隐私的数据,比如收入水平、政治立场、或医疗条件。在这样的工作中,我们关注用户能够公布她的公开数据,但是能够阻止可以从公开信息得到她的隐私数据的推断攻击的方法。我们的解决方案包括隐私保护映射,该隐私保护映射通知用户关于如何在公布她的公开数据之前使其失真,以致推断攻击不能够成功地得到她的隐私数据。同时,该失真应当是有界的,以便于原来的服务(比如推荐)能够继续有效。期望用户获得对公开公布的数据的分析的利益,比如电影推荐、或购物习惯。然而,不期望第三方能够分析这一公开数据并推断隐私数据,比如政治立场或收入水平。期待用户或服务能够公布一些公开信息以获得利益,但是控制第三方推断隐私信息的能力,这一点将是受期望的。这一控制机制的困难方面在于,通常非常多的公开数据被用户公布,并且对所有这些数据进行分析以阻止隐私数据的公布是计算上不可行的。因此,期望克服上面的难点,并且向用户提供对于隐私数据安全的体验。
技术实现思路
根据本专利技术的一方面,公开了一种装置。根据示例性的实施例,该装置包含:存储器,用于存储多个用户数据,其中该用户数据包含多个公开数据;处理器,用于将所述多个用户数据分组到多个数据簇,其中所述多个数据簇的每一个包括所述用户数据的至少两个;响应于所述多个数据簇的分析,所述处理器还进行操作以确定统计值,其中所述统计值代表隐私数据的实例的概率,所述处理器还进行操作以改变所述用户数据的至少一个以生成改变后的多个用户数据;以及传送器,用于传送所述改变后的多个用户数据。根据本专利技术的另一方面,公开了一种用于保护隐私数据的方法。根据示例性的实施例,该方法包含下述步骤:获取用户数据,其中该用户数据包含多个公开数据;将该用户数据分簇到多个簇,并处理数据簇以推断隐私数据,其中所述处理确定所述隐私数据的概率;根据本专利技术的另一方面,公开了用于保护隐私数据的第二方法。根据示例性的实施例,该方法包含下述步骤:汇集多个公开数据,其中所述多个公开数据的每一个包含多个特征;生成多个数据簇,其中所述数据簇包含所述多个公开数据的至少两个,并且其中所述多个公开数据的所述至少两个的每一个具有所述多个特征的至少一个;处理所述多个数据簇以确定隐私数据的概率,并且响应于所述概率超过预定值,改变所述多个公开数据的至少一个以生成改变后的公开数据。附图说明通过参考下面结合附图对本专利技术的实施例的描述,本专利技术的上面提及的和其他特征和优势,以及获得这些的方式,将变得更为明显,且本专利技术将被更好地理解,其中:图1为根据本原理的实施例,描述了用于保护隐私的示例性方法的流程图。图2为根据本原理的实施例,描述了当隐私数据和公开数据之间的联合分布已知时,用于保护隐私的示例性方法的流程图。图3为根据本原理的实施例,描述了当隐私数据和公开数据之间的联合分布未知且公开数据的边缘概率测度也未知时,用于保护隐私的示例性方法的流程图。图4为根据本原理的实施例,描述了当隐私数据和公开数据之间的联合分布未知但公开数据的边缘概率测度已知时,用于保护隐私的示例性方法的流程图。图5为根据本原理的实施例,描述了示例性的隐私代理的框图。图6为根据本原理的实施例,描述了具有多个隐私代理的示例性系统的框图。图7为根据本原理的实施例,描述了用于保护隐私的示例性方法的流程图。图8为根据本原理的实施例,描述了用于保护隐私的第二示例性方法的流程图。这里提出的范例示出了本专利技术的优选实施例,并且这些范例不被解释为以任何方式限制本专利技术的范围。具体实施方式现在参考附图,并且更特别地参考图1,示出用于实现本专利技术的示例性方法100的示图。图1示出了根据本原理,用于使将被公布的公开数据失真以保护隐私的示例性方法100。方法100起始于105。在步骤110,例如,从不关心他们的公开数据或隐私数据的隐私的那些用户,基于被公布的数据收集统计信息。我们将这些用户表示为“公开用户”,并且将希望使将被公布的公开数据失真的用户表示为“隐私用户”。统计信息可以通过网络爬虫、访问不同的数据库收集,或者可以被数据整合方提供。哪些统计信息能够被收集取决于公开用户所公布的内容。例如,如果公开用户公布了隐私数据和公开数据,联合分布PS,X的估计能够被获取。在另一示例中,如果公开用户仅公布了公开数据,边缘概率测度PX(而非联合分布PS,X)的估计,能够被获取。在另一示例中,我们可能仅能够获得公开数据的均值和方差。在最差的情形下,我们可能不能获得关于公开数据或隐私数据的任何信息。在步骤120,假定效用约束,该方法基于统计信息确定隐私保护映射。如之前讨论的,隐私保护映射机制的解决方法取决于可用的统计信息。在步骤130,在于步骤140向例如服务提供方或数据收集代理公布之前,根据被确定的隐私保护映射,使当前隐私用户的公开数据失真。对隐私用户,假定值X=x,根据分布PY|X=x,值Y=y被采样。这一值y被公布,而非真实值x。注意到该隐私映射的使用以生成被公布的y,不需要知道隐私用户的隐私数据的值S=s。方法100在步骤199结束。图2-4进一步详细示出了当不同的统计信息可用时,用于保护隐私的示例性方法。具体地,图2本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/62/201480007937.html" title="对抗大数据的推断攻击的隐私原文来自X技术">对抗大数据的推断攻击的隐私</a>

【技术保护点】
一种用于处理用户数据的方法,所述方法包含以下步骤:获取所述用户数据,其中所述用户数据包含多个公开数据;将所述用户数据分簇到多个簇;以及处理数据簇以推断隐私数据,其中所述处理确定所述隐私数据的概率。

【技术特征摘要】
【国外来华专利技术】1.一种用于处理用户数据的方法,所述方法包含以下步骤:获取所述用户数据,其中所述用户数据包含多个公开数据;将所述用户数据分簇到多个簇;以及处理数据簇以推断隐私数据,其中所述处理确定所述隐私数据的概率。2.如权利要求1所述的方法,还包含以下步骤:改变所述簇的一个以生成改变后的簇,所述改变后的簇被改变以致所述概率被降低。3.如权利要求2所述的方法,还包含以下步骤:通过网络传送所述改变后的簇。4.如权利要求1所述的方法,其中所述处理步骤包含将所述多个簇与多个被保存的簇比较的步骤。5.如权利要求4所述的方法,其中所述比较步骤确定所述多个被保存的数据簇和所述多个簇的联合分布。6.如权利要求1所述的方法,还包含以下步骤:响应于所述隐私数据的所述概率,改变所述用户数据以生成被改变后的用户数据,并通过网络传送所述被改变后的用户数据。7.如权利要求1所述的方法,其中所述分簇包含:将所述多个公开细节降低为多个代表性的公开簇,且隐私映射所述多个代表性的公开簇以生成改变后的多个代表性的公开簇。8.一种用于处理用户的用户数据的装置,所述装置包含:存储器,用于存储多个用户数据,其中所述用户数据包含多个公开数据;处理器,将所述多个用户数据分组到多个数据簇,其中所述多个数据簇的每一个包含所述用户数据的至少两个;所述处理器还进行操作以响应于对所述多个数据簇的分析来确定统计值,其中所述统计值代表隐私数据的实例的概率,所述处理器还进行操作以改变所述用户数据的至少一个以生成改变后的多个用户数据;以及传送器,用于传送所述改变后的多个用户数据。9.如权利要求8所述的装置,其中所述改变所述用户数据的至少一个导致所述隐私数据的所述实例的所述概率的降低。10.如权利要求8所述的装置,其中所述改变后的多个用户数据通过网络被传送。11.如权利要求8所述的装置,其中所述处理器还进行操作以将所述多个数据簇与多个被保存的数据...

【专利技术属性】
技术研发人员:纳蒂亚·法瓦兹萨尔曼·沙拉马蒂安费拉维奥·杜·品·卡尔蒙苏博拉曼雅·桑迪亚·布哈米迪帕提佩德罗·卡瓦略·奥利维拉妮娜·安妮·塔夫特布拉尼斯拉夫·卡温顿
申请(专利权)人:汤姆逊许可公司
类型:发明
国别省市:法国;FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1