The invention discloses a privacy protection method and system for similar join query under MapReduce framework, in which the method aims at privacy leakage of similar join query and combines differential privacy technology to achieve query results that can not only protect data privacy, but also satisfy the needs of queriers. Specifically: the original data is preprocessed; the global ranking list of privacy is constructed; the filtering strategy is implemented to generate candidate sets; the similarity of candidate sets is calculated and verified by using the similarity function satisfying differential privacy. The invention solves the contradiction between data security and availability in connection query, implements similar connection query supporting privacy protection in MapReduce to improve query efficiency, and introduces Laplace noise mechanism to enhance privacy protection performance. The invention guarantees the balance of usability, security and efficiency of join query.
【技术实现步骤摘要】
MapReduce相似连接查询的隐私保护方法及系统
本专利技术属于数据安全领域,更具体地,涉及一种MapReduce框架下相似连接查询的隐私保护方法及系统。
技术介绍
近年来,随着信息技术的飞速发展,数据收集和共享越来越便捷,也丰富了我们的生活。然而,当人们从大数据中受益时,保护个人隐私变得非常困难。如今非法泄露窃取个人信息作为商业用途等恶意使用个人敏感数据导致个人隐私岌岌可危,尤其是在云环境下该现象更普遍。例如典型的AOL公开匿名的搜索记录导致了数据泄露,以及近期Facebook承认将用户信息泄露给其他数据分析公司等。面对这严峻的形势,无论是在工业界或学术界,实施敏感数据保护都势在必行。现有的隐私保护技术主要可分为:数据扰动(如差分隐私等),数据匿名化(如k-匿名等),加密技术(如同态加密等)及访问控制技术(如强制访问控制等),然而目前的方法都或多或少有些缺陷,如何改进完善这些技术也是研究者们关注的热点。面向查询服务的数据隐私保护中常用的个人属性标识有显示标识符:能唯一标识单一个体的属性,如身份证号码、姓名等;准标识符:组合起来能唯一标识一个人的多个属性,如邮编、性别、生日等的联合表示;敏感属性:包含敏感数据的属性,尤其是涉及隐私的,如疾病、个人薪资、病人患病记录、单位财务信息等。我们目的也是希望在查询者进行数据查询时能保护数据的敏感属性不被泄露。连接查询是一种广泛应用于数据分析、搜索、整合等处理过程的基本操作,但随着数据量的增大,对存储空间和效率的要求越来越高,另外如果数据拥有者提供的数据包括个人的私人敏感信息,如身份信息或密码,通过连接查询操作能轻易 ...
【技术保护点】
1.一种MapReduce下相似连接查询的隐私保护方法,其特征在于,包括:(1)对原始数据集中的每条记录分配记录号,提取关键词,并根据各条记录的记录号对记录进行划分,以均衡各结点负载,提高查询效率;(2)在分布式计算结点上统计所有关键词在每行出现的频率及在原始数据集中的逆向频率,从而得到每个关键词的权重,并对各关键词对应的权重均加上Laplace噪声机制,得到一个按序排列的隐私全局排序列表,存储于分布式文件系统中;(3)根据所述隐私全局排序列表,提取各条记录的前缀,把前缀关键词作为key,对应的记录作为value,建立key/value对的倒排索引,按key进行分组,并采用长度过滤和位置过滤筛选后得到相似对的候选集;(4)对所述候选集中的相似对两两进行相似度计算,并对计算出的各相似度值加入Laplace噪声扰动后对范围进行限定,以输出相似度大于预设相似度阈值的相似对,作为查询结果。
【技术特征摘要】
1.一种MapReduce下相似连接查询的隐私保护方法,其特征在于,包括:(1)对原始数据集中的每条记录分配记录号,提取关键词,并根据各条记录的记录号对记录进行划分,以均衡各结点负载,提高查询效率;(2)在分布式计算结点上统计所有关键词在每行出现的频率及在原始数据集中的逆向频率,从而得到每个关键词的权重,并对各关键词对应的权重均加上Laplace噪声机制,得到一个按序排列的隐私全局排序列表,存储于分布式文件系统中;(3)根据所述隐私全局排序列表,提取各条记录的前缀,把前缀关键词作为key,对应的记录作为value,建立key/value对的倒排索引,按key进行分组,并采用长度过滤和位置过滤筛选后得到相似对的候选集;(4)对所述候选集中的相似对两两进行相似度计算,并对计算出的各相似度值加入Laplace噪声扰动后对范围进行限定,以输出相似度大于预设相似度阈值的相似对,作为查询结果。2.根据权利要求1所述的方法,其特征在于,步骤(2)包括:(2-1)扫描整个原始数据集,在第一个MapReduce任务中,对每条记录rj,计算每个token在该条记录rj中出现的次数,记为Cij,其中,j表示第j条记录,i表示记录中的第i个token;(2-2)将每个token和Cij合并后作为key,对于每个key,由map函数产生(key,1)键值对,并在map函数之后使用combine函数统计该key在原始数据集中出现的次数,以减少reduce的任务开销;(2-3)在reduce函数中,统计所有key的词频,记为Rij,在Rij值上加上Laplace噪声后作为每个key的权重,Rij表示在第j条记录中,第i个token的词频;(2-4)在第二个MapReduce任务中进行权重排序,由map函数交换键值对位置后交给reduce函数进行权重的排序处理得到隐私全局排序列表。3.根据权利要求2所述的方法,其特征在于,在步骤(2-3)中,由确定每个token的权重,其中,为服从尺度参数为的Laplace分布的随机噪声,Δf为全局敏感度,∈1为隐私保护预算,Wij表示第j条记录中,第i个token的权重。4.根据权利要求2或3所述的方法,其特征在于,步骤(3)包括:(3-1)根据所述隐私全局排序列表,提取每条记录前缀,把前缀token作为key值,...
【专利技术属性】
技术研发人员:金海,丁晓锋,杨婉璐,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。