MapReduce相似连接查询的隐私保护方法及系统技术方案

技术编号:19964760 阅读:36 留言:0更新日期:2019-01-03 13:05
本发明专利技术公开了一种MapReduce框架下相似连接查询的隐私保护方法及系统,其中,该方法针对相似连接查询的隐私泄露问题,结合差分隐私技术,达到既能保护数据隐私,又能提供给查询者满足需求的查询结果。具体为:将原数据进行预处理;构建隐私全局排序列表;实施过滤策略,产生候选集;对候选集中的相似对采用满足差分隐私的相似函数进行相似度计算及验证。本发明专利技术用以解决在连接查询中的数据安全性和可用性之间的矛盾,并且在MapReduce中实施支持隐私保护的相似连接查询来提高查询效率,引入了Laplace噪声机制来加强隐私保护性能。该发明专利技术保证了连接查询在可用性,安全性及高效性三方面的平衡。

Privacy Protection Method and System for MapReduce Similar Join Query

The invention discloses a privacy protection method and system for similar join query under MapReduce framework, in which the method aims at privacy leakage of similar join query and combines differential privacy technology to achieve query results that can not only protect data privacy, but also satisfy the needs of queriers. Specifically: the original data is preprocessed; the global ranking list of privacy is constructed; the filtering strategy is implemented to generate candidate sets; the similarity of candidate sets is calculated and verified by using the similarity function satisfying differential privacy. The invention solves the contradiction between data security and availability in connection query, implements similar connection query supporting privacy protection in MapReduce to improve query efficiency, and introduces Laplace noise mechanism to enhance privacy protection performance. The invention guarantees the balance of usability, security and efficiency of join query.

【技术实现步骤摘要】
MapReduce相似连接查询的隐私保护方法及系统
本专利技术属于数据安全领域,更具体地,涉及一种MapReduce框架下相似连接查询的隐私保护方法及系统。
技术介绍
近年来,随着信息技术的飞速发展,数据收集和共享越来越便捷,也丰富了我们的生活。然而,当人们从大数据中受益时,保护个人隐私变得非常困难。如今非法泄露窃取个人信息作为商业用途等恶意使用个人敏感数据导致个人隐私岌岌可危,尤其是在云环境下该现象更普遍。例如典型的AOL公开匿名的搜索记录导致了数据泄露,以及近期Facebook承认将用户信息泄露给其他数据分析公司等。面对这严峻的形势,无论是在工业界或学术界,实施敏感数据保护都势在必行。现有的隐私保护技术主要可分为:数据扰动(如差分隐私等),数据匿名化(如k-匿名等),加密技术(如同态加密等)及访问控制技术(如强制访问控制等),然而目前的方法都或多或少有些缺陷,如何改进完善这些技术也是研究者们关注的热点。面向查询服务的数据隐私保护中常用的个人属性标识有显示标识符:能唯一标识单一个体的属性,如身份证号码、姓名等;准标识符:组合起来能唯一标识一个人的多个属性,如邮编、性别、生日等的联合表示;敏感属性:包含敏感数据的属性,尤其是涉及隐私的,如疾病、个人薪资、病人患病记录、单位财务信息等。我们目的也是希望在查询者进行数据查询时能保护数据的敏感属性不被泄露。连接查询是一种广泛应用于数据分析、搜索、整合等处理过程的基本操作,但随着数据量的增大,对存储空间和效率的要求越来越高,另外如果数据拥有者提供的数据包括个人的私人敏感信息,如身份信息或密码,通过连接查询操作能轻易获取到隐私信息。因此,设计高效的保护相似连接查询过程中数据的隐私信息至关重要。目前,针对该问题的隐私保护主要有安全多方计算,但该方法在时间上的开销非常大,不适合海量数据的管理;对于数据匿名化技术容易受到链接攻击,并且需要提前建立攻击者模型,拓展性不够;现有一些提高MapReduce计算的安全和隐私方案,可是没有适用连接查询的可行技术;另外众多方法往往着重于相似连接查询的效率优化上,在隐私相关的挑战依然存在不足。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种MapReduce下相似连接查询的隐私保护方法及系统,由此解决相似性连接查询中存在的隐私泄露的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种MapReduce下相似连接查询的隐私保护方法,包括:(1)对原始数据集中的每条记录分配记录号,提取关键词,并根据各条记录的记录号对记录进行划分,以均衡各结点负载,提高查询效率;(2)在分布式计算结点上统计所有关键词在每行出现的频率及在原始数据集中的逆向频率,从而得到每个关键词的权重,并对各关键词对应的权重均加上Laplace噪声机制,得到一个按序排列的隐私全局排序列表,存储于分布式文件系统中;(3)根据所述隐私全局排序列表,提取各条记录的前缀,把前缀关键词作为key,对应的记录作为value,建立key/value对的倒排索引,按key进行分组,并采用长度过滤和位置过滤筛选后得到相似对的候选集;(4)对所述候选集中的相似对两两进行相似度计算,并对计算出的各相似度值加入Laplace噪声扰动后对范围进行限定,以输出相似度大于预设相似度阈值的相似对,作为查询结果。优选地,步骤(2)包括:(2-1)扫描整个原始数据集,在第一个MapReduce任务中,对每条记录rj,计算每个token在该条记录rj中出现的次数,记为Cij,其中,j表示第j条记录,i表示记录中的第i个token;(2-2)将每个token和Cij合并后作为key,对于每个key,由map函数产生(key,1)键值对,并在map函数之后使用combine函数统计该key在原始数据集中出现的次数,以减少reduce的任务开销;(2-3)在reduce函数中,统计所有key的词频,记为Rij,在Rij值上加上Laplace噪声后作为每个key的权重,Rij表示在第j条记录中,第i个token的词频;(2-4)在第二个MapReduce任务中进行权重排序,由map函数交换键值对位置后交给reduce函数进行权重的排序处理得到隐私全局排序列表。优选地,在步骤(2-3)中,由确定每个token的权重,其中,为服从尺度参数为的Laplace分布的随机噪声,Δf为全局敏感度,∈1为隐私保护预算,Wij表示第j条记录中,第i个token的权重。优选地,步骤(3)包括:(3-1)根据所述隐私全局排序列表,提取每条记录前缀,把前缀token作为key值,与之对应的记录号及记录作为value值,所有的key/value对按key进行分组后,分配到各个reduce中,以进行前缀过滤,其中,共享相同前缀的记录被分到同一组中;(3-2)进行长度过滤,由|R|×t≤|S|≤|R|/t及各记录的长度,判断key/value相似对是否可能出现在候选集中,其中,|R|表示数据集R的记录长度,|S|表示另一个数据集S的记录长度,t表示相似连接查询阈值;(3-3)由|Rl(w)∩Sl(w)|+min(|R|-pos(R,w),|S|-pos(S,w))+1≥t进行位置过滤,Rl(w)为以元素w分割有序序列R中的左半部分,pos(R,w)为元素w在R中的位置,Sl(w)为以元素w分割有序序列S中的左半部分,pos(S,w)为元素w在S中的位置;(3-4)经过前缀过滤、长度过滤及位置过滤后得到候选集。优选地,步骤(4)包括:(4-1)在reduce函数中,采用杰卡德Jaccard函数对得到的候选集中的相似对两两进行相似度计算;(4-2)对各相似度值加入差分隐私Laplace噪声机制得到目标相似度;(4-3)由于相似度范围为0到1,对所述目标相似度进行范围限定,将超出1的目标相似度值设定为1,小于0的目标相似度值设定为0。按照本专利技术的另一方面,提供了一种MapReduce下相似连接查询的隐私保护系统,包括:数据预处理模块,用于对原始数据集的每条记录分配记录号,提取关键词,并根据各条记录的记录号对记录进行划分,以均衡各结点负载,提高查询效率;构建隐私全局排序列表模块,用于在分布式计算结点上统计所有关键词在每行出现的频率及在原始数据集中的逆向频率,从而得到每个关键词的权重,并对各关键词对应的权重均加上Laplace噪声机制,得到一个按序排列的隐私全局排序列表,存储于分布式文件系统中;过滤模块,用于根据所述隐私全局排序列表,提取各条记录的前缀,把前缀关键词作为key,对应的记录作为value,建立key/value对的倒排索引,按key进行分组,并采用长度过滤和位置过滤筛选后得到相似对的候选集;相似度计算及验证模块,用于对所述候选集中的相似对两两进行相似度计算,并对计算出的各相似度值加入Laplace噪声扰动后对范围进行限定,以输出相似度大于预设相似度阈值的相似对,作为查询结果。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:(1)查询结果的高可用性:通过和真实相似度值及相似度对数进行对比评估,保证了相似对的信息得以保留,相似度的扰动没有过大;(2)相似连接查询的高安全性:能最大程度上本文档来自技高网
...

【技术保护点】
1.一种MapReduce下相似连接查询的隐私保护方法,其特征在于,包括:(1)对原始数据集中的每条记录分配记录号,提取关键词,并根据各条记录的记录号对记录进行划分,以均衡各结点负载,提高查询效率;(2)在分布式计算结点上统计所有关键词在每行出现的频率及在原始数据集中的逆向频率,从而得到每个关键词的权重,并对各关键词对应的权重均加上Laplace噪声机制,得到一个按序排列的隐私全局排序列表,存储于分布式文件系统中;(3)根据所述隐私全局排序列表,提取各条记录的前缀,把前缀关键词作为key,对应的记录作为value,建立key/value对的倒排索引,按key进行分组,并采用长度过滤和位置过滤筛选后得到相似对的候选集;(4)对所述候选集中的相似对两两进行相似度计算,并对计算出的各相似度值加入Laplace噪声扰动后对范围进行限定,以输出相似度大于预设相似度阈值的相似对,作为查询结果。

【技术特征摘要】
1.一种MapReduce下相似连接查询的隐私保护方法,其特征在于,包括:(1)对原始数据集中的每条记录分配记录号,提取关键词,并根据各条记录的记录号对记录进行划分,以均衡各结点负载,提高查询效率;(2)在分布式计算结点上统计所有关键词在每行出现的频率及在原始数据集中的逆向频率,从而得到每个关键词的权重,并对各关键词对应的权重均加上Laplace噪声机制,得到一个按序排列的隐私全局排序列表,存储于分布式文件系统中;(3)根据所述隐私全局排序列表,提取各条记录的前缀,把前缀关键词作为key,对应的记录作为value,建立key/value对的倒排索引,按key进行分组,并采用长度过滤和位置过滤筛选后得到相似对的候选集;(4)对所述候选集中的相似对两两进行相似度计算,并对计算出的各相似度值加入Laplace噪声扰动后对范围进行限定,以输出相似度大于预设相似度阈值的相似对,作为查询结果。2.根据权利要求1所述的方法,其特征在于,步骤(2)包括:(2-1)扫描整个原始数据集,在第一个MapReduce任务中,对每条记录rj,计算每个token在该条记录rj中出现的次数,记为Cij,其中,j表示第j条记录,i表示记录中的第i个token;(2-2)将每个token和Cij合并后作为key,对于每个key,由map函数产生(key,1)键值对,并在map函数之后使用combine函数统计该key在原始数据集中出现的次数,以减少reduce的任务开销;(2-3)在reduce函数中,统计所有key的词频,记为Rij,在Rij值上加上Laplace噪声后作为每个key的权重,Rij表示在第j条记录中,第i个token的词频;(2-4)在第二个MapReduce任务中进行权重排序,由map函数交换键值对位置后交给reduce函数进行权重的排序处理得到隐私全局排序列表。3.根据权利要求2所述的方法,其特征在于,在步骤(2-3)中,由确定每个token的权重,其中,为服从尺度参数为的Laplace分布的随机噪声,Δf为全局敏感度,∈1为隐私保护预算,Wij表示第j条记录中,第i个token的权重。4.根据权利要求2或3所述的方法,其特征在于,步骤(3)包括:(3-1)根据所述隐私全局排序列表,提取每条记录前缀,把前缀token作为key值,...

【专利技术属性】
技术研发人员:金海丁晓锋杨婉璐
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1