A batch linear query method based on differential privacy, which includes the following steps: Step 1: query the original data set R and get the data query result set M; step 2: order the attribute frequency of R in descending order, filter the attributes of the frequency not greater than the minimum support, and discarded the attribute and the data corresponding to the attribute; will be greater than that of the data. The attribute of the minimum support degree is processed by data independence, and the independent data set D with the attribute frequency greater than the minimum support degree is obtained. Step 3: using the M to establish the data independent load matrix W on the basis of the initial load matrix, the parallel gradient descent matrix decomposition technique is used to decompose W in parallel, and the complete decomposition results of W are obtained. The first matrix B and the second matrix L of the decomposition results; step 4: adaptive denoising based on the differential privacy, adding Laplasse noise to the L and D, and reducing the discarded attributes and data, obtaining the noisy query result data set S; step 5: return the S to the user.
【技术实现步骤摘要】
一种基于差分隐私的批量线性查询方法
本专利技术涉及计算机
,具体涉及一种基于差分隐私的批量线性查询方法。
技术介绍
随着互联网的发展,人类进入大数据时代。在对大数据进行处理时,批量线性查询是最常用的操作,然而其查询规模极大,查询过程繁杂,性能较低。另外,在使用大数据的过程中,很多敏感信息极易被泄漏,而无法同时保证查询精度(数据可用性)和隐私保护程度。现有技术的算法无法同时保证批量线性查询的算法性能、查询精度和隐私保护程度。在算法性能上,现有算法复杂度高,不适用于大规模批量线性查询;在查询精度上,现有算法在查询结果上添加噪音来减小所需的噪音量,以此优化查询精度。然而,当查询序列是用户任意给定时,这些机制为了找到最优的噪音分布需要的计算开销非常大,随数据维度增加呈指数增长,无法用于大数据集;在隐私保护程度上,现有算法没有将添加的噪音量与用户权限结合起来考虑,无法保证对不同权限用户添加的噪音量都合适,对于高权限用户,若添加噪音过多,则其受噪音干扰大,查询精度降低;对于低权限用户,若添加噪音过少,则会导致隐私保护程度不足。
技术实现思路
本专利技术是为了解决上述问题而进行的,目的在于提供一种基于差分隐私的批量线性查询方法。本专利技术提供了一种基于差分隐私的批量线性查询方法,具有这样的特征,包括:步骤1:查询原始数据集R,得到数据查询结果集M;步骤2:将原始数据集R的属性频度按降序排列,设定最小支持度筛选频度不大于最小支持度的属性并将该属性以及与该属性对应的数据丢弃;将大于最小支持度的属性采用FP-tree获取数据的关联属性后进行数据无关性处理,得到属性频度大于所 ...
【技术保护点】
1.一种基于差分隐私的批量线性查询方法,其特征在于,包括以下步骤:步骤1:查询原始数据集R,得到数据查询结果集M;步骤2:将原始数据集R的属性频度按降序排列,设定最小支持度筛选频度不大于最小支持度的属性并将该属性以及与该属性对应的数据丢弃;将大于最小支持度的属性采用FP‑tree获取数据的关联属性后进行数据无关性处理,得到属性频度大于所述最小支持度的无关数据集D;步骤3:利用数据查询结果集M,建立初始负载矩阵,利用步骤2中的属性相关性在所述初始负载矩阵的基础上建立数据无关负载矩阵W,采用并行梯度下降矩阵分解技术并行分解所述数据无关负载矩阵W,得到数据无关负载矩阵W的完整的分解结果的第一矩阵B以及分解结果的第二矩阵L;步骤4:基于差分隐私进行自适应加噪,对所述分解结果的第二矩阵L以及所述属性频度大于所述最小支持度的无关数据集D添加拉普拉斯噪音,并对步骤2中丢弃的频度不大于最小支持度的属性以及该属性对应的数据进行还原,获得加噪查询结果数据集S;步骤5:将加噪查询结果数据集S返回给用户。
【技术特征摘要】
1.一种基于差分隐私的批量线性查询方法,其特征在于,包括以下步骤:步骤1:查询原始数据集R,得到数据查询结果集M;步骤2:将原始数据集R的属性频度按降序排列,设定最小支持度筛选频度不大于最小支持度的属性并将该属性以及与该属性对应的数据丢弃;将大于最小支持度的属性采用FP-tree获取数据的关联属性后进行数据无关性处理,得到属性频度大于所述最小支持度的无关数据集D;步骤3:利用数据查询结果集M,建立初始负载矩阵,利用步骤2中的属性相关性在所述初始负载矩阵的基础上建立数据无关负载矩阵W,采用并行梯度下降矩阵分解技术并行分解所述数据无关负载矩阵W,得到数据无关负载矩阵W的完整的分解结果的第一矩阵B以及分解结果的第二矩阵L;步骤4:基于差分隐私进行自适应加噪,对所述分解结果的第二矩阵L以及所述属性频度大于所述最小支持度的无关数据集D添加拉普拉斯噪音,并对步骤2中丢弃的频度不大于最小支持度的属性以及该属性对应的数据进行还原,获得加噪查询结果数据集S;步骤5:将加噪查询结果数据集S返回给用户。2.根据权利要求1所述的基于差分隐私的批量线性查询方法,其特征在于:其中,步骤2中的基于关联性分析的所述数据无关性处理包括以下步骤:步骤2-1:对所述原始数据集R进行扫描,得出所述原始数据集R中每一个属性的频度,按照属性频度进行降序排列,得到属性频度降序列表;步骤2-2:设定最小支持度,根据所述属性频度降序列表,将频度不大于所述最小支持度的属性及与该属性对应的数据去掉;步骤2-3:将去掉所述频度不大于所述最小支持度的属性及对应数据的剩余原始数据集R’以前缀树进行存储,构成FP-tree,并对第一次出现的节点建立链表;步骤2-4:用FP-growth算法对FP-tree进行整理,挖掘出关联模式;步骤2-5:判断叶子节点是否为单路径,当判断结果为是时,去除所述叶子节点,生成前缀路径的集合,进入步骤2-6;当判断结果为否时,生成各路径前缀路径的集合,构成一个新的FP-tree,返回至步骤2-4;步骤2-6:获取步骤2-5生成的所述前缀路径的集合,定义为数据的关联属性;步骤2-7:进行数据的无关性处理,利用属性的关联性去除冗余数据。3.根据权利要求1所述的基于差分隐私的批量线性查询方法,其特征在于:其中,步骤3中的所述并行梯度下降矩阵分解包括以下步骤:步骤3-1:基于步骤1得到的所述数据查询结果集M,根据用户的查询要求生成初始负载矩阵;步骤3-2:根据步骤2基于关联性分析的数据的无关性处理得出的数据的关联属性,将初始负载矩阵转化为数据无关负载矩阵W;步骤...
【专利技术属性】
技术研发人员:王迪,袁健,申泽宇,
申请(专利权)人:上海理工大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。