一种基于差分隐私的批量线性查询方法技术

技术编号:18445445 阅读:37 留言:0更新日期:2018-07-14 10:35
一种基于差分隐私的批量线性查询方法,包括以下步骤:步骤1:查询原始数据集R,得到数据查询结果集M;步骤2:将R的属性频度按降序排列,筛选频度不大于最小支持度的属性并将该属性以及与该属性对应的数据丢弃;将大于最小支持度的属性进行数据无关性处理,得到属性频度大于最小支持度的无关数据集D;步骤3:利用M在建立初始负载矩阵的基础上建立数据无关负载矩阵W,采用并行梯度下降矩阵分解技术并行分解W,得到W的完整的分解结果的第一矩阵B以及分解结果的第二矩阵L;步骤4:基于差分隐私进行自适应加噪,对L以及D添加拉普拉斯噪音,并对丢弃的属性以及数据进行还原,获得加噪查询结果数据集S;步骤5:将S返回给用户。

A batch based linear query method based on differential privacy

A batch linear query method based on differential privacy, which includes the following steps: Step 1: query the original data set R and get the data query result set M; step 2: order the attribute frequency of R in descending order, filter the attributes of the frequency not greater than the minimum support, and discarded the attribute and the data corresponding to the attribute; will be greater than that of the data. The attribute of the minimum support degree is processed by data independence, and the independent data set D with the attribute frequency greater than the minimum support degree is obtained. Step 3: using the M to establish the data independent load matrix W on the basis of the initial load matrix, the parallel gradient descent matrix decomposition technique is used to decompose W in parallel, and the complete decomposition results of W are obtained. The first matrix B and the second matrix L of the decomposition results; step 4: adaptive denoising based on the differential privacy, adding Laplasse noise to the L and D, and reducing the discarded attributes and data, obtaining the noisy query result data set S; step 5: return the S to the user.

【技术实现步骤摘要】
一种基于差分隐私的批量线性查询方法
本专利技术涉及计算机
,具体涉及一种基于差分隐私的批量线性查询方法。
技术介绍
随着互联网的发展,人类进入大数据时代。在对大数据进行处理时,批量线性查询是最常用的操作,然而其查询规模极大,查询过程繁杂,性能较低。另外,在使用大数据的过程中,很多敏感信息极易被泄漏,而无法同时保证查询精度(数据可用性)和隐私保护程度。现有技术的算法无法同时保证批量线性查询的算法性能、查询精度和隐私保护程度。在算法性能上,现有算法复杂度高,不适用于大规模批量线性查询;在查询精度上,现有算法在查询结果上添加噪音来减小所需的噪音量,以此优化查询精度。然而,当查询序列是用户任意给定时,这些机制为了找到最优的噪音分布需要的计算开销非常大,随数据维度增加呈指数增长,无法用于大数据集;在隐私保护程度上,现有算法没有将添加的噪音量与用户权限结合起来考虑,无法保证对不同权限用户添加的噪音量都合适,对于高权限用户,若添加噪音过多,则其受噪音干扰大,查询精度降低;对于低权限用户,若添加噪音过少,则会导致隐私保护程度不足。
技术实现思路
本专利技术是为了解决上述问题而进行的,目的在于提供一种基于差分隐私的批量线性查询方法。本专利技术提供了一种基于差分隐私的批量线性查询方法,具有这样的特征,包括:步骤1:查询原始数据集R,得到数据查询结果集M;步骤2:将原始数据集R的属性频度按降序排列,设定最小支持度筛选频度不大于最小支持度的属性并将该属性以及与该属性对应的数据丢弃;将大于最小支持度的属性采用FP-tree获取数据的关联属性后进行数据无关性处理,得到属性频度大于所述最小支持度的无关数据集D;步骤3:利用数据查询结果集M,建立初始负载矩阵,利用步骤2中的属性相关性在所述初始负载矩阵的基础上建立数据无关负载矩阵W,采用并行梯度下降矩阵分解技术并行分解所述数据无关负载矩阵W,得到数据无关负载矩阵W的完整的分解结果的第一矩阵B以及分解结果的第二矩阵L;步骤4:基于差分隐私进行自适应加噪,对所述分解结果的第二矩阵L以及所述属性频度大于所述最小支持度的无关数据集D添加拉普拉斯噪音,并对步骤2中丢弃的频度不大于最小支持度的属性以及该属性对应的数据进行还原,获得加噪查询结果数据集S;步骤5:将加噪查询结果数据集S返回给用户。在本专利技术提供的基于差分隐私的批量线性查询方法中,还可以具有这样的特征:其中,步骤2中的基于关联性分析的所述数据无关性处理包括以下步骤:步骤2-1:对所述原始数据集R进行扫描,得出所述原始数据集R中每一个属性的频度,按照属性频度进行降序排列,得到属性频度降序列表;步骤2-2:设定最小支持度,根据所述属性频度降序列表,将频度不大于所述最小支持度的属性及与该属性对应的数据去掉;步骤2-3:将去掉所述频度不大于所述最小支持度的属性及对应数据的剩余原始数据集R’以前缀树进行存储,构成FP-tree,并对第一次出现的节点建立链表;步骤2-4:用FP-growth算法对FP-tree进行整理,挖掘出关联模式;步骤2-5:判断叶子节点是否为单路径,当判断结果为是时,去除所述叶子节点,生成前缀路径的集合,进入步骤2-6;当判断结果为否时,生成各路径前缀路径的集合,构成一个新的FP-tree,返回至步骤2-4;步骤2-6:获取步骤2-5生成的所述前缀路径的集合,定义为数据的关联属性;步骤2-7:进行数据的无关性处理,利用属性的关联性去除冗余数据。在本专利技术提供的基于差分隐私的批量线性查询方法中,还可以具有这样的特征:其中,步骤3中的所述并行梯度下降矩阵分解包括以下步骤:步骤3-1:基于步骤1得到的所述数据查询结果集M,根据用户的查询要求生成初始负载矩阵;步骤3-2:根据步骤2基于关联性分析的数据的无关性处理得出的数据的关联属性,将初始负载矩阵转化为数据无关负载矩阵W;步骤3-3:运行Map过程:将数据无关负载矩阵W分解为W=BL,B为分解结果的第一矩阵,L为分解结果的第二矩阵,其中B矩阵有m行n列,L矩阵有n行r列,m表示查询记录数,r表示最大查询属性规模,n表示节点数,其中,分解结果的第一矩阵B和分解结果的第二矩阵L的梯度通过以下公式进行计算:B=(βWLT+πLT)(βLLT+I)-1(1)公式(1)(2)中,T为转置符号;β为正惩罚项因子,β需要初始化;I为单位矩阵;π为拉格朗日乘数;并行执行矩阵分解算法:将B按列分解为B1,B2,…,Bi,…,Bn,共n个矩阵,其中,Bi表示第i个节点上B的分解矩阵;将L按行分解为L1,L2,…,Li,…,Ln,共n个矩阵,其中,Li表示第i个节点上L的分解矩阵,即将数据无关负载矩阵W分解成n部分,每部分包含一个Bi矩阵和一个Li矩阵,每一部分行数为m/n,m为W的行数,n为分布式系统的节点数,第i个节点上W的分解矩阵表示为Wi=BiLi,引入分布式计算的Map过程:首先访问分解后的数据集,遍历每一行数据,记录行号a,然后对输出的key值取整作为分组号a/n,令value为数据中的m/n行数据,进行Combiner过程:聚合每组中的数据,形成待处理的数据,将划分过的部分,分发到n个节点上,步骤3-4:运行Reduce过程:在每个节点上计算正惩罚项因子β和数据无关负载矩阵W与分解矩阵乘积的差的矩阵范数τ,τ由公式τ=‖W-BiLi‖得出,并更新β和τ,当β>1000且τ<0.001时停止迭代,引入分布式计算的Reduce过程:将B和L分发到各节点,将各节点计算出的Bi和Li以及组号a/n,写入云计算的Reduce过程实现整合,将相同组号的Bi和Li按行号a进行拼接,从而得到完整的L、B。在本专利技术提供的基于差分隐私的批量线性查询方法中,还可以具有这样的特征:其中,步骤4中的所述自适应加噪包括以下步骤:步骤4-1:由计算出隐私预算ε的上界,根据用户的权限选取ε,在公式(3)中,ε为隐私预算;L为负载矩阵分解结果的第二矩阵;ρ表示相关系数,范围为[-1,1];Δq为敏感度;步骤4-2:利用拉普拉斯噪音机制对L和D添加满足ε的拉普拉斯噪音;步骤4-3:将步骤2中丢弃的频度不大于最小支持的属性以及与该属性对应的数据进行还原;步骤4-4:获得加噪查询结果数据集S。在本专利技术提供的基于差分隐私的批量线性查询方法中,还可以具有这样的特征:其中,用户的权限越高选取的ε值越接近上界,隐私保护程度越小,查询精度越高;用户的权限越低选取的ε值越小,隐私保护程度越大,查询精度越低。专利技术的作用与效果本专利技术针对批量线性查询的特点,基于关联性分析实现数据的无关性处理,减少冗余信息,同时采用并行梯度下降矩阵分解算法进行处理,提高查询性能。除此之外,本专利技术基于差分隐私保护算法,结合了用户权限设计自适应加噪算法以产生合理数量的噪音,从而实现隐私保护。因此,本专利技术的基于差分隐私的批量线性查询方法不仅是一种高效的线性查询算法,而且还是兼顾了查询精度和隐私保护程度的隐私保护算法。附图说明图1是本专利技术的实施例中基于差分隐私的批量线性查询方法的整体流程图;图2是本专利技术的实施例中基于关联性分析的数据无关性处理的流程图;图3是本专利技术的实施例中并行梯度下降矩阵分解的流程图;以及图4是本专利技术的实施例中自适应加噪的流程图。具体实施方式为了使本发本文档来自技高网...

【技术保护点】
1.一种基于差分隐私的批量线性查询方法,其特征在于,包括以下步骤:步骤1:查询原始数据集R,得到数据查询结果集M;步骤2:将原始数据集R的属性频度按降序排列,设定最小支持度筛选频度不大于最小支持度的属性并将该属性以及与该属性对应的数据丢弃;将大于最小支持度的属性采用FP‑tree获取数据的关联属性后进行数据无关性处理,得到属性频度大于所述最小支持度的无关数据集D;步骤3:利用数据查询结果集M,建立初始负载矩阵,利用步骤2中的属性相关性在所述初始负载矩阵的基础上建立数据无关负载矩阵W,采用并行梯度下降矩阵分解技术并行分解所述数据无关负载矩阵W,得到数据无关负载矩阵W的完整的分解结果的第一矩阵B以及分解结果的第二矩阵L;步骤4:基于差分隐私进行自适应加噪,对所述分解结果的第二矩阵L以及所述属性频度大于所述最小支持度的无关数据集D添加拉普拉斯噪音,并对步骤2中丢弃的频度不大于最小支持度的属性以及该属性对应的数据进行还原,获得加噪查询结果数据集S;步骤5:将加噪查询结果数据集S返回给用户。

【技术特征摘要】
1.一种基于差分隐私的批量线性查询方法,其特征在于,包括以下步骤:步骤1:查询原始数据集R,得到数据查询结果集M;步骤2:将原始数据集R的属性频度按降序排列,设定最小支持度筛选频度不大于最小支持度的属性并将该属性以及与该属性对应的数据丢弃;将大于最小支持度的属性采用FP-tree获取数据的关联属性后进行数据无关性处理,得到属性频度大于所述最小支持度的无关数据集D;步骤3:利用数据查询结果集M,建立初始负载矩阵,利用步骤2中的属性相关性在所述初始负载矩阵的基础上建立数据无关负载矩阵W,采用并行梯度下降矩阵分解技术并行分解所述数据无关负载矩阵W,得到数据无关负载矩阵W的完整的分解结果的第一矩阵B以及分解结果的第二矩阵L;步骤4:基于差分隐私进行自适应加噪,对所述分解结果的第二矩阵L以及所述属性频度大于所述最小支持度的无关数据集D添加拉普拉斯噪音,并对步骤2中丢弃的频度不大于最小支持度的属性以及该属性对应的数据进行还原,获得加噪查询结果数据集S;步骤5:将加噪查询结果数据集S返回给用户。2.根据权利要求1所述的基于差分隐私的批量线性查询方法,其特征在于:其中,步骤2中的基于关联性分析的所述数据无关性处理包括以下步骤:步骤2-1:对所述原始数据集R进行扫描,得出所述原始数据集R中每一个属性的频度,按照属性频度进行降序排列,得到属性频度降序列表;步骤2-2:设定最小支持度,根据所述属性频度降序列表,将频度不大于所述最小支持度的属性及与该属性对应的数据去掉;步骤2-3:将去掉所述频度不大于所述最小支持度的属性及对应数据的剩余原始数据集R’以前缀树进行存储,构成FP-tree,并对第一次出现的节点建立链表;步骤2-4:用FP-growth算法对FP-tree进行整理,挖掘出关联模式;步骤2-5:判断叶子节点是否为单路径,当判断结果为是时,去除所述叶子节点,生成前缀路径的集合,进入步骤2-6;当判断结果为否时,生成各路径前缀路径的集合,构成一个新的FP-tree,返回至步骤2-4;步骤2-6:获取步骤2-5生成的所述前缀路径的集合,定义为数据的关联属性;步骤2-7:进行数据的无关性处理,利用属性的关联性去除冗余数据。3.根据权利要求1所述的基于差分隐私的批量线性查询方法,其特征在于:其中,步骤3中的所述并行梯度下降矩阵分解包括以下步骤:步骤3-1:基于步骤1得到的所述数据查询结果集M,根据用户的查询要求生成初始负载矩阵;步骤3-2:根据步骤2基于关联性分析的数据的无关性处理得出的数据的关联属性,将初始负载矩阵转化为数据无关负载矩阵W;步骤...

【专利技术属性】
技术研发人员:王迪袁健申泽宇
申请(专利权)人:上海理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1