【技术实现步骤摘要】
基于差分隐私保护的政务数据发布方法及系统
[0001]本专利技术涉及隐私数据安全保护
,尤其涉及一种基于差分隐私保护的政务数据发布方法及系统。
技术介绍
[0002]互联网、大数据、人工智能等新一代信息技术的发展,极大地便利政府采集、获取来自各类系统的政务数据,如财政、城建、医疗、教育、人口普查等数据。挖掘或分析海量政务数据产生的隐含价值与知识,可为政府部门提供决策支持,提升政务实施效能。尽管政务数据的内在价值给人民群众生活生产带来了便利,但也为不法分子树立了攻击目标,由于数据中通常包含个人敏感信息,直接发布或共享数据将引起隐私泄露问题,这使得政务数据在共享与应用时面临难以预料的安全风险。
[0003]目前已有的隐私保护政务数据发布技术主要通过匿名化、加密、扰动等方式对敏感信息进行保护,以保证发布数据的隐私安全。基于匿名化的隐私保护技术根据不同的数据类型与应用场景,通过泛化、抑制、分解等方式隐藏原始数据集中数据所有者和敏感信息之间的一一对应关系,产生满足隐私保护需求又保证数据可用的匿名数据集。但该类方法通常缺乏形式化的隐私保护定义,无法有效度量发布数据的隐私安全程度。基于数据加密的隐私保护数据发布技术具有极高的安全性保证,但其加密操作会带来大量的计算开销,这使其难以应用于大规模数据发布场景。
[0004]以差分隐私为代表的数据扰动技术解决了匿名化模型的不足,对隐私泄露风险给出了严格的、定量化的表示和证明。但将差分隐私模型应用于隐私保护政务大数据发布中的研究工作较少,主要因为政务数据具有体量大、维 ...
【技术保护点】
【技术特征摘要】
1.一种基于差分隐私保护的政务数据发布方法,其特征在于,所述方法包括:步骤S1:获取包括多条待发布的政务数据的原始数据集 D,并获取所述原始数据集D的特征集F和类别集C,其中,特征集F为原始数据集D中每条数据的特征的集合,类别集C为原始数据集D中每条数据的类别的集合;步骤S2:基于最大信息系数计算特征集F中特征与类别集C之间的相关性,获取最大信息系数最大时对应的特征F
K
,并基于特征F
K
选取特征集F中其余特征中的多个的特征,获取由特征F
K
和基于特征F
K
选取的特征组成的候选数据集 ;步骤S3:对所述候选数据集进行初始归一化处理得到数据集D
nor
,获取数据集D
nor
的样本均值,根据样本均值和相邻归一化数据集D
nor
和进行候选数据集的数据中心化,得到待发布数据集,并对待发布数据集进行重新归一化处理得到数据集;步骤S4:获取正交投影矩阵W,通过正交投影矩阵W将数据集投影到低维空间,获得低维数据集,通过低维数据集获取满足差分隐私保护的样本协方差矩阵,并通过满足差分隐私保护的样本协方差矩阵发布满足差分隐私保护的合成数据集D
*
。2.根据权利要求1所述的基于差分隐私保护的政务数据发布方法,其特征在于,步骤S2包括:基于最大信息系数计算特征集F中特征与类别集C之间的相关性,并根据计算结果对特征集F中所有特征进行降序排序,获取最大信息系数最大时对应的特征F
K
;计算特征集F中其余特征与特征F
K
之间的最大信息系数,根据计算结果对特征集F中其余特征进行降序排序;设定候选数据个数的阈值σ
MIC
,根据阈值σ
MIC
选取特征F
K
以及特征集F中其余特征中排序靠前的特征组成候选数据集。3.根据权利要求1所述的基于差分隐私保护的政务数据发布方法,其特征在于,所述步骤S3包括:对所述候选数据集进行初始归一化处理得到数据集D
nor
,获取数据集D
nor
的样本均值,其中,样本均值为数据集D
nor
中所有数据的平均值;通过相邻归一化数据集D
nor
和计算样本均值的敏感度;通过样本均值的敏感度以及样本均值的差分隐私预算,获取拉普拉斯噪声,对样本均值添加拉普拉斯噪声得到包含噪声的样本均值μ
DP
;通过包含噪声的样本均值μ
DP
进行候选数据集的数据中心化,得到待发布数据集;对待发布数据集进行重新归一化处理得到数据集。
4.根据权利要求3所述的基于差分隐私保护的政务数据发布方法,其特征在于,所述样本均值的敏感度
∆
f
μ
通过以下计算公式获取:通过以下计算公式获取:;其中,d
i
为数据集D
nor
中的第i个数据,为数据集中的第i个数据,表示取上限函数,表示1
‑
范数,表示矩阵F
‑
范数,p表示d
i
和的数据维度,表示查询函数。5.根据权利要求3所述的基于差分隐私保护的政务...
【专利技术属性】
技术研发人员:杨军,沈博,杨菲,徐勇勇,
申请(专利权)人:中国电子科技集团公司第十五研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。