基于差分隐私保护的政务数据发布方法及系统技术方案

技术编号:38010675 阅读:8 留言:0更新日期:2023-06-30 10:31
本发明专利技术涉及一种基于差分隐私保护的政务数据发布方法及系统,属于隐私数据安全保护技术领域,该方法包括:获取政务数据的原始数据集D、特征集F和类别集C;基于特征集F中特征与类别集C之间的相关性获取候选数据集;对候选数据集进行初始归一化处理、数据中心化和重新归一化处理得到数据集;获取满足差分隐私保护的样本协方差矩阵,并发布满足差分隐私保护的合成数据集D

【技术实现步骤摘要】
基于差分隐私保护的政务数据发布方法及系统


[0001]本专利技术涉及隐私数据安全保护
,尤其涉及一种基于差分隐私保护的政务数据发布方法及系统。

技术介绍

[0002]互联网、大数据、人工智能等新一代信息技术的发展,极大地便利政府采集、获取来自各类系统的政务数据,如财政、城建、医疗、教育、人口普查等数据。挖掘或分析海量政务数据产生的隐含价值与知识,可为政府部门提供决策支持,提升政务实施效能。尽管政务数据的内在价值给人民群众生活生产带来了便利,但也为不法分子树立了攻击目标,由于数据中通常包含个人敏感信息,直接发布或共享数据将引起隐私泄露问题,这使得政务数据在共享与应用时面临难以预料的安全风险。
[0003]目前已有的隐私保护政务数据发布技术主要通过匿名化、加密、扰动等方式对敏感信息进行保护,以保证发布数据的隐私安全。基于匿名化的隐私保护技术根据不同的数据类型与应用场景,通过泛化、抑制、分解等方式隐藏原始数据集中数据所有者和敏感信息之间的一一对应关系,产生满足隐私保护需求又保证数据可用的匿名数据集。但该类方法通常缺乏形式化的隐私保护定义,无法有效度量发布数据的隐私安全程度。基于数据加密的隐私保护数据发布技术具有极高的安全性保证,但其加密操作会带来大量的计算开销,这使其难以应用于大规模数据发布场景。
[0004]以差分隐私为代表的数据扰动技术解决了匿名化模型的不足,对隐私泄露风险给出了严格的、定量化的表示和证明。但将差分隐私模型应用于隐私保护政务大数据发布中的研究工作较少,主要因为政务数据具有体量大、维度高的特点,使用差分隐私对其进行保护时,需要添加大量扰动噪声到原始数据,导致发布结果准确性较低,直接制约了差分隐私在隐私保护政务大数据发布中的应用。同时,将差分隐私模型应用于隐私保护时存在以下问题:基于生成学习模型的隐私保护数据发布方法利用原始数据的参数分布或定义适当的模型表示原始数据,当数据分布未知或模型定义不准确时,使得发布结果可用性较低;基于投影变换的方法在求解样本协方差矩阵的基础上进行降维,构建可表达原始数据集的概要,存在隐私预算分配不合理和未能充分捕获数据间关系的问题,无法最大化原始数据的可用性的问题。

技术实现思路

[0005]本专利技术意在提供一种基于差分隐私保护的政务数据发布方法及系统,以解决现有技术中存在的不足,本专利技术要解决的技术问题通过以下技术方案来实现。
[0006]本专利技术提供的基于差分隐私保护的政务数据发布方法,包括:步骤S1:获取包括多条待发布的政务数据的原始数据集 D,并获取所述原始数据集D的特征集F和类别集C,其中,特征集F为原始数据集D中每条数据的特征的集合,类别集C为原始数据集D中每条数据的类别的集合;
步骤S2:基于最大信息系数计算特征集F中特征与类别集C之间的相关性,获取最大信息系数最大时对应的特征F
K
,并基于特征F
K
选取特征集F中其余特征中的多个的特征,获取由特征F
K
和基于特征F
K
选取的特征组成的候选数据集;步骤S3:对所述候选数据集进行初始归一化处理得到数据集D
nor
,获取数据集D
nor
的样本均值,根据样本均值和相邻归一化数据集D
nor
和进行候选数据集的数据中心化,得到待发布数据集,并对待发布数据集进行重新归一化处理得到数据集;步骤S4:获取正交投影矩阵W,通过正交投影矩阵W将数据集投影到低维空间,获得低维数据集,通过低维数据集获取满足差分隐私保护的样本协方差矩阵,并通过满足差分隐私保护的样本协方差矩阵发布满足差分隐私保护的合成数据集D
*

[0007]在上述方案中,步骤S2包括:基于最大信息系数计算特征集F中特征与类别集C之间的相关性,并根据计算结果对特征集F中所有特征进行降序排序,获取最大信息系数最大时对应的特征F
K
;计算特征集F中其余特征与特征F
K
之间的最大信息系数,根据计算结果对特征集F中其余特征进行降序排序;设定候选数据个数的阈值σ
MIC
,根据阈值σ
MIC
选取特征F
K
以及特征集F中其余特征中排序靠前的特征组成候选数据集。
[0008]在上述方案中,所述步骤S3包括:对所述候选数据集进行初始归一化处理得到数据集D
nor
,获取数据集D
nor
的样本均值μ,其中,样本均值μ为数据集D
nor
中所有数据的平均值;通过相邻归一化数据集D
nor
和计算样本均值μ的敏感度;通过样本均值μ的敏感度以及样本均值μ的差分隐私预算,获取拉普拉斯噪声,对样本均值μ添加拉普拉斯噪声得到包含噪声的样本均值;通过包含噪声的样本均值进行候选数据集的数据中心化,得到待发布数据集;对待发布数据集进行重新归一化处理得到数据集。
[0009]在上述方案中,所述样本均值μ的敏感度通过以下计算公式获取:
;其中,d
i
为数据集D
nor
中的第i个数据,为数据集中的第i个数据,表示取上限函数,表示1

范数,表示矩阵F

范数,p表示d
i
和的数据维度,表示查询函数。
[0010]在上述方案中,通过包含噪声的样本均值进行候选数据集的数据中心化采用的公式为:,其中,1表示所有值为1的向量。
[0011]在上述方案中,步骤S4包括:将待发布数据集的列向量进行施密特正交化,得到正交向量组构成正交投影矩阵W,通过正交投影矩阵W将数据集投影到低维空间,获得低维数据集;计算低维数据集的样本协方差矩阵Σ以及低维数据集的敏感度;根据样本协方差矩阵Σ以及敏感度获取满足差分隐私保护的样本协方差矩阵;通过满足差分隐私保护的样本协方差矩阵获取满足差分隐私保护的高斯生成模型;通过高斯生成模型发布满足差分隐私保护的合成数据集D
*

[0012]在上述方案中,所述根据样本协方差矩阵Σ以及敏感度获取满足差分隐私保护的样本协方差矩阵包括:通过敏感度以及样本协方差矩阵Σ的差分隐私预算
ϵ
Σ
获取拉普拉斯噪声;对样本协方差矩阵Σ的添加拉普拉斯噪声得到满足差分隐私保护的样本协方差矩阵。
[0013]本专利技术提供的基于差分隐私保护的政务数据发布系统,采用如上所述的基于差分隐私保护的政务数据发布方法进行政务数据发布,所述系统包括:原始数据采集模块,用于获取包括多条待发布的政务数据的原始数据集D,并获取所述原始数据集D的特征集F和类别集C,其中,特征集F为原始数据集D中每条数据的特征的集合,类别集C为原始数据集D中每条数据的类别的集合;
候选数据集获取模块,用于基于最大信息系数计算特征集F中特征与类别集C之间的相关性,获取最大信息系数最大时对应的特征F
K
,并基于特征F
K
选取特征集F中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于差分隐私保护的政务数据发布方法,其特征在于,所述方法包括:步骤S1:获取包括多条待发布的政务数据的原始数据集 D,并获取所述原始数据集D的特征集F和类别集C,其中,特征集F为原始数据集D中每条数据的特征的集合,类别集C为原始数据集D中每条数据的类别的集合;步骤S2:基于最大信息系数计算特征集F中特征与类别集C之间的相关性,获取最大信息系数最大时对应的特征F
K
,并基于特征F
K
选取特征集F中其余特征中的多个的特征,获取由特征F
K
和基于特征F
K
选取的特征组成的候选数据集 ;步骤S3:对所述候选数据集进行初始归一化处理得到数据集D
nor
,获取数据集D
nor
的样本均值,根据样本均值和相邻归一化数据集D
nor
和进行候选数据集的数据中心化,得到待发布数据集,并对待发布数据集进行重新归一化处理得到数据集;步骤S4:获取正交投影矩阵W,通过正交投影矩阵W将数据集投影到低维空间,获得低维数据集,通过低维数据集获取满足差分隐私保护的样本协方差矩阵,并通过满足差分隐私保护的样本协方差矩阵发布满足差分隐私保护的合成数据集D
*
。2.根据权利要求1所述的基于差分隐私保护的政务数据发布方法,其特征在于,步骤S2包括:基于最大信息系数计算特征集F中特征与类别集C之间的相关性,并根据计算结果对特征集F中所有特征进行降序排序,获取最大信息系数最大时对应的特征F
K
;计算特征集F中其余特征与特征F
K
之间的最大信息系数,根据计算结果对特征集F中其余特征进行降序排序;设定候选数据个数的阈值σ
MIC
,根据阈值σ
MIC
选取特征F
K
以及特征集F中其余特征中排序靠前的特征组成候选数据集。3.根据权利要求1所述的基于差分隐私保护的政务数据发布方法,其特征在于,所述步骤S3包括:对所述候选数据集进行初始归一化处理得到数据集D
nor
,获取数据集D
nor
的样本均值,其中,样本均值为数据集D
nor
中所有数据的平均值;通过相邻归一化数据集D
nor
和计算样本均值的敏感度;通过样本均值的敏感度以及样本均值的差分隐私预算,获取拉普拉斯噪声,对样本均值添加拉普拉斯噪声得到包含噪声的样本均值μ
DP
;通过包含噪声的样本均值μ
DP
进行候选数据集的数据中心化,得到待发布数据集;对待发布数据集进行重新归一化处理得到数据集。
4.根据权利要求3所述的基于差分隐私保护的政务数据发布方法,其特征在于,所述样本均值的敏感度

f
μ
通过以下计算公式获取:通过以下计算公式获取:;其中,d
i
为数据集D
nor
中的第i个数据,为数据集中的第i个数据,表示取上限函数,表示1

范数,表示矩阵F

范数,p表示d
i
和的数据维度,表示查询函数。5.根据权利要求3所述的基于差分隐私保护的政务...

【专利技术属性】
技术研发人员:杨军沈博杨菲徐勇勇
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1