一种基于信念网络的靶向型隐私保护数据发布方法技术

技术编号:28497336 阅读:26 留言:0更新日期:2021-05-19 22:33
本发明专利技术数据发布领域,具体涉及一种基于信念网络的靶向型隐私保护数据发布方法。针对以知识挖掘为目标的大数据多源增量发布场景中对数据可用性与隐私保护的协同优化问题,提出一种基于信念网络的靶向型隐私保护数据发布方法,代替发布原始数据,通过抽样、生成、转换等操作发布符合隐私

【技术实现步骤摘要】
一种基于信念网络的靶向型隐私保护数据发布方法


[0001]本专利技术数据发布领域,具体涉及一种基于信念网络的靶向型隐私保护数据发布方法。

技术介绍

[0002]随着“互联网+”行动计划的稳步实施,将云计算、物联网、人工智能等新型技术与各行各业结合起来,极大地撬动了以“大数据分析、内容咨询服务”为核心的巨量市场。在合作共赢、共享经济的大背景下,产业链上下游企业通过数据共享,分析产品从原料购进到销售的各个环节,能够有效减小产能过剩的风险;不同产业的公司也可以通过信息发布与共享的方式展开多元化产业合作,从而减缓单一领域产品受市场周期变化的冲击。尽管数据融合分析可以为企业提供竞争优势,但据研究机构Gartner对144名全球知名企业首席审计主管的调查显示,随着企业间的信息共享,数据分析的安全风险正在加剧,70%的受访者表示为避免隐私泄露所带来的负面影响,如何保护数据隐私是各方最关注的问题。
[0003]隐私保护的数据发布[1](Privacy

Preserving Data Publishing,简称PPDP)作为数据挖掘技术从数据中安全、合法依规提取知识的必要技术前件,在过去几十年中受到相当大的关注。PPDP可以归约为隐私挖掘与敏感信息匿名化的博弈:假设目标对象T具有一组信息属性和一个敏感属性,其中信息属性值A
I
为可公开属性(又称为信息属性),而敏感属性值A
S
(又称为隐私属性)需要被匿名处理。在数据发布的过程中要求确保没有人可以根据发布的匿名数据以高于阈值的概率猜测出由可公开属性A
I
到敏感属性A
S
的映射关系。在大数据场景中,PPDP的内涵得到了扩展。由于数据发布的目标是分析数据分布、探索数据之间的关系以及挖掘隐藏在大数据中的新知识,因此,其中所包含的敏感统计信息(下称为宏隐私,相应地,称个人敏感信息为微隐私)也需要进行相应的匿名化处理。
[0004]多源数据安全融合以隐私保护作为合作基础,打破信息孤岛的壁垒,在更广泛数据集上挖掘知识产生协同,并最终按需实现有限开放的信息共享。纵观国内外文献,可以从隐私度量指标、隐私计算和面向多源数据融合的隐私保护技术3个方面进行梳理。
[0005]k

匿名(k

anonymity)要求对所发布的数据中的每一条记录至少存在其它k

1条不能与之区分的记录。其中,k作为“匿名度”直接表征了目标数据被保护程度的强弱。康奈尔大学的Machanavajjhala等人提出多样性(1

diversity),该策略在k匿名的标准下限制每一个由信息属性划分的等价类中所对应的敏感属性至少包含个不同的值。为了实现上述数据匿名策略,数据发布方通常采用数据泛化、插入噪声数据、数据分割这三类方法对数据进行处理。然而,伪装的数据需要“精心”设计,正如敌手可以以发布的宏观统计数据为背景知识,通过基于统计推理的攻击消除添加的伪数据。
[0006]此外,从k

匿名到多样化性再到其后演化的诸多变种都围绕弥补k匿名无力对抗背景知识攻击来展开。对此,与之并行的差分隐私方案成为一个新的突破点。Dwork等人提出基于ε

差分隐私(ε

differential privacy)的隐私保护方案,其对数据隐私的保护与攻击者掌握的背景知识无关。该准则利用指定参数ε表征添加噪声的程度,遗憾的是,在面
对高维稀疏数据时,差分隐私已被证明将严重的降低数据可用性。为了防止统计推测攻击,普渡大学和AT&T实验室的李宁辉等人提出t

相近性(t

Closeness)原则,在多样化的基础上,考虑了敏感属性值的分布问题,该策略将t作为“相近程度”的距离度量,表征在匿名数据中,敏感属性值的分布与整体大数据中该属性值分布的相近程度。
[0007]针对大数据增量发布的特性,Byun等人首次提出一种支持数据增量发布的匿名准则[10],使得在多次发布后不同版本的数据集仍满足diversity隐私保护准则,敌手无法结合历史版本数据进行对隐私的细化分析与推理。为了满足在现实场景中对历史数据集的删除操作,Xiao等人提出m

不变性(m

invariance),该策略旨在消除不同数据发布版本间的推理通道,通过添加伪用户记录,使得对于任意一条真实的用户记录所在的等价类在累次发布版本中具有相同的敏感属性集合。Bu等人提出HD

composition匿名准则,该策略支持数据重发布时对历史数据版本的修改操作,其将敏感属性分为常量属性和可变属性,若用户记录在待发布的数据集中出现变化,则重构匿名组,使得待发布的数据集依然满足先前的匿名准则。
[0008]在大数据多源融合的场景中,不同的数据拥有者对数据实施不同的隐私保护策略,策略间所依据的隐私保护准则和评价标准也各异,如何对其进行统一的度量成为众多研究人员关注的热点问题。其中,中国科技大学李向阳等人提出基于图结构的隐私刻画方法,将数据中隐私和可用性的度量量化地划归为图中顶点间的各种连接关系。李宁辉等人利用随机抽样的统计理论,提出了一种安全的k

匿名算法,使得匿名后的数据集满足差分隐私的测度。中国科学院信息工程研究所李凤华等人首次提出隐私计算的概念,并将隐私计算模型描述为隐私度量I、隐私保护复杂性代价E、隐私保护效果G以及隐私泄露收益损失比C四个量之间的关系。方滨兴等人将隐私普适地刻画为:隐私=(信息本体+属性)
×
时间
×
地点
×
使用对象。
[0009]Mohammed等人基于分类树结构使用数据泛化技术实现数据融合各方的数据隐私保护,但融合后数据的信息损失较高,具体的信息损失度与数据集相关。Jiang等人提出一种可追责计算框架,该框架可以实现数据融合的各方相互验证。扩展研究意在为不同的集成数据挖掘任务设计安全协议,然而这些方法的计算开销过于昂贵。
[0010]针对云平台的大数据隐私保护技术,Foresti等人通过定义机密限制和属性可见请求分割数据集并采用分组匿名的方式保护数据隐私,但需要应用领域专家事先建立属性约束规则集。李庆忠等人提出(k,α,β,γ)

隐私保护机制,通过定义属性集合的隐私约束对数据进行垂直分割,使每一个数据分块中的属性都不会导致数据组合隐私泄露,并引入(α,β,γ)3个层次的组合均衡化概念,确保每个数据分块物理存储中各种数据切片出现的概率尽可能的平均,从而保护数据隐私,但属性隐私约束集的构建需要领域专家的指导,且伪数据的生成、识别和混淆数据的重构都需要在可信第三方的协作下完成。
[0011]Wang等人借助语义层级树,通过将数量不及匿名需求的记录项进行语义泛化,以使得其在更为宽泛的语义下实现k

匿名。然而,记录项泛本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信念网络的靶向型隐私保护数据发布方法,其特征在于,包括以下步骤:步骤1,抗微隐私泄露的信念网络的生成策略:采用对抗式学习架构构建能生成与原数据集同模态数据的信念网络;步骤2,信念网络的层次结构编码:针对信念网络中非敏感属性节点所构成节点集合在信念网络中的相对位置,对其进行纵向编码和横向编码,通过编码来对个节点对信念网络的影响力进行排序;步骤3,基于辨识矩阵的属性筛选:从信念网络采样数据,构建属性节点辨识矩阵,挖掘信念网络中非敏感属性节点所构成节点集合间相对于敏感属性节点概率分布的影响程度,并以此为依据对信念网络中非敏感属性节点所构成节点集合排序,借助辨识矩阵,提出一种以寻求属性差异贡献最大化作为启发式规则的贪心策略;步骤4,(d,l)

privacy隐私保护机制:综合信念网络中非敏感属性节点所构成节点集合排序及其编码信息,选出当前轮次对隐私属性节点数据概率分布影响最大且对全局网络影响最小的信念网络中非敏感属性节点所构成节点集合,并对其使用(d,l)

privacy隐私保护机制进行匿名化保护,其中d表示对原信念网络的单位隐私保护操作次数,l表示所涉修改信息属性的最小个数且l≤d;步骤5,基于n

order多网络融合的隐私保护机制:以多个信念网络的公共节点为基节点集,构建n

order候选节点集,即以基节点集为中心,最短跳数n为半径的圆域节点作为候选节点集元素,然后以该n

order候选节点集为论域,构建相应的信念子网络,并将其替换原信念网络中对应的子网络。2.根据权利要求1所述的一种基于信念网络的靶向型隐私保护数据发布方法,其特征在于,所述步骤1中采用对抗式学习架构构建能生成与原数据集同模态数据的信念网络,具体步骤为:步骤1.1,通过对原数据分别进行抽样,应用基于爬山法的信念网络生成算法形成初代的辨识器J1和生成器G1;步骤1.2,初代辨识器和生成器各自计算其相应信念网络的BIC评分,分别记为J1_BIC、G1_BIC;若W(J1_BIC,G1_BIC)>ε,其中W(*)是对BIC评分设计的统计量,ε为差异阈值,ε>0,或J1_BIC>G1_BIC,则对生成器版本进行更新,通过自举法追加数据样本,以提升其信念网络的表示能力;反之,则以相似的方式更新辨识器的版本;通过对抗式学习迭代地更新辨识器和生成器,直至出现某代生成器G
k
使得其在连续两次对抗学习中有W(J
h
_BIC,G
k
_BIC)≤ε且W(J
h+1
BIC,G
k
BIC)≤ε,终止迭代。3.根据权利要求1所述的一种基于信念网络的靶向型隐私保护数据发布方法,其特征在于,所述步骤2中纵向编码包括两个阶段:自底向上的编码阶段和自顶向下的修正阶段;所述自底向上的编码阶段的具体步骤为:步骤2.1,所有节点的层次结构最初标记为零,从叶节点开始连续标记,并逐步跟踪相应的父节点,在每个轮次中,当子节点的层次结构为q时,父节点的层次结构将标记为q+1;步骤2.2,对于非叶节点仅记录当前最大编码,即若该节点的编码非0,则比较新的编码与原编码,保留大者,若两者相等,则停止对该节点的向上回溯,看叶节点队列是否为空,若为空,则停止;步骤2.3,提取下一个叶节点进行标记,直到叶节点序列为空;
所述自顶向下的修正阶段的具体步骤为:步骤3.1,按层次结构对所有节点进行从大到小的排序,并将所有节点编码初始化为未标记;步骤3.2,提取节点序列中层次结构最大的未标记节点,并将该节点作为在广度上遍历图形的起点,逐级向下广度优先遍历,在每一轮中,当父节点的层次结构为q时,子节点的层次结构将标记为q

1;步骤3.3,将q
old
表示的节点的当前层次结构的数值大小与新派生的节...

【专利技术属性】
技术研发人员:周志刚白增亮苗钧重余翔湛
申请(专利权)人:山西财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1