【技术实现步骤摘要】
一种基于强化学习的隐私保护数据发布方法
[0001]本专利技术涉及数据安全发布领域,具体涉及一种基于强化学习的隐私保护数据发布方法。
技术介绍
[0002]既有数据发布的隐私保护方法通常仅关注数据的隐私性以及数据的可用性,鲜有对隐私保护后发布的数据如何实现有效地知识挖掘和价值发现进行考量。这种将数据隐私保护与数据挖掘目标割裂的处理方式加重了数据的信息损失,导致数据发布后,用户对数据挖掘的效能低下。因此,如何在隐私保护效果和数据挖掘效能之间达到协同平衡,既能使数据达到隐私保护要求,又能使数据挖掘更有效成为目前亟待解决的难点问题。
[0003]随着数据挖掘算法在隐私保护领域的广泛应用,隐私保护技术不断完善。Ahmed等人提出一种用于隐私保护数据挖掘的深度强学习方法,该方法通过使用删除动态计算的数据来隐藏敏感信息,并在隐私保护和知识挖掘之间寻求平衡,在大型数据集上具有普适性。Cheng等人将非敏感规则、数据损失作为优化目标,从而使数据效用最大化。此外,一些学者还从“隐私定价”的角度对数据挖掘的隐私保护机制进行了一系列研究。Aperjis设计了一种数据发布机制,通过中介获取个体对隐私的重视程度,并获取用户对数据的需求,通过一种定价的方式为用户提供数据;Chen等人提出一种基于强化学习的隐私数据定价方法,该方法构建了基于用户角色的定价模型,并提出一种基于经验矩阵的数据定价策略算法,利用强化学习方法,通过不断地进行数据交互以获得出价经验,实现了数据隐私性与数据交易收益的最大化,但此方法在迭代求解过程中要不断试错,时间开销 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的隐私保护数据发布方法,其特征在于包括:步骤一、数据拥有者利用贝叶斯生成技术将其所拥有的原数据转化为贝叶斯网络,然后将生成的贝叶斯网络上传至数据中心(数据中心可以是云计算平台等可信且具有强大算力的第三方平台),由于数据中心是作为数据的存储和计算被引入系统平台,数据中心本身并不是数据的使用者,因此,仅将与原数据同分布的贝叶斯网络上传至数据中心,割裂了数据与其所含个体隐私信息之间的映射关系,进而实现对原数据的第一重匿名化保护(这里称之为对数据的内层匿名);步骤二、由数据中心构建隐私保护智能体,通过迭代地修正贝叶斯网络来实现对原数据的第二重匿名(这里称之为对数据的外层匿名),修正贝叶斯网络的方式包含两种,分别从结构上和属性概率上修正:第一,通过添加、删除、翻转边可以改变贝叶斯网络结构,从而得到新的数据;第二,通过修改属性节点的概率分布值也可以使贝叶斯网络生成的数据发生改变,从而达到隐私保护要求;步骤三、由数据中心构建数据挖掘智能体,利用3种独立的聚类算法(k
‑
means、均值漂移、DBSCAN)分别对数据进行聚类操作,通过分析簇内、簇间的距离,比较聚类结果与隐私保护智能体修正数据之间的差异,来实现与隐私保护智能体的交互;步骤四、通过隐私保护和数据挖掘两个智能体之间的交互来获取奖励,不断优化动作值函数,进而同时满足隐私保护和数据挖掘的需求。2.根据权利要求1所述的数据拥有者利用贝叶斯生成技术将其所拥有的原数据转化为贝叶斯网络,其特征在于:步骤一一,对原数据D进行有放回采样,采样比例为θ(0<θ<<1),生成采样数据D
θ
;步骤一二,数据拥有者分别对采样数据D
θ
和原数据D运用基于K2算法的贝叶斯网络结构学习方法生成相应的贝叶斯网络,并使用BIC(Bayesian Information Criterion)指标对两个贝叶斯网络进行打分(评估),分别记为和Score
D
;步骤一三,若则增大采样比例θ,令θ=min(θ+μ,1),并跳转到步骤1.1,其中,η(η>0)为预设的阈值,μ(0<μ<<1)为采样比例增量。3.根据权利要求1所述的由数据中心构建隐私保护智能体,其特征在于:步骤二一,对贝叶斯网络通过添加、删除、翻转边的方式进行单位化修正操作,其中,单位化只是每一轮次只能进行{添加,删除,翻转}操作集中的一项操作;步骤二二,使用代价函数评估对贝叶斯网络进行修正操作前后的信息损失;将隐私保护智能体修正贝叶斯网络的过程以算法1表示,命名为BNM算法,算法的核心过程描述如下:
4.根据权利要求1所述的通过修改属性节点的概率分布值也可以使贝叶斯网络生成的数据发生改变,从而达到隐私保护要求,其特征在于:步骤二一,对贝叶斯网络实施敏感属性值泛化、t
‑
近邻性和
‑
多样性三种隐私保护方式进行单位化修正操作,其中,单位化只是每一轮次只能进行{敏感属性值泛化,t
‑
近邻性,
‑
多样性}操作集中的一项操作;敏感属性值泛化操作:根据数据拥有者对数据属性设置的属性值泛化层次树,将属性值域中待匿名保护的属性叶节点与其同父节点的所有兄弟叶节点聚合为一个属性节点并由其直接父节点进行替换,形成新的叶节点,该叶节点所对应的属性值概率分布继承自参与聚合的所有原叶节点,其值为所有参与聚合节点的概率分布之和;t
‑
近邻保护操作:a)将待匿名保护的属性值域空间中导致信息熵最大化的值分布情况定义为理论基准(其分布值记为X
min
),属性值概率分布最大者定义为待平滑基准(其分布值记为X
max
);b)使用方差进行度量,将定义为平滑操作单位(其中,m为正整数),对理论基准和待平滑基准进行迭代式单位修正,即每一轮次修正使得理论基准和待平滑基准进行迭代式单位修正,即每一轮次修正使得若使得属性各值出现概率与理论基准的方差不高于t则停止迭代,否则跳转执行a);
‑
多样性保护操作:将待隐私保护属性在...
【专利技术属性】
技术研发人员:周志刚,白增亮,
申请(专利权)人:山西墨丘利科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。