医疗数据发布的差分隐私保护方法技术

技术编号:15120877 阅读:122 留言:0更新日期:2017-04-09 19:34
本发明专利技术公开一种医疗数据发布的差分隐私保护方法,其将K-匿名技术与差分隐私技术进行有效结合,其能够避免单独使用K-匿名技术无法保证数据的统计信息不被泄露,而单独使用差分隐私技术只在保护统计信息的同时会引入大量的噪声,让数据失真程度变大,而降低数据的可利用性的问题;从而可以在保证医疗数据可用的前提下,有效防范医疗数据在收集和发布时所带来的病患信息泄露的风险,进而发挥医疗数据在统计和挖掘时的效用。

【技术实现步骤摘要】

本专利技术涉及数据分类
,具体涉及一种医疗数据发布的差分隐私保护方法
技术介绍
目前,我国在各医院已经推广和使用的电子病历信息系统大多是将病患作为处理对象来提供事务处理,一般包含病患个人信息、疾病名称和手术记录等,是病人在医院诊治过程中的原始记录,其中既有数值型数据,也有离散型数据。电子病历主要是为了能快速有效的完成病患的登记和诊疗记录的存储、查询、查看和结算诊疗费用等以病患为服务主体的各项服务为目的。医院中的各个部门在这样的病历管理系统中能对数据进行有效的管理和统计,如住院病患的平均治疗费用、某种特殊疾病的住院人数、癌症病患分别在不同阶段(Ⅰ期、Ⅱ期、Ⅲ期、Ⅳ期)的死亡率等。在现今的医疗体系中,依然是一种以经验为导向的治疗。虽然先进的医疗设备能为医生正确的诊疗提供支持,但医生们往往无法对得出的经验规则进行验证。所以对医务工作者而言,他们更希望通过统计分析、数据挖掘等不同的技术从大量的电子病历信息中能够总结出同类疾病的共同病征,在综合分析以前的不同治疗方案、病患状况与临床疗效效果的基础上对现有的治疗方案进行优化和调整,从而能够为疾病的治愈提供更有力的保证并且将挖掘结果转化为循证医学的证据。而现实情况是当医院在收集了病人的电子病历后,需要很多人力物力去存储和管理这些数据却没有能力利用这些病例数据来得到其中隐藏的医学诊断规则和模式。通过数据挖掘技术可以挖掘出大量病患的病历数据中所隐藏的医学诊断规则和模式可以验证医疗工作者以前得到的经验规律的有效性同时还能够发现一些以前没有被医疗工作者发现的规律,这些都推进了循证医疗技术的前进与发展。这些挖掘出来的医疗诊断规则可以为医生进行疾病诊断治疗提供辅助决策,这有利于提高诊疗效率、减少病患需要进行的无效检查检查减少病患的花销。所以医院需要将收集到的病患电子病历记录数据发布给医疗研究机构或数据挖掘公司来利用这些数据,得到数据中隐含的可用的医疗规则等可用信息。收集医疗数据并将之公开发布对于推动医疗研究和治疗疾病来说有着极其重要的意义。然而,由于医疗电子病历记录往往带有许多病患的敏感信息,因此医疗数据的收集和发布往往会带来泄露病患信息的隐患。以往发布数据时,一般的做法是将一些标识符属性信息(例如:姓名、身份证号码、电话)从需要发布的病例数据表中直接去掉,然后再将经过处理的数据进行公开发布。但这样做依旧有可能泄露病患的个人信息,他人(攻击者)可以通过一些准标识符信息(例如:性别、年龄、住址、职业)的组合将某条记录所对应的病患重新识别出来。而在数据查询过程中,通过改变查询范围他人(攻击者)也能够通过统计信息的变化得到某个病患的部分信息。
技术实现思路
本专利技术所要解决的技术问题是医疗数据的直接发布所带来的病患信息泄露的风险,提供一种医疗数据发布的差分隐私保护方法,其能够对电子病历记录数据进行隐私保护的同时最大化的保护数据的可用性。为解决上述问题,本专利技术是通过以下技术方案实现的:医疗数据发布的差分隐私保护方法,包括如下步骤:步骤1、通过数据预处理,得到所有属性的属性值均泛化到最高的属性值组合数据表和属性状态层次树;步骤2、用户设定最大分裂次数h和匿名隐私保护参数k;步骤3、将预处理得到的属性值组合数据表的属性值加入到被泛化属性值集合中,并利用每个属性的状态层次树来统计每个被泛化属性值的信息增益Score(Rv);步骤4、从被泛化的属性值集合中选取待分裂的被泛化的属性值,并对被选出的被泛化的属性值进行分裂;步骤5、对分裂后得到的新的属性值组合进行k-匿名验证;即如果每个新得到的属性值组合均满足k-匿名要求,即该属性值组合的计数大于匿名隐私保护参数k,表明此次分裂成功,则重新计算信息增益Score(Rv),并且实际分裂次数n增加1;如果其中有一个新得到的属性值组合不满足k-匿名要求,即该属性值组合的计数小于等于匿名隐私保护参数k,表明此次分裂失败,则将选中的待分裂属性值从被泛化的属性值集合中删除;步骤6、重复步骤4-5的分裂过程,直到没有能继续分裂的被泛化的属性值或者分裂次数等于最大分裂次数h;步骤7、完成分裂过程后,对得到的满足k-匿名的属性值组合数据表中每个属性值组合的计数进行差分隐私加噪处理,得到含有噪声的属性值组合;步骤8、根据含有噪声的属性值组合数据表进行数据重构,最后将重构得到满足差分隐私和k-匿名的匿名数据集,并将之发布。步骤4中,仅在检测被泛化的属性值集合中被泛化的属性值个数m>0且实际分裂次数n<最大分裂次数h时,才从被泛化的属性值集合中选取待分裂的被泛化的属性值,并对被选出的被泛化的属性值进行分裂;而在属性值个数m≤0或实际分裂次数n≥最大分裂次数h时,则跳转到步骤8。步骤4中,被泛化的属性值的选取过程如下:首先,产生一个范围在[0,1]内的随机数R;其次,在被泛化的属性值集合中,按照下述概率公式从第一个被泛化的属性值开始计算,如果生成的随机数则将该被泛化的属性值作为待分裂的属性值;如果则表示该被泛化的属性值不能作为本次分裂的属性值,则重新产生一个随机数R,并选取被泛化的属性值集合M中的下一个被泛化的属性值进行评估;上述概率公式为:p(Rvj)=Σi=1jexp(ϵ4log2|DA|×(|DN|+2h)Score(Rvi))Σv∈Mexp(ϵ4log2|DA|×(|DN|+2h)Score(Rv))]]>式中,ε为差分隐私保护参数,DA为所有属性的个数,DN为数值型属性的个数,h为最大分裂次数,Score(Rv)代表信息增益,j为当前需要评估的被泛化的属性值Rv在被泛化的属性值集合M中的序号。步骤7中,根据下述拉普拉斯公式对属性值组合数据表加入统计噪声:Lap(2ϵ)=ϵ4e-(log2|DA|×ϵ)/2]]>式中,Lap()是一个函数称之为拉普拉斯函数,ε为差分隐私保护参数,|DA|则分别代表所有属性的个数。与现有技术相比,本专利技术将K-匿名技术与差分隐私技术进行有效结合,其能够避免单独使用K-匿名技术无法保证数据的统计信息不被泄露,而单独使用差分隐私技术只在保护统计信息的同时会引入大量的噪声,让数据失真程度变大,而降低数据的可利用性的问题;从而可以在保证医疗数据可用的前提下,有效防范医疗数据在收集和发布时所带来的病患信息泄露的风险,进而发挥医疗数据在统计和挖掘时的效用。附图说明本文档来自技高网
...
医疗数据发布的差分隐私保护方法

【技术保护点】
医疗数据发布的差分隐私保护方法,其特征是,包括如下步骤:步骤1、通过数据预处理,得到所有属性的属性值均泛化到最高的属性值组合数据表和属性状态层次树;步骤2、用户设定最大分裂次数h和匿名隐私保护参数k;步骤3、将预处理得到的属性值组合数据表的属性值加入到被泛化属性值集合中,并利用每个属性的状态层次树来统计每个被泛化属性值的信息增益;步骤4、从被泛化的属性值集合中选取待分裂的被泛化的属性值,并对被选出的被泛化的属性值进行分裂;步骤5、对分裂后得到的新的属性值组合进行k‑匿名验证;即如果每个新得到的属性值组合均满足k‑匿名要求,即该属性值组合的计数大于匿名隐私保护参数k,表明此次分裂成功,则重新计算信息增益,并且实际分裂次数n增加1;如果其中有一个新得到的属性值组合不满足k‑匿名要求,即该属性值组合的计数小于等于匿名隐私保护参数k,表明此次分裂失败,则将选中的待分裂属性值从被泛化的属性值集合中删除;步骤6、重复步骤4‑5的分裂过程,直到没有能继续分裂的被泛化的属性值或者分裂次数等于最大分裂次数h;步骤7、完成分裂过程后,对得到的满足k‑匿名的属性值组合数据表中每个属性值组合的计数进行差分隐私加噪处理,得到含有噪声的属性值组合;步骤8、根据含有噪声的属性值组合数据表进行数据重构,最后将重构得到满足差分隐私和k‑匿名的匿名数据集,并将之发布。...

【技术特征摘要】
1.医疗数据发布的差分隐私保护方法,其特征是,包括如下步骤:
步骤1、通过数据预处理,得到所有属性的属性值均泛化到最高的属性值组合数据表和
属性状态层次树;
步骤2、用户设定最大分裂次数h和匿名隐私保护参数k;
步骤3、将预处理得到的属性值组合数据表的属性值加入到被泛化属性值集合中,并利
用每个属性的状态层次树来统计每个被泛化属性值的信息增益;
步骤4、从被泛化的属性值集合中选取待分裂的被泛化的属性值,并对被选出的被泛化
的属性值进行分裂;
步骤5、对分裂后得到的新的属性值组合进行k-匿名验证;即
如果每个新得到的属性值组合均满足k-匿名要求,即该属性值组合的计数大于匿名隐
私保护参数k,表明此次分裂成功,则重新计算信息增益,并且实际分裂次数n增加1;
如果其中有一个新得到的属性值组合不满足k-匿名要求,即该属性值组合的计数小于
等于匿名隐私保护参数k,表明此次分裂失败,则将选中的待分裂属性值从被泛化的属性值
集合中删除;
步骤6、重复步骤4-5的分裂过程,直到没有能继续分裂的被泛化的属性值或者分裂次
数等于最大分裂次数h;
步骤7、完成分裂过程后,对得到的满足k-匿名的属性值组合数据表中每个属性值组合
的计数进行差分隐私加噪处理,得到含有噪声的属性值组合;
步骤8、根据含有噪声的属性值组合数据表进行数据重构,最后将重构得到满足差分隐
私和k-匿名的匿名数据集,并将之发布。
2.根据权利要求1所述的医疗数据发布的差分隐私保护方法,其特征是,步骤4中,仅在
检测被泛化的属性值集合中被泛化的属性值个数m>0且实际分裂次数n<最大分裂次数h
时,才从被泛化的属性值集合中选取待分裂的被泛化的属性值...

【专利技术属性】
技术研发人员:李先贤钟盛海刘鹏王利娥
申请(专利权)人:广西师范大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1