【技术实现步骤摘要】
本专利技术涉及数据分类
,具体涉及一种医疗数据发布的差分隐私保护方法。
技术介绍
目前,我国在各医院已经推广和使用的电子病历信息系统大多是将病患作为处理对象来提供事务处理,一般包含病患个人信息、疾病名称和手术记录等,是病人在医院诊治过程中的原始记录,其中既有数值型数据,也有离散型数据。电子病历主要是为了能快速有效的完成病患的登记和诊疗记录的存储、查询、查看和结算诊疗费用等以病患为服务主体的各项服务为目的。医院中的各个部门在这样的病历管理系统中能对数据进行有效的管理和统计,如住院病患的平均治疗费用、某种特殊疾病的住院人数、癌症病患分别在不同阶段(Ⅰ期、Ⅱ期、Ⅲ期、Ⅳ期)的死亡率等。在现今的医疗体系中,依然是一种以经验为导向的治疗。虽然先进的医疗设备能为医生正确的诊疗提供支持,但医生们往往无法对得出的经验规则进行验证。所以对医务工作者而言,他们更希望通过统计分析、数据挖掘等不同的技术从大量的电子病历信息中能够总结出同类疾病的共同病征,在综合分析以前的不同治疗方案、病患状况与临床疗效效果的基础上对现有的治疗方案进行优化和调整,从而能够为疾病的治愈提供更有力的保证并且将挖掘结果转化为循证医学的证据。而现实情况是当医院在收集了病人的电子病历后,需要很多人力物力去存储和管理这些数据却没有能力利用这些病例数据来得到其中隐藏的医学诊断规则和模式。通过数据挖掘技术可以挖掘出大量病患的病历数据中所隐藏的医学诊断规则和模 ...
【技术保护点】
医疗数据发布的差分隐私保护方法,其特征是,包括如下步骤:步骤1、通过数据预处理,得到所有属性的属性值均泛化到最高的属性值组合数据表和属性状态层次树;步骤2、用户设定最大分裂次数h和匿名隐私保护参数k;步骤3、将预处理得到的属性值组合数据表的属性值加入到被泛化属性值集合中,并利用每个属性的状态层次树来统计每个被泛化属性值的信息增益;步骤4、从被泛化的属性值集合中选取待分裂的被泛化的属性值,并对被选出的被泛化的属性值进行分裂;步骤5、对分裂后得到的新的属性值组合进行k‑匿名验证;即如果每个新得到的属性值组合均满足k‑匿名要求,即该属性值组合的计数大于匿名隐私保护参数k,表明此次分裂成功,则重新计算信息增益,并且实际分裂次数n增加1;如果其中有一个新得到的属性值组合不满足k‑匿名要求,即该属性值组合的计数小于等于匿名隐私保护参数k,表明此次分裂失败,则将选中的待分裂属性值从被泛化的属性值集合中删除;步骤6、重复步骤4‑5的分裂过程,直到没有能继续分裂的被泛化的属性值或者分裂次数等于最大分裂次数h;步骤7、完成分裂过程后,对得到的满足k‑匿名的属性值组合数据表中每个属性值组合的计数进行差分隐私 ...
【技术特征摘要】
1.医疗数据发布的差分隐私保护方法,其特征是,包括如下步骤:
步骤1、通过数据预处理,得到所有属性的属性值均泛化到最高的属性值组合数据表和
属性状态层次树;
步骤2、用户设定最大分裂次数h和匿名隐私保护参数k;
步骤3、将预处理得到的属性值组合数据表的属性值加入到被泛化属性值集合中,并利
用每个属性的状态层次树来统计每个被泛化属性值的信息增益;
步骤4、从被泛化的属性值集合中选取待分裂的被泛化的属性值,并对被选出的被泛化
的属性值进行分裂;
步骤5、对分裂后得到的新的属性值组合进行k-匿名验证;即
如果每个新得到的属性值组合均满足k-匿名要求,即该属性值组合的计数大于匿名隐
私保护参数k,表明此次分裂成功,则重新计算信息增益,并且实际分裂次数n增加1;
如果其中有一个新得到的属性值组合不满足k-匿名要求,即该属性值组合的计数小于
等于匿名隐私保护参数k,表明此次分裂失败,则将选中的待分裂属性值从被泛化的属性值
集合中删除;
步骤6、重复步骤4-5的分裂过程,直到没有能继续分裂的被泛化的属性值或者分裂次
数等于最大分裂次数h;
步骤7、完成分裂过程后,对得到的满足k-匿名的属性值组合数据表中每个属性值组合
的计数进行差分隐私加噪处理,得到含有噪声的属性值组合;
步骤8、根据含有噪声的属性值组合数据表进行数据重构,最后将重构得到满足差分隐
私和k-匿名的匿名数据集,并将之发布。
2.根据权利要求1所述的医疗数据发布的差分隐私保护方法,其特征是,步骤4中,仅在
检测被泛化的属性值集合中被泛化的属性值个数m>0且实际分裂次数n<最大分裂次数h
时,才从被泛化的属性值集合中选取待分裂的被泛化的属性值...
【专利技术属性】
技术研发人员:李先贤,钟盛海,刘鹏,王利娥,
申请(专利权)人:广西师范大学,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。