【技术实现步骤摘要】
一种数据风险评估方法和装置
本申请涉及数据风险评估
,具体而言,涉及一种数据风险评估的方法和装置。
技术介绍
随着医疗数据的快速增长,利用大样本数据进行医学研究是大势所趋,目前,很多医院或者医生进行医学研究时均有对大样本医疗数据的需求。但是医疗数据属于隐私数据,具有一定的保密性,一旦病人隐私泄露会存在巨大风险。医院或者医生在进行数据交换等处理时,一般都需先对数据进行脱敏处理,即对隐私数据去掉敏感标识,形成去标识化数据集,以达到保护用户数据隐私的目的。但是,目前对于数据进行脱敏处理,使用的脱敏方式不尽相同,没有一个统一的脱敏方法和脱敏标准,这就导致对于不同的数据源来讲,使用不同的脱敏方法得到的脱敏效果也不同,相应的,对于脱敏后的数据,也无法评估是否脱敏成功,是否足以达到可以保护用户隐私。
技术实现思路
有鉴于此,本申请提供一种数据风险评估方法和装置,可以有效对脱敏数据进行定量评估和把控,有效防止用户的个人隐私泄露,使用户的隐私得到更好的保护。本申请实施例提供了一种数据风险评估方法,所述方法包括:获取脱敏数据;基于预设的多个评估标识,对所述脱敏数据进行筛选,得到与每个所述评估标识相匹配的评估数据;基于所述多个评估标识的排列组合,确定每个评估标识组合所对应的评估数据集合,其中,所述评估标识组合为所述多个评估标识中不同评估标识进行排列组合的结果;确定每个评估数据集合的风险评估影响因素;基于所述风险评估影响因素,确定获取到的脱敏数据是否存在隐私泄 ...
【技术保护点】
1.一种数据风险评估方法,其特征在于,所述方法包括:/n获取脱敏数据;/n基于预设的多个评估标识,对所述脱敏数据进行筛选,得到与每个所述评估标识相匹配的评估数据;/n基于所述多个评估标识的排列组合,确定每个评估标识组合所对应的评估数据集合,其中,所述评估标识组合为所述多个评估标识中不同评估标识进行排列组合的结果;/n确定每个评估数据集合的风险评估影响因素;/n基于所述风险评估影响因素,确定获取到的脱敏数据是否存在隐私泄露风险。/n
【技术特征摘要】
1.一种数据风险评估方法,其特征在于,所述方法包括:
获取脱敏数据;
基于预设的多个评估标识,对所述脱敏数据进行筛选,得到与每个所述评估标识相匹配的评估数据;
基于所述多个评估标识的排列组合,确定每个评估标识组合所对应的评估数据集合,其中,所述评估标识组合为所述多个评估标识中不同评估标识进行排列组合的结果;
确定每个评估数据集合的风险评估影响因素;
基于所述风险评估影响因素,确定获取到的脱敏数据是否存在隐私泄露风险。
2.根据权利要求1所述的方法,其特征在于,所述多个评估标识包括基础项评估标识;或者
所述多个评估标识包括基础项评估标识,以及职业评估标识、婚姻评估标识与民族评估标识中的至少一者;
其中,所述基础项评估标识包括性别评估标识、出生日期评估标识、地址评估标识。
3.根据权利要求1所述的方法,其特征在于,基于预设的多个评估标识,对所述脱敏数据进行筛选,得到与每个所述评估标识相匹配的评估数据,包括:
基于预设的多个评估标识,删除所述脱敏数据中不符合预设识别内容的数据对应的数据组;
基于预设的多个评估标识,对脱敏数据进行规范化处理,所述规范化处理包括对数据格式进行统一处理;
基于预设的多个评估标识,对规范化处理后的脱敏数据进行编码处理;
从处理后的数据中确定与每个所述评估标识相匹配的评估数据。
4.根据权利要求3所述的方法,其特征在于,当所述多个评估标识包括民族评估标识的时候,所述基于预设的多个评估标识,对脱敏数据进行规范化处理,所述规范化处理包括对数据格式进行统一处理,包括:
确定所述脱敏数据中的民族评估标识中除汉族之外的每个民族的数据组数量;
若所述数据组数量小于预设数量,将该数据组数量对应的民族的评估标识改为少数民族。
5.根据权利要求1所述的方法,其特征在于,所述确定每个评估数据集合的风险评估影响因素,包括:
对每个评估数据集合中的数据进行分析处理;
基于数据分析处理的结果,确定每个评估数据集合中的目标数据组的出现次数,其中,所述目标数据组的出现次数小于该评估数据集合中除该目标数据组之外的其他数据组的出现次数;
从所述多个目标数据组中确定计算数据组,其中,所述计算数据组为所述多个目标数据组中出现次数小于其他目标数据组的目标数据组;
确定所述计算数据组的出现次数在脱敏数据中总数据组的数...
【专利技术属性】
技术研发人员:史文钊,弓孟春,王乐子,
申请(专利权)人:神州数码医疗科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。