一种数据风险评估方法和装置制造方法及图纸

技术编号:24799991 阅读:28 留言:0更新日期:2020-07-07 21:07
本申请提供了一种数据风险评估方法及装置,其中,该方法包括:获取脱敏数据;基于预设的多个评估标识,对所述脱敏数据进行筛选,得到与每个所述评估标识相匹配的评估数据;基于所述多个评估标识的排列组合,确定每个评估标识组合所对应的评估数据集合,其中,所述评估标识组合为所述多个评估标识中不同评估标识进行排列组合的结果;确定每个评估数据集合的风险评估影响因素;基于所述风险评估影响因素,确定获取到的脱敏数据是否存在隐私泄露风险。这样,通过对已经进行脱敏处理的数据进行评估,判断脱敏数据是否还存在隐私泄露风险,可以有效对脱敏数据进行定量评估和把控,有效防止用户的个人隐私泄露,使用户的隐私得到更好的保护。

【技术实现步骤摘要】
一种数据风险评估方法和装置
本申请涉及数据风险评估
,具体而言,涉及一种数据风险评估的方法和装置。
技术介绍
随着医疗数据的快速增长,利用大样本数据进行医学研究是大势所趋,目前,很多医院或者医生进行医学研究时均有对大样本医疗数据的需求。但是医疗数据属于隐私数据,具有一定的保密性,一旦病人隐私泄露会存在巨大风险。医院或者医生在进行数据交换等处理时,一般都需先对数据进行脱敏处理,即对隐私数据去掉敏感标识,形成去标识化数据集,以达到保护用户数据隐私的目的。但是,目前对于数据进行脱敏处理,使用的脱敏方式不尽相同,没有一个统一的脱敏方法和脱敏标准,这就导致对于不同的数据源来讲,使用不同的脱敏方法得到的脱敏效果也不同,相应的,对于脱敏后的数据,也无法评估是否脱敏成功,是否足以达到可以保护用户隐私。
技术实现思路
有鉴于此,本申请提供一种数据风险评估方法和装置,可以有效对脱敏数据进行定量评估和把控,有效防止用户的个人隐私泄露,使用户的隐私得到更好的保护。本申请实施例提供了一种数据风险评估方法,所述方法包括:获取脱敏数据;基于预设的多个评估标识,对所述脱敏数据进行筛选,得到与每个所述评估标识相匹配的评估数据;基于所述多个评估标识的排列组合,确定每个评估标识组合所对应的评估数据集合,其中,所述评估标识组合为所述多个评估标识中不同评估标识进行排列组合的结果;确定每个评估数据集合的风险评估影响因素;基于所述风险评估影响因素,确定获取到的脱敏数据是否存在隐私泄露风险。进一步的,所述多个评估标识包括基础项评估标识;或者所述多个评估标识包括基础项评估标识,以及职业评估标识、婚姻评估标识与民族评估标识中的至少一者;其中,所述基础项评估标识包括性别评估标识、出生日期评估标识、地址评估标识。进一步的,基于预设的多个评估标识,对所述脱敏数据进行筛选,得到与每个所述评估标识相匹配的评估数据,包括:基于预设的多个评估标识,删除所述脱敏数据中不符合预设识别内容的数据对应的数据组;基于预设的多个评估标识,对脱敏数据进行规范化处理,所述规范化处理包括对数据格式进行统一处理;基于预设的多个评估标识,对规范化处理后的脱敏数据进行编码处理;从处理后的数据中确定与每个所述评估标识相匹配的评估数据。进一步的,当所述多个评估标识包括民族评估标识的时候,所述基于预设的多个评估标识,对脱敏数据进行规范化处理,所述规范化处理包括对数据格式进行统一处理,包括:确定所述脱敏数据中的民族评估标识中除汉族之外的每个民族的数据组数量;若所述数据组数量小于预设数量,将该数据组数量对应的民族的评估标识改为少数民族。进一步的,所述确定每个评估数据集合的风险评估影响因素,包括:对每个评估数据集合中的数据进行分析处理;基于数据分析处理的结果,确定每个评估数据集合中的目标数据组的出现次数,其中,所述目标数据组的出现次数小于该评估数据集合中除该目标数据组之外的其他数据组的出现次数;从所述多个目标数据组中确定计算数据组,其中,所述计算数据组为所述多个目标数据组中出现次数小于其他目标数据组的目标数据组;确定所述计算数据组的出现次数在脱敏数据中总数据组的数量的权重占比,其中,总数据组中的每组数据表示一个用户的数据。进一步的,所述基于所述风险评估影响因素,确定获取到的脱敏数据是否存在隐私泄露风险,包括:基于所述计算数据组的出现次数和所述权重占比,确定获取到的脱敏数据是否存在隐私泄露风险。进一步的,所述基于所述计算数据组的出现次数和所述权重占比,确定获取到的脱敏数据是否存在隐私泄露风险,包括:判断所述计算数据组的出现次数是否大于第一预设次数阈值;若所述计算数据组的出现次数大于第一预设次数阈值,确定获取到的脱敏数据隐私保护强。进一步的,所述基于所述计算数据组的出现次数和所述权重占比,确定获取到的脱敏数据是否存在隐私泄露风险,包括:判断所述计算数据组的出现次数是否小于第二预设次数阈值;若所述计算数据组的出现次数小于第二预设次数阈值,确定所述权重占比的值是否大于预设权重阈值;若所述权重占比的值大于预设权重阈值,确定获取到的数据存在隐私泄露风险。本申请实施例还提供了一种数据风险评估装置,所述数据风险评估装置包括:获取模块,用于获取脱敏数据;筛选模块,用于基于预设的多个评估标识,对所述脱敏数据进行筛选,得到与每个所述评估标识相匹配的评估数据;组合模块,用于基于所述多个评估标识的排列组合,确定每个评估标识组合所对应的评估数据集合,其中,所述评估标识组合为所述多个评估标识中不同评估标识进行排列组合的结果;确定模块,用于确定每个评估数据集合的风险评估影响因素;评估模块,用于基于所述风险评估影响因素,确定获取到的脱敏数据是否存在隐私泄露风险。进一步的,所述多个评估标识包括基础项评估标识;或者所述多个评估标识包括基础项评估标识,以及职业评估标识、婚姻评估标识与民族评估标识中的至少一者;其中,所述基础项评估标识包括性别评估标识、出生日期评估标识、地址评估标识。进一步的,所述筛选模块,具体还用于:基于预设的多个评估标识,删除所述脱敏数据中不符合预设识别内容的数据对应的数据组;基于预设的多个评估标识,对脱敏数据进行规范化处理,所述规范化处理包括对数据格式进行统一处理;基于预设的多个评估标识,对规范化处理后的脱敏数据进行编码处理;从处理后的数据中确定与每个所述评估标识相匹配的评估数据。进一步的,所述筛选模块,具体还用于:确定所述脱敏数据中的民族评估标识中除汉族之外的每个民族的数据组数量;若所述数据组数量小于预设数量,将该数据组数量对应的民族的评估标识改为少数民族。进一步的,所述确定模块具体还用于:对每个评估数据集合中的数据进行分析处理;基于数据分析处理的结果,确定每个评估数据集合中的目标数据组的出现次数,其中,所述目标数据组的出现次数小于该评估数据集合中除该目标数据组之外的其他数据组的出现次数;从所述多个目标数据组中确定计算数据组,其中,所述计算数据组为所述多个目标数据组中出现次数小于其他目标数据组的目标数据组;确定所述计算数据组的出现次数在脱敏数据中总数据组的数量的权重占比,其中,总数据组中的每组数据表示一个用户的数据。进一步的,所述评估模块具体还用于:基于所述计算数据组的出现次数和所述权重占比,确定获取到的脱敏数据是否存在隐私泄露风险。进一步的,所述评估模块具体还用于:判断所述计算数据组的出现次数是否大于第一预设次数阈值;若所述计算数据组的出现次数大于第一预设次数阈值,确定获取到的脱敏数据隐私保护强。进一步的,所述评估模块具体还用于:判断所述计算数据组的出现次数是否小于第二预设次数阈值;本文档来自技高网...

【技术保护点】
1.一种数据风险评估方法,其特征在于,所述方法包括:/n获取脱敏数据;/n基于预设的多个评估标识,对所述脱敏数据进行筛选,得到与每个所述评估标识相匹配的评估数据;/n基于所述多个评估标识的排列组合,确定每个评估标识组合所对应的评估数据集合,其中,所述评估标识组合为所述多个评估标识中不同评估标识进行排列组合的结果;/n确定每个评估数据集合的风险评估影响因素;/n基于所述风险评估影响因素,确定获取到的脱敏数据是否存在隐私泄露风险。/n

【技术特征摘要】
1.一种数据风险评估方法,其特征在于,所述方法包括:
获取脱敏数据;
基于预设的多个评估标识,对所述脱敏数据进行筛选,得到与每个所述评估标识相匹配的评估数据;
基于所述多个评估标识的排列组合,确定每个评估标识组合所对应的评估数据集合,其中,所述评估标识组合为所述多个评估标识中不同评估标识进行排列组合的结果;
确定每个评估数据集合的风险评估影响因素;
基于所述风险评估影响因素,确定获取到的脱敏数据是否存在隐私泄露风险。


2.根据权利要求1所述的方法,其特征在于,所述多个评估标识包括基础项评估标识;或者
所述多个评估标识包括基础项评估标识,以及职业评估标识、婚姻评估标识与民族评估标识中的至少一者;
其中,所述基础项评估标识包括性别评估标识、出生日期评估标识、地址评估标识。


3.根据权利要求1所述的方法,其特征在于,基于预设的多个评估标识,对所述脱敏数据进行筛选,得到与每个所述评估标识相匹配的评估数据,包括:
基于预设的多个评估标识,删除所述脱敏数据中不符合预设识别内容的数据对应的数据组;
基于预设的多个评估标识,对脱敏数据进行规范化处理,所述规范化处理包括对数据格式进行统一处理;
基于预设的多个评估标识,对规范化处理后的脱敏数据进行编码处理;
从处理后的数据中确定与每个所述评估标识相匹配的评估数据。


4.根据权利要求3所述的方法,其特征在于,当所述多个评估标识包括民族评估标识的时候,所述基于预设的多个评估标识,对脱敏数据进行规范化处理,所述规范化处理包括对数据格式进行统一处理,包括:
确定所述脱敏数据中的民族评估标识中除汉族之外的每个民族的数据组数量;
若所述数据组数量小于预设数量,将该数据组数量对应的民族的评估标识改为少数民族。


5.根据权利要求1所述的方法,其特征在于,所述确定每个评估数据集合的风险评估影响因素,包括:
对每个评估数据集合中的数据进行分析处理;
基于数据分析处理的结果,确定每个评估数据集合中的目标数据组的出现次数,其中,所述目标数据组的出现次数小于该评估数据集合中除该目标数据组之外的其他数据组的出现次数;
从所述多个目标数据组中确定计算数据组,其中,所述计算数据组为所述多个目标数据组中出现次数小于其他目标数据组的目标数据组;
确定所述计算数据组的出现次数在脱敏数据中总数据组的数...

【专利技术属性】
技术研发人员:史文钊弓孟春王乐子
申请(专利权)人:神州数码医疗科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1