【技术实现步骤摘要】
一种用于数据表的个人信息披露情况统计分析方法及系统
[0001]本方案属于个人信息安全
,提出一种用于数据表的个人信息披露情况统计分析方法及系统。
技术介绍
[0002]依据《信息安全技术个人信息去标识化指南》,个人信息指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反应特定自然人活动状况的各种信息。个人信息标识的自然人称为个人信息主体。微数据指一个结构化数据表,其中每条(行)记录对应一个个人信息主体,记录的每个字段(列)对应一个属性。标识符为微数据中的一个或多个属性,可以实现对个人信息主体的唯一识别,分为直接标识符和准标识符。直接标识符指在特定环境下可以单独识别个人信息主体的微数据属性,常见的直接标识符比如姓名、身份证、手机号码等。准标识符指不可单独用来识别个人,但结合其他属性可唯一识别个人信息主体的微数据属性,常见的准标识符比如性别、职业、学历等。数据平台在数据表发布前常会对数据表内容进行去标识化处理,去标识化处理即通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。在无直接标识符披露的数据表中准标识符取值相同的记录行构成等价类,等价类大小即为所有准标识符取值均相同的记录行的数量,其决定记录行对应个人被重标识的风险;等价类维度为形成该等价类的准标识符的数量,其衡量的是记录行包含个人信息的种类的多少,维度越高,则可披露的个人信息越多。而重标识则是把去标识化的数据表重新关联到原始个人信息主体或一组个人信息主体的过程。对于待去标识化的数据表,由于数据表下的 ...
【技术保护点】
【技术特征摘要】
1.一种用于数据表的个人信息披露情况统计分析方法,其特征在于,包括:S1.获取待分析数据表;S2.清理待分析数据表并对清理后的待分析数据表制作元数据目录;所述元数据目录的每一条目对应于一待分析数据表,包括相应待分析数据表的字段名集合以及用于指向相应待分析数据表的映射代码;S3.基于映射代码匹配每一条目的待分析数据表;对每一条目的字段名集合完成以相应数据表各字段取值信息为特征向量的关于字段标识符类型的初步分类标注,并筛选元数据目录中与个人信息相关的条目;S4.基于步骤S3的筛选结果提取对应的个人信息相关数据表,对所述的个人信息相关数据表中字段名的字段值进行全面识别;S5.根据数据表是否存在含直接标识符信息的记录行将个人信息相关数据表分类为类型一数据表和类型二数据表;S6.根据数据表内记录行是否含有直接标识符信息将类型一数据表在记录行层级拆分重组为完全由含有直接标识符信息的记录行构成的A类数据表和不含有直接标识符信息构成的B类数据表;将类型二数据表归类为B类数据表;S7.对A类数据表和B类数据表分别进行统计分析以对待分析数据表的个人信息披露情况进行统计分析。2.根据权利要求1所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S2中,对待分析数据表的清理包括字段错位修正、字段名完善、字段名转换和特殊字符处理中的任意一种或多种的组合,以使被清理后的数据表每个字段名存在且与字段值对应,字段名以中文字符为主且字段中的特殊字符被去除;所述的元数据目录中,每一条目还包括相应待分析数据表的数据表标题、网页链接、数据表文件名以及包含领域标注信息的数据表相关信息中的任意一种或多种;将每个待分析数据表的映射代码、字段名集合、数据表标题、网页链接、数据表文件名以及数据表相关信息建立映射以整合成所述的元数据目录。3.根据权利要求1所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S3具体包括:S31.获取各条目中各字段名集合的字段取值特征;S32.将字段名所在条目的数据表标题、数据表领域标注进行文本向量化,将字段集合的字段取值特征进行向量化,并将各向量特征合并;S33.将合并的向量化特征输入至经过训练的机器学习分类模型,模型输出各字段的标识符类型标注;S34.根据标识符类型标注判断相应条目是否与个人信息相关,以对元数据目录筛选与个人信息相关的条目。4.根据权利要求4所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S33中,可被标注的标识符类型有直接标识符、去标识化的标识符、准标识符、非标识符;步骤S34中,当一个条目中的字段存在直接标识符、准标识符和去标识化标识符三者之
一时判断该条目指向的数据表与个人信息相关。5.根据权利要求4所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S4中,全面识别的方式如下:对于直接标识符,使用正则表达式对严格遵循一定构成模式的信息进行识别;使用命名实体识别方法对描述性文本中不具有严格构成模式的信息进行识别和提取;对于准标识符,依据个人信息参考文件,使用基于关键词词库的元数据识别技术进行识别匹配;对于被去标识化的标识符,检测其去标识化程度。6.根据权利要求1所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,对于A类数据表,根据设定进行信息披露情况统计分析;对于B类数据表,依照重标识风险的计...
【专利技术属性】
技术研发人员:廖佳纯,陈海粟,姚思诚,焦文品,张磊,
申请(专利权)人:南湖实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。