当前位置: 首页 > 专利查询>南湖实验室专利>正文

一种用于数据表的个人信息披露情况统计分析方法及系统技术方案

技术编号:37965262 阅读:12 留言:0更新日期:2023-06-30 09:40
本方案公开了一种用于数据表的个人信息披露情况统计分析方法及系统,提出了一种新的数据处理方法,对数据表制作数据目录,并基于数据目录对个人信息相关数据表进行初步标注和分类,然后再对筛选出来的个人信息相关数据表进行字段内容的全面识别,准确且高效地完成字段标识符的标注;在前述处理基础上,依据是否存在直接标识符信息记录行将数据表进行划分,依据是否含有直接标识符信息记录行对数据表进行拆分重组,能够有效提高后续处理分析和统计效率;在前述处理基础上,采用逐层分类方法分析数据表,并从多个维度进行统计分析,自动化生成个人信息披露情况结果报表,从而全面完整地刻画平台的个人信息披露情况。完整地刻画平台的个人信息披露情况。完整地刻画平台的个人信息披露情况。

【技术实现步骤摘要】
一种用于数据表的个人信息披露情况统计分析方法及系统


[0001]本方案属于个人信息安全
,提出一种用于数据表的个人信息披露情况统计分析方法及系统。

技术介绍

[0002]依据《信息安全技术个人信息去标识化指南》,个人信息指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反应特定自然人活动状况的各种信息。个人信息标识的自然人称为个人信息主体。微数据指一个结构化数据表,其中每条(行)记录对应一个个人信息主体,记录的每个字段(列)对应一个属性。标识符为微数据中的一个或多个属性,可以实现对个人信息主体的唯一识别,分为直接标识符和准标识符。直接标识符指在特定环境下可以单独识别个人信息主体的微数据属性,常见的直接标识符比如姓名、身份证、手机号码等。准标识符指不可单独用来识别个人,但结合其他属性可唯一识别个人信息主体的微数据属性,常见的准标识符比如性别、职业、学历等。数据平台在数据表发布前常会对数据表内容进行去标识化处理,去标识化处理即通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。在无直接标识符披露的数据表中准标识符取值相同的记录行构成等价类,等价类大小即为所有准标识符取值均相同的记录行的数量,其决定记录行对应个人被重标识的风险;等价类维度为形成该等价类的准标识符的数量,其衡量的是记录行包含个人信息的种类的多少,维度越高,则可披露的个人信息越多。而重标识则是把去标识化的数据表重新关联到原始个人信息主体或一组个人信息主体的过程。对于待去标识化的数据表,由于数据表下的同一等价类中各记录行不可区分,故同一等价类中各记录行对应的个人被重标识的概率,即记录行的重标识风险,为等价类大小的倒数。
[0003][0004]R
b
=max
j∈J
θ
j
ꢀꢀꢀꢀꢀꢀ
公式2
[0005]式中:J为等价类,j∈J,f
j
为等价类大小,θ
j
为重标识概率,|J|表示数据表中等价类的个数,R
b
为重标识概率最大值。
[0006]在对某平台公开的数据表进行个人信息披露情况分析时通常至少包括数据分类、数据内容识别两部分:
[0007]1)数据分类,根据特定管理或业务选定的维度,将具有相似属性或特征的数据按照一定的原则和方法进行归类,数据分类任务可以对数据表集合进行分类,按照公民个人维度可以将数据分为个人信息和非个人信息。目前常见的数据分类任务主要依靠自动化工具或人工进行数据分类打标,人工分类标注较为精准但会显著增加任务周期,而全自动化的标注方法对数据表质量要求较高,现实情况下数据表的质量通常无法满足要求。
[0008]2)数据内容识别,完成对数据表中数据字段涉及信息类型的识别,主要是对数据表中的敏感信息进行识别。传统的数据内容识别方式主要采用基于人工定义及正则表达式
两种方式。人工定义的方法为人工定敏感词词库,使用关键词匹配对数据表在元数据层级进行信息识别,同样对于数据表质量要求较高,若数据字段存在错位或字段名与字段内容不匹配等情况,则该方法的应用在识别可信程度上受限。正则表达式方法对于具有结构化特征的数据信息如手机号、身份证和银行卡号较为适配,但对于非结构化的文本信息中的敏感信息如姓名等则无法通过进行该方法来完成识别,以及对于非结构化的长文本中混杂的构成模式相对简单的信息无法进行准确的识别提取,如长文本段落中混杂的手机号号码等。
[0009]综上,现有技术存在如下缺陷:
[0010]现实场景中数据表存在数据格式复杂、字段不可信,以及结构化表格随机嵌套非结构化内容等不合规的客观情况,使分类和识别工作较难展开:随着信息处理和存储技术的不断发展,我国个人信息滥用问题日趋严重。在特定的数据资源平台的发布场景下,其中获取到的数据表中常常会出现个人信息匿名化不到位导致个人信息披露的情况,又因数据表的来源多样化,缺少统一标准,且其数据字段内容及字段目录往往未经验证,或存在字段名与字段内容不匹配和字段间信息内容混杂等不合规情况,传统的分类和识别任务较难直接开展。

技术实现思路

[0011]本方案的目的是针对上述问题,提供一种用于数据表的个人信息披露情况统计分析方法及系统,令特定数据资源平台管理者使用本专利技术的系统通过本专利技术的方法流程能够高效且准确地洞悉当前平台场景中资源发布的与个人相关的隐私信息披露的情况、数据表潜在的重标识风险以及可实现的重标识情况。
[0012]一种用于数据表的个人信息披露情况统计分析方法,包括:
[0013]S1.获取待分析数据表;
[0014]S2.清理待分析数据表并对清理后的待分析数据表制作元数据目录;
[0015]所述元数据目录的每一条目对应于一待分析数据表,包括相应待分析数据表的字段名集合以及用于指向相应待分析数据表的映射代码;以目录表为例,一行对应一个条目,当待分析数据表只有一个时,则该元数据目录表只有一行;
[0016]S3.基于映射代码匹配每一条目的待分析数据表;对元数据目录的字段名集合完成对相应数据表各字段值关于字段标识符类型的初步分类标注,并筛选元数据目录中与个人信息相关的条目;
[0017]S4.基于步骤S3的筛选结果提取对应的个人信息相关数据表,对所述的个人信息相关数据表中字段名的字段值进行全面识别;
[0018]S5.根据是否存在含直接标识符信息的记录行将个人信息相关数据表分类为类型一数据表和类型二数据表;
[0019]S6.根据数据表内记录行是否含有直接标识符信息可识别信息将类型一数据表在记录行层级拆分重组为完全由含有直接标识符可识别信息的记录行构成的A类数据表和不含有直接标识符可识别信息构成的B类数据表;;
[0020]将类型二数据表归类为B类数据表;
[0021]S7.对A类数据表和B类数据表分别进行统计分析以对待分析数据表的个人信息披
露情况进行统计分析。
[0022]在上述的用于数据表的个人信息披露情况统计分析方法中,步骤S2中,对待分析数据表的清理包括字段错位修正、字段名完善、字段名转换和特殊字符处理中的任意一种或多种的组合,以使被清理后的数据表每个字段名存在且与字段值对应,字段名以中文字符为主且字段中的特殊字符被去除;这里的特殊字符主要有空格、换行符等特殊字符;
[0023]所述的元数据目录中,每一条目还包括相应待分析数据表的数据表标题、网页链接、数据表文件名以及包含领域标注信息的数据表相关信息中的任意一种或多种的组合;
[0024]将每个待分析数据表的映射代码、字段名集合、数据表标题、网页链接、数据表文件名以及数据表相关信息建立映射以整合成所述的元数据目录。
[0025]在上述的用于数据表的个人信息披露情况统计分析方法中,步骤S3具体包括:
[0026]S31.获取各条目中各字段名集合的字段取值特征,包括字段唯一值取值占比、采样样本的各种字符类型占比分布、字段数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于数据表的个人信息披露情况统计分析方法,其特征在于,包括:S1.获取待分析数据表;S2.清理待分析数据表并对清理后的待分析数据表制作元数据目录;所述元数据目录的每一条目对应于一待分析数据表,包括相应待分析数据表的字段名集合以及用于指向相应待分析数据表的映射代码;S3.基于映射代码匹配每一条目的待分析数据表;对每一条目的字段名集合完成以相应数据表各字段取值信息为特征向量的关于字段标识符类型的初步分类标注,并筛选元数据目录中与个人信息相关的条目;S4.基于步骤S3的筛选结果提取对应的个人信息相关数据表,对所述的个人信息相关数据表中字段名的字段值进行全面识别;S5.根据数据表是否存在含直接标识符信息的记录行将个人信息相关数据表分类为类型一数据表和类型二数据表;S6.根据数据表内记录行是否含有直接标识符信息将类型一数据表在记录行层级拆分重组为完全由含有直接标识符信息的记录行构成的A类数据表和不含有直接标识符信息构成的B类数据表;将类型二数据表归类为B类数据表;S7.对A类数据表和B类数据表分别进行统计分析以对待分析数据表的个人信息披露情况进行统计分析。2.根据权利要求1所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S2中,对待分析数据表的清理包括字段错位修正、字段名完善、字段名转换和特殊字符处理中的任意一种或多种的组合,以使被清理后的数据表每个字段名存在且与字段值对应,字段名以中文字符为主且字段中的特殊字符被去除;所述的元数据目录中,每一条目还包括相应待分析数据表的数据表标题、网页链接、数据表文件名以及包含领域标注信息的数据表相关信息中的任意一种或多种;将每个待分析数据表的映射代码、字段名集合、数据表标题、网页链接、数据表文件名以及数据表相关信息建立映射以整合成所述的元数据目录。3.根据权利要求1所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S3具体包括:S31.获取各条目中各字段名集合的字段取值特征;S32.将字段名所在条目的数据表标题、数据表领域标注进行文本向量化,将字段集合的字段取值特征进行向量化,并将各向量特征合并;S33.将合并的向量化特征输入至经过训练的机器学习分类模型,模型输出各字段的标识符类型标注;S34.根据标识符类型标注判断相应条目是否与个人信息相关,以对元数据目录筛选与个人信息相关的条目。4.根据权利要求4所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S33中,可被标注的标识符类型有直接标识符、去标识化的标识符、准标识符、非标识符;步骤S34中,当一个条目中的字段存在直接标识符、准标识符和去标识化标识符三者之
一时判断该条目指向的数据表与个人信息相关。5.根据权利要求4所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S4中,全面识别的方式如下:对于直接标识符,使用正则表达式对严格遵循一定构成模式的信息进行识别;使用命名实体识别方法对描述性文本中不具有严格构成模式的信息进行识别和提取;对于准标识符,依据个人信息参考文件,使用基于关键词词库的元数据识别技术进行识别匹配;对于被去标识化的标识符,检测其去标识化程度。6.根据权利要求1所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,对于A类数据表,根据设定进行信息披露情况统计分析;对于B类数据表,依照重标识风险的计...

【专利技术属性】
技术研发人员:廖佳纯陈海粟姚思诚焦文品张磊
申请(专利权)人:南湖实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1