基于数据血缘的数据匿名处理方法、系统、装置及介质制造方法及图纸

技术编号:38460761 阅读:8 留言:0更新日期:2023-08-11 14:37
本发明专利技术公开了基于数据血缘的数据匿名处理方法、系统、装置及介质,其中,方法包括:建立待处理数据的实体关系模型,并确定实体关系模型中各个实体的待匿名字段;确定各待匿名字段之间的血缘关系,并根据血缘关系生成数据血缘图谱;根据实体关系模型和数据血缘图谱对各实体进行实体关联寻址得到多个关联实体集,并根据关联实体集和数据血缘图谱对各待匿名字段进行血缘路径寻址得到匿名处理路径;根据预设的匿名处理要求生成匿名处理路径中各个路径节点的节点操作脚本,进而根据节点操作脚本对待处理数据进行匿名处理。本发明专利技术提高了数据匿名处理的效率和准确性,可广泛应用于数据处理技术领域。技术领域。技术领域。

【技术实现步骤摘要】
基于数据血缘的数据匿名处理方法、系统、装置及介质


[0001]本专利技术涉及数据处理
,尤其是一种基于数据血缘的数据匿名处理方法、系统、装置及介质。

技术介绍

[0002]基于信息安全保护的相关要求,用户有权注销账号并要求删除个人信息,平台或系统在停止提供产品或服务后,需要删除其个人信息或进行匿名化处理。在用户授权平台或系统的信息使用有限期终止或合约到期后,平台或系统也同样需要对用户的个人信息进行删除或匿名化处理。
[0003]复杂业务系统的运行基于大数据平台的底座,良好的数据治理能力是数据仓库建设质量的关键指标之一。数据治理包括数据的生命周期的完整管理、采集、处理以及存储。对于信息的匿名化处理或者特定业务场景下的数据擦除,目前的贴源处理基本依赖业务模块的研发人员所掌握的专业知识,而数据仓库在明细层、分析层的数据分析需要使用者定义大量数据计算和数据处理脚本,加上实时数据仓库的特定垂直需求,不免存在烟囱式的业务跨层取数的场景,导致贴源数据层以上的信息匿名或擦除复杂度增加,影响了数据匿名处理的效率和准确性。

技术实现思路

[0004]本专利技术的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
[0005]为此,本专利技术实施例的一个目的在于提供一种基于数据血缘的数据匿名处理方法,该方法提高了数据匿名处理的效率和准确性。
[0006]本专利技术实施例的另一个目的在于提供一种基于数据血缘的数据匿名处理系统。
[0007]为了达到上述技术目的,本专利技术实施例所采取的技术方案包括:
[0008]第一方面,本专利技术实施例提供了一种基于数据血缘的数据匿名处理方法,包括以下步骤:
[0009]建立待处理数据的实体关系模型,并确定所述实体关系模型中各个实体的待匿名字段;
[0010]确定各所述待匿名字段之间的血缘关系,并根据所述血缘关系生成数据血缘图谱;
[0011]根据所述实体关系模型和所述数据血缘图谱,对各所述实体进行实体关联寻址得到多个关联实体集,并根据所述关联实体集和所述数据血缘图谱,对各所述待匿名字段进行血缘路径寻址,得到匿名处理路径;
[0012]根据预设的匿名处理要求生成所述匿名处理路径中各个路径节点的节点操作脚本,进而根据所述节点操作脚本对所述待处理数据进行匿名处理。
[0013]进一步地,在本专利技术的一个实施例中,所述建立待处理数据的实体关系模型,并确定所述实体关系模型中各个实体的待匿名字段这一步骤,其具体包括:
[0014]对所述待处理数据进行实体标注得到多个实体;
[0015]确定各所述实体之间的关系类型,并根据所述实体和所述关系类型建立所述实体关系模型;
[0016]根据是否需要匿名处理对各所述实体进行字段标注,得到各所述实体对应的待匿名字段。
[0017]进一步地,在本专利技术的一个实施例中,所述确定各所述待匿名字段之间的血缘关系这一步骤,其具体包括:
[0018]根据所述待处理数据的外键关系确定各所述待匿名字段之间的血缘关系;
[0019]或者,根据数据库中已存储的待处理数据的数据关联信息,确定各所述待匿名字段之间的血缘关系;
[0020]或者,根据各所述待匿名字段的字段名和字段注释进行匹配,确定各所述待匿名字段之间的血缘关系;
[0021]或者,计算各所述待匿名字段之间的字段值相似度,并根据所述字段值相似度确定各所述待匿名字段之间的血缘关系;
[0022]或者,通过SQL解析工具对所述处理数据进行语法解析,得到各所述待匿名字段之间的转化关系,并根据所述转化关系确定各所述待匿名字段之间的血缘关系。
[0023]进一步地,在本专利技术的一个实施例中,所述血缘关系包括原子派生关系、计算派生关系以及聚合派生关系。
[0024]进一步地,在本专利技术的一个实施例中,所述实体包括中心实体和非中心实体,所述根据所述实体关系模型和所述数据血缘图谱,对各所述实体进行实体关联寻址得到多个关联实体集这一步骤,其具体包括:
[0025]将含有所述待匿名字段的所述中心实体作为实体寻址起点,对所述实体关系模型的其他实体进行实体关联寻址得到对应所述实体寻址起点的多个关联实体;
[0026]根据所述数据血缘图谱确定所述实体寻址起点中与所述关联实体存在血缘关系的所述待匿名字段,并根据所述关联实体和对应的存在血缘关系的所述待匿名字段生成对应所述实体寻址起点的所述关联实体集;
[0027]将所述关联实体作为新的实体寻址起点,对所述实体关系模型的其他实体进行实体关联寻址,生成对应新的所述实体寻址起点的所述关联实体集。
[0028]进一步地,在本专利技术的一个实施例中,所述根据所述关联实体集和所述数据血缘图谱,对各所述待匿名字段进行血缘路径寻址,得到匿名处理路径这一步骤,其具体包括:
[0029]以所述关联实体集中的所述待匿名字段作为血缘寻址起点,根据所述数据血缘图谱对所述关联实体集中的其他实体进行血缘路径寻址得到对应所述血缘寻址起点的多个下游血缘路径;
[0030]将各所述关联实体中的所述待匿名字段作为路径节点,对所述下游血缘路径进行整合,生成所述匿名处理路径。
[0031]进一步地,在本专利技术的一个实施例中,所述根据预设的匿名处理要求生成所述匿名处理路径中各个路径节点的节点操作脚本,进而根据所述节点操作脚本对所述待处理数据进行匿名处理这一步骤,其具体包括:
[0032]根据预设的匿名处理要求配置各所述路径节点的匿名处理方式;
[0033]根据所述匿名处理方式确定各所述路径节点的数据目标、处理操作以及计算函数,并根据所述数据目标、所述处理操作以及所述计算函数生成所述路径节点的节点操作脚本;
[0034]将各所述路径节点的所述节点操作脚本进行整合,生成数据处理任务,并通过数据处理引擎执行所述数据处理任务,完成对所述待处理数据的匿名处理。
[0035]第二方面,本专利技术实施例提供了一种基于数据血缘的数据匿名处理系统,包括:
[0036]实体关系模型建立模块,用于建立待处理数据的实体关系模型,并确定所述实体关系模型中各个实体的待匿名字段;
[0037]数据血缘图谱生成模块,用于确定各所述待匿名字段之间的血缘关系,并根据所述血缘关系生成数据血缘图谱;
[0038]匿名处理路径确定模块,用于根据所述实体关系模型和所述数据血缘图谱,对各所述实体进行实体关联寻址得到多个关联实体集,并根据所述关联实体集和所述数据血缘图谱,对各所述待匿名字段进行血缘路径寻址,得到匿名处理路径;
[0039]节点操作脚本生成模块,用于根据预设的匿名处理要求生成所述匿名处理路径中各个路径节点的节点操作脚本,进而根据所述节点操作脚本对所述待处理数据进行匿名处理。
[0040]第三方面,本专利技术实施例提供了一种基于数据血缘的数据匿名处理装置,所述数据匿名处理装置包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据血缘的数据匿名处理方法,其特征在于,包括以下步骤:建立待处理数据的实体关系模型,并确定所述实体关系模型中各个实体的待匿名字段;确定各所述待匿名字段之间的血缘关系,并根据所述血缘关系生成数据血缘图谱;根据所述实体关系模型和所述数据血缘图谱,对各所述实体进行实体关联寻址得到多个关联实体集,并根据所述关联实体集和所述数据血缘图谱,对各所述待匿名字段进行血缘路径寻址,得到匿名处理路径;根据预设的匿名处理要求生成所述匿名处理路径中各个路径节点的节点操作脚本,进而根据所述节点操作脚本对所述待处理数据进行匿名处理。2.根据权利要求1所述的一种基于数据血缘的数据匿名处理方法,其特征在于,所述建立待处理数据的实体关系模型,并确定所述实体关系模型中各个实体的待匿名字段这一步骤,其具体包括:对所述待处理数据进行实体标注得到多个实体;确定各所述实体之间的关系类型,并根据所述实体和所述关系类型建立所述实体关系模型;根据是否需要匿名处理对各所述实体进行字段标注,得到各所述实体对应的待匿名字段。3.根据权利要求1所述的一种基于数据血缘的数据匿名处理方法,其特征在于,所述确定各所述待匿名字段之间的血缘关系这一步骤,其具体包括:根据所述待处理数据的外键关系确定各所述待匿名字段之间的血缘关系;或者,根据数据库中已存储的待处理数据的数据关联信息,确定各所述待匿名字段之间的血缘关系;或者,根据各所述待匿名字段的字段名和字段注释进行匹配,确定各所述待匿名字段之间的血缘关系;或者,计算各所述待匿名字段之间的字段值相似度,并根据所述字段值相似度确定各所述待匿名字段之间的血缘关系;或者,通过SQL解析工具对所述处理数据进行语法解析,得到各所述待匿名字段之间的转化关系,并根据所述转化关系确定各所述待匿名字段之间的血缘关系。4.根据权利要求1所述的一种基于数据血缘的数据匿名处理方法,其特征在于:所述血缘关系包括原子派生关系、计算派生关系以及聚合派生关系。5.根据权利要求1所述的一种基于数据血缘的数据匿名处理方法,其特征在于,所述实体包括中心实体和非中心实体,所述根据所述实体关系模型和所述数据血缘图谱,对各所述实体进行实体关联寻址得到多个关联实体集这一步骤,其具体包括:将含有所述待匿名字段的所述中心实体作为实体寻址起点,对所述实体关系模型的其他实体进行实体关联寻址得到对应所述实体寻址起点的多个关联实体;根据所述数据血缘图谱确定所述实体寻址起点中与所述关联实体存在血缘关系的所述待匿名字段,并根据所述关联实体和对应的存在血缘关系的所述待匿名字段生成对应所述实体寻址起点的所述关联实体集;将所述关联实体作为新的实体寻址起点,对所述实体关系模型的其他实体进行实体关<...

【专利技术属性】
技术研发人员:叶小卫沈丽倩朱强朱欣灿吴航波
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1