一种基于数据湖的全生命周期数据销毁方法技术

技术编号:35265914 阅读:13 留言:0更新日期:2022-10-19 10:27
本发明专利技术公开了一种基于数据湖的全生命周期数据销毁方法,建立数据湖,并将数据存储至数据湖中;在数据存入数据湖时,在内存或新增的数据文件中添加删除标记;所述销毁方法包括如下步骤:步骤1:在终端上发送用户注销或者销毁数据的命令,并启动数据删除任务;步骤2:查询元数据,在数据湖中查询待删除的数据;步骤3:根据数据文件中的删除标记对待删除的数据进行删除清理;步骤4:记录删除任务执行的信息,并生成对应的删除日志。本发明专利技术充分利用了数据湖高速upsert的特性,能够正常实现指定结构化、半结构化、非结构化数据删除操作;能够快速实现对于标记个体实例的相关全生命周期数据删除。据删除。据删除。

【技术实现步骤摘要】
一种基于数据湖的全生命周期数据销毁方法


[0001]本专利技术涉及数据存储
,具体涉及一种基于数据湖的全生命周期数据销毁方法。

技术介绍

[0002]近年来,随着互联网应用的普及和大数据产业的发展,给人们生活带来很多便利,但与此同时,个人信息安全也面临着严重的威胁。近年来,与个人信息安全相关的安全规范也以开始实施,其中明确规范了个人信息主体注销账户之后,信息控制者应及时删除其个人信息或匿名化处理。
[0003]现有技术中,往往依靠对象管理数据库自身的能力对信息进行删除,在海量数据中删除特定用户信息对数据库自身性能要求较高,同时,即由于删除数据会影响数据库的使用,所以需要间隔时间进行周期性调度,为删除用户数据提供专门的时间进行处理,还需要启动后台守护删除进程,并长期监控,增加了额外的系统开销。专利CN111339033A介绍了一种基于对象存储的清理过期数据对象方法,但该方法不仅存在上述问题,还存在仅考虑过期数据的清洗,无法应对用户个人信息相关全生命周期数据清洗场景,导致只删除了过期数据,数据清洗不彻底。

技术实现思路

[0004]针对现有技术存在的上述不足,本专利技术的目的在于提供一种基于数据湖的全生命周期数据销毁方法,以解决现有技术中依靠对象管理数据库自身的能力对信息进行删除、对数据库的性能要求较高、需要间隔时间进行周期性调度、还需要启动后台守护删除进程并长期监控、增加了额外的系统开销、数据清洗不彻底的问题。
[0005]为了解决上述技术问题,本专利技术采用如下技术方案:一种基于数据湖的全生命周期数据销毁方法,建立数据湖,并将数据存储至数据湖中;在数据存入数据湖时,在内存或新增的数据文件中添加删除标记;所述销毁方法包括如下步骤:步骤1:在终端上发送用户注销或者销毁数据的命令,并启动数据删除任务;步骤2:查询元数据,在数据湖中查询待删除的数据;步骤3:根据数据文件中的删除标记对待删除的数据进行删除清理;步骤4:记录删除任务执行的信息,并生成对应的删除日志。
[0006]与现有技术相比,本专利技术具有如下有益效果:1、本专利技术所述方法适用于删除个人信息这类需要处理相互关联关系的多表多对象删除场景,且能够删除全生命周期数据;由于数据删除任务的开启依赖于具体的用户注销或其他销毁命令,因此不需要后台守护进程监控数据的状态,减少整体系统资源消耗;本专利技术所述方法删除的数据的过程,优先在内存中操作,通过延迟对IO的操作来大幅提升效率。
[0007]2、本专利技术充分利用了数据湖高速upsert的特性,能够正常实现指定结构化、半结构化、非结构化数据删除操作;能够快速实现对于标记个体实例的相关全生命周期数据删除;对比之前对象存储的删除方式来删除文件,以使用Hudi数据湖为例,实测性能提升约30%。
附图说明
[0008]图1为本专利技术一种基于数据湖的全生命周期数据销毁方法的流程图。
具体实施方式
[0009]为了使本专利技术的实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,所描述的实施例不应视为对本专利技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0010]本专利技术提供了一种基于数据湖的全生命周期数据销毁方法,建立数据湖,并将数据存储至数据湖中;在数据存入数据湖时,在内存或新增的数据文件中添加删除标记。
[0011]其中,数据湖是一个安全的集中式辅助存储库,它以数据原始形式和可用于分析的形式存储所有数据。数据湖可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。在数据湖中的数据是原始数据,是业务数据的完整副本。数据湖中的数据保持了他们在业务系统中原来的样子。数据湖具备完善的数据管理能力(完善的元数据),可以管理各类数据相关的要素,包括数据源、数据格式、连接信息、数据schema、权限管理等。
[0012]所述销毁方法包括如下步骤:步骤1:在终端上发送用户注销或者销毁数据的命令,并启动数据删除任务;步骤2:查询元数据,在数据湖中查询待删除的数据。其中,数据湖根据个人信息标记或者销毁数据命令中的数据标记查询待删除的数据。以删除用户个人数据为例,需要查找元数据中所有标记了个人信息的相关数据对象。
[0013]步骤3:根据数据文件中的删除标记对待删除的数据进行删除清理。在数据存入数据湖时,采用Merge On Read模式进行数据写入,即向表中写数据时,先在内存和新增文件中标记删除标记,然后在下次读取数据时,合并数据文件并生效。在Merge On Read模式中,新增的数据用基于行式存储(如avro),历史数据仍然采用列式存储。增量数据放到append log里,并没有和历史数据进行合并,只有在压缩操作之后,才会与历史文件的合并和更新,因此,在查询数据时,实际是上历史数据与增量数据的合并,这样使得Merge On Read模式能够提供实时数据,同时将历史版本数据和增量日志区分开,能够自主对历史数据和增量日志进行周期性压缩。这种模式能够进行根据实际需要进行优化查询,能够删除全生命周期数据,避免清理数据时出现遗漏。
[0014]步骤4:记录删除任务执行的信息,并生成对应的删除日志。在步骤4中,将每个数据的删除记录在删除日志中,并实时更新整个删除任务的执行状态。所述执行状态包括执行中、成功和失败中的一种。
[0015]本专利技术公开了一种基于数据湖的数据销毁方法,适用于删除个人信息这类需要处理相互关联关系的多表多对象删除场景,且能够删除全生命周期数据。由于数据删除任务的开启依赖于具体的用户注销或其他销毁命令,因此不需要后台守护进程监控数据的状
态,减少整体系统资源消耗。删除的数据的过程,优先在内存中操作,通过延迟对IO的操作来大幅提升效率。本专利技术充分利用了数据湖高速upsert的特性,能够正常实现指定结构化、半结构化、非结构化数据删除操作;能够快速实现对于标记个体实例的相关全生命周期数据删除;对比之前对象存储的删除方式来删除文件,性能有所提升。以使用Hudi数据湖为例,与同等配置条件下集群环境在对象存储库MinIO对比,实测性能提升约30%。
[0016]如上所述,本专利技术的提醒系统不限于所述配置,其他可以实现本专利技术的实施例的系统均可落入本专利技术所保护的范围内。
[0017]最后需要说明的是,以上实施例仅用以说明本专利技术的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本专利技术的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本专利技术的权利要求范围当中。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据湖的全生命周期数据销毁方法,其特征在于,建立数据湖,并将数据存储至数据湖中;在数据存入数据湖时,在内存或新增的数据文件中添加删除标记;所述销毁方法包括如下步骤:步骤1:在终端上发送用户注销或者销毁数据的命令,并启动数据删除任务;步骤2:查询元数据,在数据湖中查询待删除的数据;步骤3:根据数据文件中的删除标记对待删除的数据进行删除清理;步骤4:记录删除任务执行的信息,并生成对应的删除日志。2.根据权利要求1所述基于数据湖的全生命周期数据销毁方法,其特征在于,在步骤2中...

【专利技术属性】
技术研发人员:朱成建
申请(专利权)人:重庆长安汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1