冷数据清理方法、装置、设备及存储介质制造方法及图纸

技术编号:33205778 阅读:44 留言:0更新日期:2022-04-24 00:51
本发明专利技术涉及人工智能领域,公开了一种冷数据清理方法、装置、设备及存储介质,用于提高冷数据清理的效率。冷数据清理方法包括:对初始日志数据进行预处理,得到预处理日志数据,对预处理日志数据进行解析,得到解析结果;对解析结果进行分类处理,得到结构化查询信息,提取结构化查询信息中每一个请求表对应的请求时间,计算得到多个请求时间差值;将多个请求时间差值分别与预设的时间差阈值进行对比,得到对比结果,确定结构化查询信息中的冷数据,得到初始冷数据;对初始冷数据进行监控,基于监控结果确定目标冷数据并进行清理处理。此外,本发明专利技术还涉及区块链技术,清理后的数据可存储于区块链中。存储于区块链中。存储于区块链中。

【技术实现步骤摘要】
冷数据清理方法、装置、设备及存储介质


[0001]本专利技术涉及分类算法领域,尤其涉及一种冷数据清理方法、装置、设备及存储介质。

技术介绍

[0002]大数据时代时时刻刻都有新的数据产生,数据正在呈几何倍数爆炸式增长,如何存储、管理和使用这些数据,是现代企业面临的难题。这些数据可以被称作“冷数据”,即是那些不经常访问、但又不能立即删除的信息,比如用户在社交媒体上存储的大量信息、企业备份数据、业务与操作日志数据、话单与统计数据等信息。
[0003]面对企业日益增加的数据,需要通过智能化的方法识别冷数据,在外部系统无影响情况下,进行冷数据的清理,降低大数据平台存储告警,现有的技术中,不能实时对冷数据进行识别和自动化清理,导致冷数据清理的效率低下。

技术实现思路

[0004]本专利技术提供了一种冷数据清理方法、装置、设备及存储介质,用于通过预置的解析工具对预处理日志数据进行解析,得到解析结果,对解析结果进行分类处理,得到结构化查询信息,提取结构化查询信息中每一个请求表对应的请求时间,计算得到多个请求时间差值,将多个请求时间差值与分别与预设的时间差阈值进行对比,得到对比结果,基于对比结果确定结构化查询信息中的冷数据,提高了冷数据清理的效率。
[0005]本专利技术第一方面提供了一种冷数据清理方法,包括:从预置的数据库中获取初始日志数据,对所述初始日志数据进行预处理,得到预处理日志数据,调用预置的解析工具对所述预处理日志数据进行解析,得到解析结果;对所述解析结果进行分类处理,得到结构化查询信息,提取所述结构化查询信息中每一个请求表对应的请求时间,基于所述每一个请求表对应的请求时间计算得到多个请求时间差值;将所述多个请求时间差值分别与预设的时间差阈值进行对比,得到对比结果,基于所述对比结果确定结构化查询信息中的冷数据,得到初始冷数据;调用预置的数据监控仪对所述初始冷数据进行监控,得到监控结果,基于所述监控结果确定目标冷数据,对所述目标冷数据进行清理处理。
[0006]可选的,在本专利技术第一方面的第一种实现方式中,所述从预置的数据库中获取初始日志数据,对所述初始日志数据进行预处理,得到预处理日志数据,调用预置的解析工具对所述预处理日志数据进行解析,得到解析结果包括:从预置的数据库中获取初始日志数据,对所述初始日志数据进行缺失值补全、异常值过滤和重复值过滤,得到预处理日志数据,所述预处理日志数据包括请求库表、请求字段、插入库、插入字段和限制条件;调用预置的解析工具,将所述预处理日志数据转换为抽象语法树,对所述抽象语法树进行遍历处理,得到解析结果。
[0007]可选的,在本专利技术第一方面的第二种实现方式中,所述调用预置的解析工具,将所述预处理日志数据转换为抽象语法树,对所述抽象语法树进行遍历处理,得到解析结果包
括:调用预置的语法解析工具,对所述预处理日志数据依次进行词法解析和语法解析,得到抽象语法树,所述语法解析工具包括词法分析器和语法分析器;调用预置的遍历算法,对所述抽象语法树进行遍历处理,得到解析结果。
[0008]可选的,在本专利技术第一方面的第三种实现方式中,所述对所述解析结果进行分类处理,得到结构化查询信息,提取所述结构化查询信息中每一个请求表对应的请求时间,基于所述每一个请求表对应的请求时间计算得到多个请求时间差值包括:调用预置的分类算法,对所述解析结果进行分类处理,得到结构化查询信息,所述结构化查询信息包括插入库、插入表、请求库、请求表和请求时间;获取所述结构化查询信息中每一个请求表对应的请求时间和所述结构化查询信息中的解析开始时间,计算所述每一个请求表对应的请求时间和所述解析开始时间的差值,得到多个请求时间差值。
[0009]可选的,在本专利技术第一方面的第四种实现方式中,所述将所述多个请求时间差值分别与预设的时间差阈值进行对比,得到对比结果,基于所述对比结果确定结构化查询信息中的冷数据,得到初始冷数据包括:将所述多个请求时间差值与分别预设的时间差阈值进行对比,得到对比结果,提取所述对比结果中的目标结果,所述目标结果为请求时间差值大于或等于时间差阈值对应的对比结果;获取所述目标结果对应的请求表,得到目标请求表,将所述目标请求表对应的所有数据确定为初始冷数据。
[0010]可选的,在本专利技术第一方面的第五种实现方式中,所述获取所述目标结果对应的请求表,得到目标请求表,将所述目标请求表对应的所有数据确定为初始冷数据还包括:获取所述目标结果对应的请求表,调用预置的修改工具,对所述目标结果对应的请求表的表名进行修改,得到目标请求表;将所述目标请求表对应的所有数据确定为初始冷数据。
[0011]可选的,在本专利技术第一方面的第六种实现方式中,所述调用预置的数据监控仪对所述初始冷数据进行监控,得到监控结果,基于所述监控结果确定目标冷数据,对所述目标冷数据进行清理处理包括:调用预置的数据监控仪,在预设时间范围内对所述初始冷数据进行监控,得到监控结果,所述监控结果包括告警结果和未告警结果;将所述监控结果为未告警结果对应的初始冷数据确定为目标冷数据,调用预置的清理策略对所述目标冷数据进行清理处理,所述清理策略包括清理条件和清理方式。
[0012]本专利技术第二方面提供了一种冷数据清理装置,包括:预处理模块,用于从预置的数据库中获取初始日志数据,对所述初始日志数据进行预处理,得到预处理日志数据,调用预置的解析工具对所述预处理日志数据进行解析,得到解析结果;分类模块,用于对所述解析结果进行分类处理,得到结构化查询信息,提取所述结构化查询信息中每一个请求表对应的请求时间,基于所述每一个请求表对应的请求时间计算得到多个请求时间差值;对比模块,用于将所述多个请求时间差值分别与预设的时间差阈值进行对比,得到对比结果,基于所述对比结果确定结构化查询信息中的冷数据,得到初始冷数据;监控模块,用于调用预置的数据监控仪对所述初始冷数据进行监控,得到监控结果,基于所述监控结果确定目标冷数据,对所述目标冷数据进行清理处理。
[0013]可选的,在本专利技术第二方面的第一种实现方式中,所述预处理模块包括:获取单元,用于从预置的数据库中获取初始日志数据,对所述初始日志数据进行缺失值补全、异常值过滤和重复值过滤,得到预处理日志数据,所述预处理日志数据包括请求库表、请求字段、插入库、插入字段和限制条件;遍历单元,用于调用预置的解析工具,将所述预处理日志
数据转换为抽象语法树,对所述抽象语法树进行遍历处理,得到解析结果。
[0014]可选的,在本专利技术第二方面的第二种实现方式中,所述遍历单元具体用于:调用预置的语法解析工具,对所述预处理日志数据依次进行词法解析和语法解析,得到抽象语法树,所述语法解析工具包括词法分析器和语法分析器;调用预置的遍历算法,对所述抽象语法树进行遍历处理,得到解析结果。
[0015]可选的,在本专利技术第二方面的第三种实现方式中,所述分类模块包括:分类单元,用于调用预置的分类算法,对所述解析结果进行分类处理,得到结构化查询信息,所述结构化查询信息包括插入库、插入表、请求库、请求表和请求时间;计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种冷数据清理方法,其特征在于,所述冷数据清理方法包括:从预置的数据库中获取初始日志数据,对所述初始日志数据进行预处理,得到预处理日志数据,调用预置的解析工具对所述预处理日志数据进行解析,得到解析结果;对所述解析结果进行分类处理,得到结构化查询信息,提取所述结构化查询信息中每一个请求表对应的请求时间,基于所述每一个请求表对应的请求时间计算得到多个请求时间差值;将所述多个请求时间差值分别与预设的时间差阈值进行对比,得到对比结果,基于所述对比结果确定结构化查询信息中的冷数据,得到初始冷数据;调用预置的数据监控仪对所述初始冷数据进行监控,得到监控结果,基于所述监控结果确定目标冷数据,对所述目标冷数据进行清理处理。2.根据权利要求1所述的冷数据清理方法,其特征在于,所述从预置的数据库中获取初始日志数据,对所述初始日志数据进行预处理,得到预处理日志数据,调用预置的解析工具对所述预处理日志数据进行解析,得到解析结果包括:从预置的数据库中获取初始日志数据,对所述初始日志数据进行缺失值补全、异常值过滤和重复值过滤,得到预处理日志数据,所述预处理日志数据包括请求库表、请求字段、插入库、插入字段和限制条件;调用预置的解析工具,将所述预处理日志数据转换为抽象语法树,对所述抽象语法树进行遍历处理,得到解析结果。3.根据权利要求2所述的冷数据清理方法,其特征在于,所述调用预置的解析工具,将所述预处理日志数据转换为抽象语法树,对所述抽象语法树进行遍历处理,得到解析结果包括:调用预置的语法解析工具,对所述预处理日志数据依次进行词法解析和语法解析,得到抽象语法树,所述语法解析工具包括词法分析器和语法分析器;调用预置的遍历算法,对所述抽象语法树进行遍历处理,得到解析结果。4.根据权利要求1所述的冷数据清理方法,其特征在于,所述对所述解析结果进行分类处理,得到结构化查询信息,提取所述结构化查询信息中每一个请求表对应的请求时间,基于所述每一个请求表对应的请求时间计算得到多个请求时间差值包括:调用预置的分类算法,对所述解析结果进行分类处理,得到结构化查询信息,所述结构化查询信息包括插入库、插入表、请求库、请求表和请求时间;获取所述结构化查询信息中每一个请求表对应的请求时间和所述结构化查询信息中的解析开始时间,计算所述每一个请求表对应的请求时间和所述解析开始时间的差值,得到多个请求时间差值。5.根据权利要求1所述的冷数据清理方法,其特征在于,所述将所述多个请求时间差值分别与预设的时间差阈值进行对比,得到对比结果,基于所述对比结果确定结构化查询信息中的冷数据,得到初始冷数据包括:将所述多个请求时...

【专利技术属性】
技术研发人员:邓成杨谢小娟
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1