System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据全生命周期动态自动化管理方法、产品、介质及设备技术_技高网

数据全生命周期动态自动化管理方法、产品、介质及设备技术

技术编号:42662923 阅读:8 留言:0更新日期:2024-09-10 12:20
本发明专利技术公开一种数据全生命周期动态自动化管理方法、产品、介质及设备,涉及大数据存储领域。本发明专利技术首先获取公司服务器资源信息和数据库属性信息并计算数据存储的最优文件大小;通过自然语言解析模型从用户需求中解析出字段映射关系以及建表属性;基于建表属性,利用建表语法生成对应的建表脚本;基于数据库信息创建脚本和目标服务器的连接,用于执行生成的脚本;在完成脚本执行后,基于实时数据监控和数据预测获得数据每日变化清单;根据最优文件大小和数据每日变化清单计算表最优分区策略;根据表最优分区策略进行脚本和数据更新;根据建表属性中的存储时长定期清理过期数据。本发明专利技术能够简化数据管理流程,降低人力成本和中间需求传递的风险。

【技术实现步骤摘要】

本专利技术涉及大数据存储,特别是涉及一种数据全生命周期动态自动化管理方法、产品、介质及设备


技术介绍

1、目前,涉及大数据存储项目的公司往往采用手动处理方式进行数据生命周期管理,在业务需求出现后,首先由设计人员根据业务逻辑生成表字段设计,然后将表字段设计交给开发人员,开发人员根据数据库类型进行对应建表;运维人员增加对该表的数据监控,数据经过长时间存储后,判断是否需要调整分区;判断需要调整分区后,通知开发人员,开发人员经过分析后重建分区。此外,还需要运维人员监控数据保留天数(一般是365天),若存在超期数据,则进行删除。可见数据全生命周期管理需要设计、开发、运维三部门协作,人力成本高,流程复杂,且具有中间需求传递的风险。


技术实现思路

1、本专利技术的目的是提供一种数据全生命周期动态自动化管理方法、产品、介质及设备,以简化数据管理流程,降低人力成本和中间需求传递的风险。

2、为实现上述目的,本专利技术提供了如下方案。

3、一方面,本专利技术提供一种数据全生命周期动态自动化管理方法,包括:

4、通过文件解析函数获取公司服务器资源信息和数据库属性信息;所述服务器资源信息包括服务器数量以及每台服务器的内核数、内存大小和硬盘大小;所述数据库属性信息包括副本数、分区策略以及数据库特性;所述分区策略包括无分区、月分区、周分区和日分区;所述数据库特性包括namenode单位管理文件数、namenode内存大小、datanode个数、datanode对应block默认大小以及datanode最大文件大小;

5、基于服务器资源信息和数据库属性信息计算数据存储的最优文件大小;

6、通过自然语言解析模型从用户需求中解析出字段映射关系以及建表属性;所述字段映射关系包括字段名称、类型、描述以及是否可以为空;所述建表属性包括数据库名、表名、分区键、存储时长以及数据库信息;所述数据库信息包括数据库对应的ip、端口、用户名及密码;

7、基于建表属性,利用建表语法生成对应的建表脚本;

8、基于数据库信息创建脚本和目标服务器的连接,用于执行生成的脚本;

9、在完成脚本执行后,基于实时数据监控和数据预测获得数据每日变化清单;

10、根据最优文件大小和数据每日变化清单计算表最优分区策略;

11、根据表最优分区策略进行脚本和数据更新;

12、根据建表属性中的存储时长定期清理过期数据。

13、可选地,所述基于服务器资源信息和数据库属性信息计算数据存储的最优文件大小,具体包括:

14、基于服务器资源信息确定服务器的默认使用率、硬件条件以及进程繁忙度,并依据公式计算系统资源使用率;

15、基于数据库属性信息,依据公式计算最小文件大小;

16、基于系统资源使用率和最小文件大小,依据公式计算数据存储的最优文件大小;其中表示取最大值。

17、可选地,所述基于实时数据监控和数据预测获得数据每日变化清单,具体包括:

18、采用时序数据库实时监控并记录各个表的数据量变化;

19、完成一个周期监控后,将记录的各个表的数据量变化作为历史数据;

20、通过时序预测算法,以历史数据为基础进行后续日期数据量预测,得到预测数据;

21、基于历史数据和预测数据构建数据每日变化清单。

22、可选地,所述根据最优文件大小和数据每日变化清单计算表最优分区策略,具体包括:

23、根据数据每日变化清单确定第三四分位数对应的日均订单数,并依据公式计算日均存储大小;

24、基于最优文件大小和日均存储大小,依据公式计算分区系数;

25、根据分区系数确定表最优分区策略。

26、可选地,所述根据分区系数确定表最优分区策略,具体包括:

27、当分区系数大于40时,确定表最优分区策略为无分区;

28、当分区系数在10~40之间时,确定表最优分区策略为月分区;

29、当分区系数在2~10之间时,确定表最优分区策略为周分区;

30、当分区系数在0.1~2之间时,确定表最优分区策略为日分区;

31、当分区系数小于0.1时,则根据业务系统进行分区拆分。

32、可选地,所述根据表最优分区策略进行脚本和数据更新,具体包括:

33、当表最优分区策略和现有分区策略不一致时,则修改对应分区字段进行脚本更新;

34、连接数据库,将历史表重命名为备份表,将原表名空出来;

35、根据新脚本创建新表,新表仍使用原表名,将备份表中的数据导入新表中完成数据更新。

36、可选地,所述根据建表属性中的存储时长定期清理过期数据,具体包括:

37、根据存储时长计算各表中数据对应的最早日期;

38、读取对应表在数据库中的实际分区;

39、判断实际分区日期中是否存在超过最早日期的数据,若存在,则删除。

40、另一方面,本专利技术还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现所述数据全生命周期动态自动化管理方法。

41、另一方面,本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述数据全生命周期动态自动化管理方法。

42、再一方面,本专利技术还提供一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现所述数据全生命周期动态自动化管理方法。

43、根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:

44、传统的数据存储相关功能往往采用手动方式实现,而本专利技术方法将多个部门手动分散实现的内容进行自动化融合,将原本需要设计、开发、运维三部门协作的复杂流程,缩减到设计部门直接配置即可,简化了数据管理流程,降低了中间需求传递的风险;并且整个方法的执行只需要设计部门进行前期配置即可自动执行,开发和运维部门不需要参与,从而极大降低了人力成本。并且,本专利技术方法能够实现自动化建表、数据监控分析、动态分区调整以及自动化清洗过期数据,提升了存储系统稳定性,降低了运维风险,能够提供更好的数据存储服务。

本文档来自技高网...

【技术保护点】

1.一种数据全生命周期动态自动化管理方法,其特征在于,包括:

2.根据权利要求1所述的数据全生命周期动态自动化管理方法,其特征在于,所述基于实时数据监控和数据预测获得数据每日变化清单,具体包括:

3.根据权利要求1所述的数据全生命周期动态自动化管理方法,其特征在于,所述根据分区系数确定表最优分区策略,具体包括:

4.根据权利要求3所述的数据全生命周期动态自动化管理方法,其特征在于,所述根据表最优分区策略进行脚本和数据更新,具体包括:

5.根据权利要求1所述的数据全生命周期动态自动化管理方法,其特征在于,所述根据建表属性中的存储时长定期清理过期数据,具体包括:

6.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5中任一项所述的数据全生命周期动态自动化管理方法。

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5中任一项所述的数据全生命周期动态自动化管理方法。

8.一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-5中任一项所述的数据全生命周期动态自动化管理方法。

...

【技术特征摘要】

1.一种数据全生命周期动态自动化管理方法,其特征在于,包括:

2.根据权利要求1所述的数据全生命周期动态自动化管理方法,其特征在于,所述基于实时数据监控和数据预测获得数据每日变化清单,具体包括:

3.根据权利要求1所述的数据全生命周期动态自动化管理方法,其特征在于,所述根据分区系数确定表最优分区策略,具体包括:

4.根据权利要求3所述的数据全生命周期动态自动化管理方法,其特征在于,所述根据表最优分区策略进行脚本和数据更新,具体包括:

5.根据权利要求1所述的数据全生命周期动态自动化管理方法,其特征在于,所述根据建表属性中的...

【专利技术属性】
技术研发人员:杨玉麟孙宇声范世昌
申请(专利权)人:陆泽科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1