System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理方法、装置、计算机设备和存储介质制造方法及图纸_技高网

数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:44089642 阅读:2 留言:0更新日期:2025-01-21 12:26
本申请公开一种数据处理方法、装置、计算机设备和存储介质,涉及数据处理和数据库优化技术领域,可以解决现有技术中无法根据分区的特性来动态调整压缩策略,从而影响数据存储速度和存储空间利用率的问题,该方法包括:将目标分区在当前时间段的目标数据特征输入预设预测模型进行预测,得到目标分区在下一时间段对应的查询频率;基于查询频率所属的频率范围,确定目标分区在下一时间段对应的压缩策略;基于压缩策略调整目标分区的压缩率。

【技术实现步骤摘要】

本申请涉及数据处理和数据库优化,特别是涉及一种数据处理方法、装置、计算机设备和存储介质


技术介绍

1、随着数据量的迅速增长,数据压缩成为提高数据存储效率和降低存储成本的重要手段。在数据库系统starrocks中,对各个分区的数据进行压缩可以显著减少存储空间需求,同时也有助于提高查询性能。然而,现有的数据库系统中各个分区通常都使用固定的压缩策略,无法根据分区的特性来动态调整压缩策略,从而影响数据存储速度和存储空间利用率。


技术实现思路

1、本申请提供了一种数据处理方法、装置、计算机设备和存储介质,解决现有技术中无法根据分区的特性来动态调整压缩策略,从而影响数据存储速度和存储空间利用率的问题。

2、第一方面,提供一种数据处理方法,所述方法包括:

3、将目标分区在当前时间段的目标数据特征输入预设预测模型进行预测,得到所述目标分区在下一时间段对应的查询频率;

4、基于所述查询频率所属的频率范围,确定所述目标分区在所述下一时间段对应的压缩策略;

5、基于所述压缩策略调整所述目标分区的压缩率。

6、在一个实施例中,所述将目标分区在当前时间段的目标数据特征输入预设预测模型进行预测之前,还包括:

7、获取各个分区各自的历史查询日志和分区信息;

8、从各个历史查询日志和各个分区信息中提取出各个所述分区各自对应的历史数据特征;

9、获取各个历史数据特征各自对应的第一压缩策略标签;

10、基于各个所述历史数据特征和各个所述历史数据特征各自对应的第一压缩策略标签对初始预测模型进行训练,得到所述预设预测模型。

11、在一个实施例中,所述历史数据特征至少包括查询分区、查询频率、查询复杂度、查询数据范围、数据量和数据更新频率中的一种或多种。

12、在一个实施例中,所述频率范围至少包括:第一频率范围和第二频率范围,其中,所述第二频率范围的最小值大于所述第一频率范围的最大值。

13、在一个实施例中,所述基于所述查询频率所属的频率范围,确定所述目标分区在所述下一时间段对应的压缩策略,包括:

14、在所述查询频率属于所述第一频率范围时,确定所述目标分区在所述下一时间段对应的压缩策略为压缩率属于第一压缩率范围;

15、在所述查询频率属于所述第二频率范围时,确定所述目标分区在所述下一时间段对应的压缩策略为压缩率属于第二压缩率范围;其中,所述第二压缩率范围的最大值小于所述第一压缩率范围的最小值。

16、在一个实施例中,所述基于所述压缩策略调整所述目标分区的压缩率,包括:

17、获取分区列表;

18、调用数据库系统的管理命令,基于所述管理命令和所述压缩策略调整所述分区列表中所述目标分区对应的压缩率。

19、在一个实施例中,所述方法还包括:

20、响应于接收到所述预设预测模型的更新指令,重新获取各个历史数据特征各自对应的第二压缩策略标签;

21、基于各个所述历史数据特征和各个所述历史数据特征各自对应的第二压缩策略标签对所述预设预测模型进行训练,得到更新后的预设预测模型。

22、第二方面,本申请提供了一种数据处理装置,所述装置包括:

23、预测模块,用于将目标分区在当前时间段的目标数据特征输入预设预测模型进行预测,得到所述目标分区在下一时间段对应的查询频率;

24、确定模块,用于基于所述查询频率所属的频率范围,确定所述目标分区在所述下一时间段对应的压缩策略;

25、调整模块,用于基于所述压缩策略调整所述目标分区的压缩率。

26、在一个实施例中,所述预测模块还用于:

27、获取各个分区各自的历史查询日志和分区信息;

28、从各个历史查询日志和各个分区信息中提取出各个所述分区各自对应的历史数据特征;

29、获取各个历史数据特征各自对应的第一压缩策略标签;

30、基于各个所述历史数据特征和各个所述历史数据特征各自对应的第一压缩策略标签对初始预测模型进行训练,得到所述预设预测模型。

31、在一个实施例中,所述历史数据特征至少包括查询分区、查询频率、查询复杂度、查询数据范围、数据量和数据更新频率中的一种或多种。

32、在一个实施例中,所述频率范围至少包括:第一频率范围和第二频率范围,其中,所述第二频率范围的最小值大于所述第一频率范围的最大值。

33、在一个实施例中,所述确定模块具体用于:

34、在所述查询频率属于所述第一频率范围时,确定所述目标分区在所述下一时间段对应的压缩策略为压缩率属于第一压缩率范围;

35、在所述查询频率属于所述第二频率范围时,确定所述目标分区在所述下一时间段对应的压缩策略为压缩率属于第二压缩率范围;其中,所述第二压缩率范围的最大值小于所述第一压缩率范围的最小值。

36、在一个实施例中,所述调整模块具体用于:

37、获取分区列表;

38、调用数据库系统的管理命令,基于所述管理命令和所述压缩策略调整所述分区列表中所述目标分区对应的压缩率。

39、在一个实施例中,所述预测模块还用于:

40、响应于接收到所述预设预测模型的更新指令,重新获取各个历史数据特征各自对应的第二压缩策略标签;

41、基于各个所述历史数据特征和各个所述历史数据特征各自对应的第二压缩策略标签对所述预设预测模型进行训练,得到更新后的预设预测模型。

42、第三方面,本申请提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面的数据处理方法。

43、第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的数据处理方法。

44、上述数据处理方法、装置、计算机设备和存储介质,根据数据特征动态选择适当的压缩率,能够在最小化存储空间的同时,保证数据的访问速度,且通过查询频率所属的频率范围来调整压缩率,能够提高数据查询的效率和响应速度,同时使用预设预测模型自动调整压缩率,无需人工干预,降低了运维成本。

本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将目标分区在当前时间段的目标数据特征输入预设预测模型进行预测之前,还包括:

3.根据权利要求2所述的方法,其特征在于,所述历史数据特征至少包括查询分区、查询频率、查询复杂度、查询数据范围、数据量和数据更新频率中的一种或多种。

4.根据权利要求1所述的方法,其特征在于,所述频率范围至少包括:第一频率范围和第二频率范围,其中,所述第二频率范围的最小值大于所述第一频率范围的最大值。

5.根据权利要求4所述的方法,其特征在于,所述基于所述查询频率所属的频率范围,确定所述目标分区在所述下一时间段对应的压缩策略,包括:

6.根据权利要求1所述的数据处理方法,其特征在于,所述基于所述压缩策略调整所述目标分区的压缩率,包括:

7.根据权利要求2所述的数据处理方法,其特征在于,所述方法还包括:

8.一种数据处理装置,其特征在于,所述装置包括:

9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将目标分区在当前时间段的目标数据特征输入预设预测模型进行预测之前,还包括:

3.根据权利要求2所述的方法,其特征在于,所述历史数据特征至少包括查询分区、查询频率、查询复杂度、查询数据范围、数据量和数据更新频率中的一种或多种。

4.根据权利要求1所述的方法,其特征在于,所述频率范围至少包括:第一频率范围和第二频率范围,其中,所述第二频率范围的最小值大于所述第一频率范围的最大值。

5.根据权利要求4所述的方法,其特征在于,所述基于所述查询频率所属的频率范围,确定所述目标分区在所述...

【专利技术属性】
技术研发人员:王晓洪蒋青松陈志强何浩黄勇波
申请(专利权)人:赛力斯汽车有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1