System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及信息,尤其涉及一种数据处理方法及相关设备。
技术介绍
1、在数据处理过程中,往往会在存储系统中产生数量较多的小文件,该小文件指的是文件大小(file size)低于(或等于)阈值的文件。其中,小文件的管理和访问会大量消耗资源,从而拖慢文件的输入/输出(input/output,i/o),为此,在包含许多小文件的存储系统上执行小文件合并(compaction)是通常的做法。
2、目前,在存储系统中,小文件合并的执行过程一般是通过静态规则或由人工触发。例如,一种通过静态规则触发的实现过程中,当存储系统中的小文件个数达到一定阈值时,就触发该存储系统执行小文件合并。又如,另一种通过静态规则触发的实现过程中,可以是存储系统中定时(例如每隔30秒,60秒等)触发存储系统执行小文件合并。
3、上述基于静态规则或人工触发小文件合并的方案,不够灵活,且存在导致存储系统的性能下降的问题。为此,如何在合适的时机触发小文件合并的执行过程以提升存储系统的性能,是一个亟待解决的技术问题。
技术实现思路
1、本申请提供了一种数据处理方法及相关设备,用于将动态的业务状态和存储状态作为是否执行小文件合并的确定依据的方式,能够在合适的时机触发小文件合并的执行过程,以期提升存储系统的性能。
2、本申请第一方面提供了一种数据处理方法,该方法由数据处理设备执行,或者,该方法由数据处理设备中的部分组件(例如处理器、芯片或芯片系统等)执行,或者该方法还可以由能实现全部或部分数据处理
3、基于上述技术方案,数据处理设备获取第一存储模块的业务状态和存储状态之后,基于该业务状态和该存储状态动态、自适应确定用于指示该第一存储模块是否执行小文件合并的配置信息。相比于基于静态规则或人工触发小文件合并的实现过程,数据处理设备能够基于当前实际的业务状态和存储状态确定是否执行小文件合并,从而能够在合适的时候触发小文件合并,避免在不恰当的时机执行该小文件合并而对业务造成影响,因此可以提升存储系统的性能。
4、此外,上述数据处理设备将动态的业务状态和存储状态作为是否执行小文件合并的确定依据的实现过程中,由于该实现过程无需人工配置和干预,可以降低部署和运维成本。
5、需要说明的是,本申请涉及的存储模块(包括第一存储模块,以及后文可能出现的n个存储模块,m个存储模块等)可以基于不同粒度的存储介质的划分而通过多种方式实现,例如,该存储模块可以包括一个或多个数据分区,一个或多个数据表等,本申请对该存储模块的实现不做具体的限定。
6、在第一方面的一种可能的实现方式中,该业务状态包括文件访问速度或文件访问实时性需求中的一项或多项。
7、基于上述技术方案,用于指示该第一存储模块的业务繁忙程度或业务需求的业务状态能够通过上述一项或多项对应的多种方式实现,以提升方案的灵活性。
8、应理解,本申请涉及的文件访问过程(例如文件访问速度对应的文件访问过程,文件访问实时性需求对应的文件访问过程)可以包括文件读取和/或文件写入。
9、可选地,业务状态还可以包括其它信息,例如业务数量,业务运行时存储模块所在存储设备中处理器的利用率,业务运行时存储模块所在存储设备中内存的利用率等,以及其它能够用于指示该第一存储模块的业务繁忙程度或业务需求的信息,此处不做限定。
10、在第一方面的一种可能的实现方式中,该存储状态包括文件访问速度,文件数量或块利用率中的一项或多项。
11、基于上述技术方案,用于指示该第一存储模块执行小文件合并的必要程度的状态信息能够通过上述一项或多项对应的多种方式实现,以提升方案的灵活性。
12、可选地,存储状态还可以包括其它信息,例如存储模块中的小文件占比等,以及其它能够用于指示该第一存储模块执行小文件合并的必要程度的信息,此处不做限定。
13、在第一方面的一种可能的实现方式中,该数据处理设备基于该业务状态和该存储状态确定配置信息,包括:
14、在满足以下至少一项时,确定该第一存储模块不执行小文件合并,包括:该业务状态指示业务的繁忙程度大于预设的第一阈值且该存储状态指示的执行小文件合并的必要程度小于预设的第三阈值;或,该业务状态指示业务的实时性需求大于预设的第二阈值且该存储状态指示的执行小文件合并的必要程度小于该第三阈值;
15、在满足以下至少一项时,确定该第一存储模块执行小文件合并,包括:该业务状态指示业务的繁忙程度小于该第一阈值且该存储状态指示的执行小文件合并的必要程度大于该第三阈值;或,该业务状态指示业务的实时性需求小于该第二阈值且该存储状态指示的执行小文件合并的必要程度大于该第三阈值。
16、基于上述技术方案,是否执行小文件合并的确定依据可以通过上述多种阈值的一项或多项实现,以提升方案实现的灵活性。并且,是否执行小文件合并的确定依据可以包括上述多种阈值的任一项或多项,能够使得该确定依据具备可追溯性和可解释性,提高监管和运维效率。
17、此外,由于小文件合并的执行过程会消耗较大的计算资源且有可能会导致其它文件写入的执行过程的提交(commit)出现冲突,为此,将业务状态指示的信息和存储状态指示的信息与阈值(包括第一阈值,第二阈值和/或第三阈值)的比较结果作为是否执行小文件合并的确定依据的实现方式,能够在减少小文件合并执行的次数的情况下提升小文件合并执行成功的可能性。
18、可选地,在上述实现方式中,任一阈值与业务状态或存储状态指示的信息相等的情况下,可以确定不执行小文件合并,也可以确定执行小文件合并,取决于具体实现,此处不做限定。以第一阈值和第三阈值的实现为例,该业务状态指示业务的繁忙程度等于预设的第一阈值和/或该存储状态指示的执行小文件合并的必要程度小于预设的第三阈值的情况下,可以确定该第一存储模块不执行小文件合并或确定该第一存储模块执行小文件合并。
19、在第一方面的一种可能的实现方式中,该方法还包括:该数据处理设备获取该第一存储模块执行小文件合并之后的收益信息,该收益信息包括该第一存储模块执行小文件合并前后的文件访问速度的相对值,执行小文件合并前后的文件数量的相对值或执行小文件合并前后的块利用率的相对值中的至少一项;该数据处理设备基于该收益信息更新该第一阈值、第二阈值或第三阈值中的一项或多项。
20、基于上述技术方案,数据处理设备基于执行小文件合并前后的存储状态本文档来自技高网...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述业务状态包括文件访问速度或文件访问实时性需求中的一项或多项。
3.根据权利要求1或2所述的方法,其特征在于,所述存储状态包括文件访问速度,文件数量或块利用率中的一项或多项。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述基于所述业务状态和所述存储状态确定配置信息,包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1-3任意一项所述的方法,其特征在于,所述基于所述业务状态信息和所述存储状态信息确定配置信息,包括:
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
8.根据权利要求1至7任一项所述的方法,其特征在于,所述第一存储模块所在的存储设备包含N个存储模块,N为大于或等于2的整数;
9.根据权利要求1至8任一项所述的方法,其特征在于,在所述基于所述业务状态信息和所述存储状态信息确定配置信息之后,所述方法还包括:
10.一种数据处理
11.根据权利要求10所述的装置,其特征在于,所述业务状态包括文件访问速度或文件访问实时性需求中的一项或多项。
12.根据权利要求10或11所述的装置,其特征在于,所述存储状态包括文件访问速度,文件数量或块利用率中的一项或多项。
13.根据权利要求10-12任意一项所述的装置,其特征在于,所述确定单元具体用于:
14.根据权利要求13所述的装置,其特征在于,所述获取单元还用于获取所述第一存储模块执行小文件合并之后的收益信息,所述收益信息包括所述第一存储模块执行小文件合并前后的文件访问速度的相对值,执行小文件合并前后的文件数量的相对值或执行小文件合并前后的块利用率的相对值中的至少一项;
15.根据权利要求10-12任意一项所述的装置,其特征在于,所述确定单元具体用于:
16.根据权利要求15所述的装置,其特征在于,所述获取单元还用于获取所述第一存储模块执行小文件合并之后的收益信息,所述收益信息包括所述第一存储模块执行小文件合并前后的文件访问速度的相对值,执行小文件合并前后的文件数量的相对值或执行小文件合并前后的块利用率的相对值中的至少一项;
17.根据权利要求10至16任一项所述的装置,其特征在于,所述第一存储模块所在的存储设备包含N个存储模块,N为大于或等于2的整数;
18.根据权利要求10至17任一项所述的装置,其特征在于,所述装置还包括:
19.一种数据处理设备,其特征在于,所述数据处理设备包括存储器和处理器;
20.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,该程序由计算机执行时,使得所述计算机实施权利要求1至9任一项所述的方法。
21.一种计算机程序产品,其特征在于,所述计算机程序产品存储有指令,所述指令在由计算机执行时,使得所述计算机实施权利要求1至9任一项所述的方法。
22.一种数据处理系统,其特征在于,包括如权利要求19所述的数据处理设备和存储设备,所述数据处理设备与所述存储设备相连,所述存储存储设备用于存储业务的数据。
...【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述业务状态包括文件访问速度或文件访问实时性需求中的一项或多项。
3.根据权利要求1或2所述的方法,其特征在于,所述存储状态包括文件访问速度,文件数量或块利用率中的一项或多项。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述基于所述业务状态和所述存储状态确定配置信息,包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1-3任意一项所述的方法,其特征在于,所述基于所述业务状态信息和所述存储状态信息确定配置信息,包括:
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
8.根据权利要求1至7任一项所述的方法,其特征在于,所述第一存储模块所在的存储设备包含n个存储模块,n为大于或等于2的整数;
9.根据权利要求1至8任一项所述的方法,其特征在于,在所述基于所述业务状态信息和所述存储状态信息确定配置信息之后,所述方法还包括:
10.一种数据处理装置,其特征在于,包括:
11.根据权利要求10所述的装置,其特征在于,所述业务状态包括文件访问速度或文件访问实时性需求中的一项或多项。
12.根据权利要求10或11所述的装置,其特征在于,所述存储状态包括文件访问速度,文件数量或块利用率中的一项或多项。
13.根据权利要求10-12任意一项所述的装置,其特征在于,所述确定单元具体用于:
14.根据权利要求13所述的装置,其特征在于...
【专利技术属性】
技术研发人员:马浩海,张瑞,张家全,赵玥,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。