本申请实施例提供了一种存储统计方法、装置、计算机可读存储介质与AI设备,该方法包括:获取待统计目录的当前次记录的修改时间与待统计目录的上一次记录的修改时间;在当前次记录的修改时间与上一次记录的修改时间相同且待统计目录包括子目录的情况下,重新统计待统计目录的下一级子目录的大小;在当前次记录的修改时间与上一次记录的修改时间不相同且待统计目录包括子目录时,重新统计待统计目录的下一级子目录的大小和直接从属于待统计目录的文件的大小,且根据重新统计后的待统计目录的下一级子目录的大小和重新统计后的直接从属于待统计目录的文件的大小重新确定待统计目录的大小。本方案解决了存储统计方法存储的资源IO消耗过多的问题。资源IO消耗过多的问题。资源IO消耗过多的问题。
【技术实现步骤摘要】
存储统计方法、装置、计算机可读存储介质与AI设备
[0001]本申请实施例涉及AI存储领域,具体而言,涉及一种存储统计方法、装置、计算机可读存储介质与AI设备。
技术介绍
[0002]人工智能平台的一个重要的功能是存储文件的操作管理,包括用户文件的管理,数据集文件的管理等,用户可以在文件管理操作产生文件,也可以是业务中训练生成文件,这些大量文件生成操作都非常消耗集群的存储资源,且AI(Artificial Intelligence,人工智能)集群对于存储的要求非常高,集群存储伴随着频繁的IO(input and output输入和输出)操作,如何在集群存储对海量的文件中进行快速文件统计,存储性能不影响平台的训练任务和其它文件操作,成为AI集群中首要解决的问题,关乎于集群用户进行模型训练工作效率。
[0003]目前的一些方案中,直接遍历所有文件进行文件大小的统计,造成遍历过程不断的消耗存储的资源IO,同时也在不断消耗的业务服务的CPU(Central Processing Unit,中央处理器)和MEM(Memory,存储器)等资源,同时该方案得出统计结果也不理想,在海量文件下(TB级别以上)统计大小具有延时,且非常耗时,造成统计的结果有误差。
技术实现思路
[0004]本申请实施例提供了一种存储统计方法、装置、计算机可读存储介质与AI设备,以至少解决相关技术中存储统计方法存储的资源IO消耗过多的问题。
[0005]根据本申请的一个实施例,提供了一种存储统计方法,包括:
[0006]获取待统计目录的当前次记录的修改时间与所述待统计目录的上一次记录的修改时间;
[0007]在所述当前次记录的修改时间与所述上一次记录的修改时间相同且所述待统计目录包括子目录的情况下,重新统计所述待统计目录的下一级子目录的大小,且根据重新统计后的所述待统计目录的下一级子目录的大小重新确定所述待统计目录的大小;
[0008]在所述当前次记录的修改时间与所述上一次记录的修改时间不相同且所述待统计目录包括子目录的情况下,重新统计所述待统计目录的下一级子目录的大小和直接从属于所述待统计目录的文件的大小,且根据重新统计后的所述待统计目录的下一级子目录的大小和重新统计后的直接从属于所述待统计目录的文件的大小重新确定所述待统计目录的大小。
[0009]在一个示例性实施例中,所述方法还包括:在所述当前次记录的修改时间与所述上一次记录的修改时间相同且所述待统计目录不包括子目录的情况下,不再对所述待统计目录重新进行统计。
[0010]在另一个示例性实施例中,所述方法还包括:在所述当前次记录的修改时间与所述上一次记录的修改时间不相同且所述待统计目录不包括子目录的情况下,重新统计直接
从属于所述待统计目录的文件的大小,且根据重新统计后的直接从属于所述待统计目录的文件的大小重新确定所述待统计目录的大小。
[0011]在又一个示例性实施例中,所述方法还包括:构建索引目录,所述索引目录用于表征从根索引目录至所述待统计目录的路径,所述索引目录还用于表征从根索引目录到文件的路径。
[0012]在再一个示例性实施例中,所述还包括:根据所述索引目录索引到从属于所述待统计目录的下一级子目录;根据所述索引目录索引到从属于所述待统计目录的下一级子目录的子目录,直到索引到直接从属于子目录的文件。
[0013]在另一个示例性实施例中,所述方法还包括:将获取所述待统计目录的当前次记录的修改时间的时刻确定为第一时刻;将获取所述待统计目录的上一次记录的修改时间的时刻确定为第二时刻,其中,所述第一时刻和所述第二时刻之间的时间差大于或者等于一小时。
[0014]在另一个示例性实施例中,所述方法还包括:生成大小显示控件;控制所述大小显示控件对各级目录的大小进行显示。
[0015]在另一个示例性实施例中,所述待统计目录的类型至少为以下之一:用户目录、共享目录、数据集目录、模型目录。
[0016]根据本申请的另一个实施例,提供了一种存储统计装置,包括:
[0017]获取单元,用于获取待统计目录的当前次记录的修改时间与所述待统计目录的上一次记录的修改时间;
[0018]第一统计单元,用于在所述当前次记录的修改时间与所述上一次记录的修改时间相同且所述待统计目录包括子目录的情况下,重新统计所述待统计目录的下一级子目录的大小,且根据重新统计后的所述待统计目录的下一级子目录的大小重新确定所述待统计目录的大小;
[0019]第二统计单元,用于在所述当前次记录的修改时间与所述上一次记录的修改时间不相同且所述待统计目录包括子目录的情况下,重新统计所述待统计目录的下一级子目录的大小和直接从属于所述待统计目录的文件的大小,且根据重新统计后的所述待统计目录的下一级子目录的大小和重新统计后的直接从属于所述待统计目录的文件的大小重新确定所述待统计目录的大小。
[0020]根据本申请的又一个实施例,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现任意一种所述的方法的步骤。
[0021]根据本申请的又一个实施例,提供了一种AI设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任意一种所述的方法的步骤。
[0022]通过本申请,根据待统计目录的当前次记录的修改时间与上述上一次记录的修改时间的相同或者不相同,以及待统计目录是否包括子目录,适应性地调整获取待统计目录的大小的方式。即是一种增量统计的方式,相对于直接遍历所有文件进行文件大小的统计的方式,大大减少了统计的工作量,节省了存储的资源IO。
附图说明
[0023]图1是根据本申请实施例的运行存储统计方法的AI设备硬件结构框图;
[0024]图2是根据本申请实施例的存储统计方法的流程图;
[0025]图3是根据本申请实施例的一种索引目录示意图;
[0026]图4是根据本申请实施例的另一种索引目录示意图;
[0027]图5是根据本申请实施例的存储统计装置的结构框图。
具体实施方式
[0028]下文中将参考附图并结合实施例来详细说明本申请的实施例。
[0029]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0030]为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
[0031]AI集群:用于管理和使用GPU、CPU和文件存储等资源的集群,上层可支持AI训练和推理等业务的大规模集群。
[0032]文件索引:一般指索引文件,在文件中随机存取记录,需要知道记录的地址,相当于本文中的索引目录。
[0033]树形结构:树形结构是一层次的嵌套结构。一个树形结构的外层和内层有相似的结构,所以这种结构多可以递归的表示。
[0本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种存储统计方法,其特征在于,包括:获取待统计目录的当前次记录的修改时间与所述待统计目录的上一次记录的修改时间;在所述当前次记录的修改时间与所述上一次记录的修改时间相同且所述待统计目录包括子目录的情况下,重新统计所述待统计目录的下一级子目录的大小,且根据重新统计后的所述待统计目录的下一级子目录的大小重新确定所述待统计目录的大小;在所述当前次记录的修改时间与所述上一次记录的修改时间不相同且所述待统计目录包括子目录的情况下,重新统计所述待统计目录的下一级子目录的大小和直接从属于所述待统计目录的文件的大小,且根据重新统计后的所述待统计目录的下一级子目录的大小和重新统计后的直接从属于所述待统计目录的文件的大小重新确定所述待统计目录的大小。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述当前次记录的修改时间与所述上一次记录的修改时间相同且所述待统计目录不包括子目录的情况下,不再对所述待统计目录重新进行统计。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述当前次记录的修改时间与所述上一次记录的修改时间不相同且所述待统计目录不包括子目录的情况下,重新统计直接从属于所述待统计目录的文件的大小,且根据重新统计后的直接从属于所述待统计目录的文件的大小重新确定所述待统计目录的大小。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:构建索引目录,所述索引目录用于表征从根索引目录至所述待统计目录的路径,所述索引目录还用于表征从根索引目录到文件的路径。5.根据权利要求4所述的方法,其特征在于,所述还包括:根据所述索引目录索引到从属于所述待统计目录的下一级子目录;根据所述索引目录索引到从属于所述待统计目录的下一级子目录的子目录,直到索引到直接从属于子目录的文件。6.根据权利要求1所述的方法,其特征在于,所...
【专利技术属性】
技术研发人员:姬贵阳,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。