存储统计方法、装置、计算机可读存储介质与AI设备制造方法及图纸

技术编号：36119400 阅读：32 留言：0更新日期：2022-12-28 14:24

本申请实施例提供了一种存储统计方法、装置、计算机可读存储介质与AI设备，该方法包括：获取待统计目录的当前次记录的修改时间与待统计目录的上一次记录的修改时间；在当前次记录的修改时间与上一次记录的修改时间相同且待统计目录包括子目录的情况下，重新统计待统计目录的下一级子目录的大小；在当前次记录的修改时间与上一次记录的修改时间不相同且待统计目录包括子目录时，重新统计待统计目录的下一级子目录的大小和直接从属于待统计目录的文件的大小，且根据重新统计后的待统计目录的下一级子目录的大小和重新统计后的直接从属于待统计目录的文件的大小重新确定待统计目录的大小。本方案解决了存储统计方法存储的资源IO消耗过多的问题。资源IO消耗过多的问题。资源IO消耗过多的问题。

全部详细技术资料下载

【技术实现步骤摘要】
存储统计方法、装置、计算机可读存储介质与AI设备

[0001]本申请实施例涉及AI存储领域，具体而言，涉及一种存储统计方法、装置、计算机可读存储介质与AI设备。

技术介绍

[0002]人工智能平台的一个重要的功能是存储文件的操作管理，包括用户文件的管理，数据集文件的管理等，用户可以在文件管理操作产生文件，也可以是业务中训练生成文件，这些大量文件生成操作都非常消耗集群的存储资源，且AI(Artificial Intelligence，人工智能)集群对于存储的要求非常高，集群存储伴随着频繁的IO(input and output输入和输出)操作，如何在集群存储对海量的文件中进行快速文件统计，存储性能不影响平台的训练任务和其它文件操作，成为AI集群中首要解决的问题，关乎于集群用户进行模型训练工作效率。
[0003]目前的一些方案中，直接遍历所有文件进行文件大小的统计，造成遍历过程不断的消耗存储的资源IO,同时也在不断消耗的业务服务的CPU(Central Processing Unit，中央处理器)和MEM(Memory，存储器)等资源，同时该方案得出统计结果也不理想，在海量文件下(TB级别以上)统计大小具有延时，且非常耗时，造成统计的结果有误差。

技术实现思路

[0004]本申请实施例提供了一种存储统计方法、装置、计算机可读存储介质与AI设备，以至少解决相关技术中存储统计方法存储的资源IO消耗过多的问题。
[0005]根据本申请的一个实施例，提供了一种存储统计方法，包括：
[000...

【技术保护点】

【技术特征摘要】
1.一种存储统计方法，其特征在于，包括：获取待统计目录的当前次记录的修改时间与所述待统计目录的上一次记录的修改时间；在所述当前次记录的修改时间与所述上一次记录的修改时间相同且所述待统计目录包括子目录的情况下，重新统计所述待统计目录的下一级子目录的大小，且根据重新统计后的所述待统计目录的下一级子目录的大小重新确定所述待统计目录的大小；在所述当前次记录的修改时间与所述上一次记录的修改时间不相同且所述待统计目录包括子目录的情况下，重新统计所述待统计目录的下一级子目录的大小和直接从属于所述待统计目录的文件的大小，且根据重新统计后的所述待统计目录的下一级子目录的大小和重新统计后的直接从属于所述待统计目录的文件的大小重新确定所述待统计目录的大小。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：在所述当前次记录的修改时间与所述上一次记录的修改时间相同且所述待统计目录不包括子目录的情况下，不再对所述待统计目录重新进行统计。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：在所述当前次记录的修改时间与所述上一次记录的修改时间不相同且所述待统计目录不包括子目录的情况下，重新统计直接从属于所述待统计目录的文件的大小，且根据重新统计后的直接从属于所述待统计目录的文件的大小重新确定所述待统计目录的大小。4.根据权利要求1所述的方法，其特征在于，所述方法还包括：构建索引目录，所述索引目录用于表征从根索引目录至所述待统计目录的路径，所述索引目录还用于表征从根索引目录到文件的路径。5.根据权利要求4所述的方法，其特征在于，所述还包括：根据所述索引目录索引到从属于所述待统计目录的下一级子目录；根据所述索引目录索引到从属于所述待统计目录的下一级子目录的子目录，直到索引到直接从属于子目录的文件。6.根据权利要求1所述的方法，其特征在于，所...

【专利技术属性】
技术研发人员：姬贵阳，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人