【技术实现步骤摘要】
本公开涉及聚集文件的存储方法和系统以及用于聚集文件压缩方法和系统,更具体地,涉及一种对聚集文件进行压缩以回收存储空间的方法和系统。
技术介绍
随着数字技术的发展,尤其是互联网的广泛应用,数字文件每天都在爆发性地增长。如何存储和管理这些每天产生的数据文件正日益成为人们需要面对的问题。为此,人们将一些小文件,例如大约0-上百KB的文件,聚集起来存放,形成一个聚集文件(aggregatedfile)。这种聚集文件采用只追加方法(append-onlymethod)来存储这些小文件。也就是说,通过一个文件紧接着一个文件的方式存储文件,直到该聚集文件的空间被填满为止。采用这种方式来存储多个小文件,能够将常见的文件写入过程从“随机磁盘输入”改变成“顺序磁盘输入”;能够将一些小文件的索引保持在内存中从而在读取一个小文件内容时只需要一次磁盘读取操作,从而显著减少文件系统的文件元信息数据(inode)使用。但是聚集文件中的一些小文件会被不断更新、删除。由于聚集文件的填充方式采用“只追加方式”,因此,随着时间推移,一个被填充满的聚集文件会由于小文件的不断被更新或删除而留下很多“未使用空间”或“删除空间”。这会导致存储空间的浪费。为此,人们期望有能够回收这些“未使用空间”或“删除空间”,从而降低存储成本;降低存储空间的浪费,从而提高存储空间的利用率。
技术实现思路
根据本公开的一个方面,提供了一种压缩聚集文件的方法 ...
【技术保护点】
一种用于压缩聚集文件的方法,包括:获取待压缩的聚集文件;基于与所获取的聚集文件对应的删除文件中所存储的被删除对象的元数据,将所获取的聚集文件中的剩余的对象复制到新的聚集文件中;以及移除所获取的聚集文件。
【技术特征摘要】
1.一种用于压缩聚集文件的方法,包括:
获取待压缩的聚集文件;
基于与所获取的聚集文件对应的删除文件中所存储的被删除对象的元数
据,将所获取的聚集文件中的剩余的对象复制到新的聚集文件中;以及
移除所获取的聚集文件。
2.根据权利要求1所述的用于压缩聚集文件的方法,其中所述将所获取
的聚集文件中的剩余的对象复制到新的聚集文件中包括:创建过渡删除文件,
所述过渡删除文件不同于所获取的聚集文件对应的删除文件。
3.根据权利要求2所述的用于压缩聚集文件的方法,其中响应于在将所
获取的聚集文件中的剩余的对象复制到新的聚集文件过程中有新的删除操
作,在所获取的聚集文件中执行该新的删除操作,并将被删除对象的元数据
记录在过渡删除文件中。
4.根据权利要求3所述的用于压缩聚集文件的方法,还包括:
利用所述过渡删除文件的元数据查询新的聚集文件的元数据,以更新过
渡删除文件中的元数据;以及
删除新的聚集文件中的相应的对象,使得过渡删除文件与新的聚集文件
的对象对应。
5.根据权利要求4所述的用于压缩聚集文件的方法,还包括:将过渡删
除文件作为与新的聚集文件对应的新删除文件。
6.根据权利要求1所述的用于压缩聚集文件的方法,其中所述元数据包
括下列至少之一:对象的文件名、在聚集文件中的偏移量以及文件的大小。
7.根据权利要求1所述的用于压缩聚集文件的方法,所述获取待压缩聚
集文件包括:
计算各个聚集文件中的总删除空间;以及
选择具有最大的总删除空间的聚集文件作为被压缩的聚集文件。
8.根据权利要求1所述的压缩聚集文件的方法,其中所述将所述聚集文
件中的剩余的对象复制到新的聚集文件中包括:基于所获取的聚集文件对应
的删除文件,确定被删除对象的位置,从而通过顺序读取包含多个未删除对
象的大块来复制聚集文件。
9.一种用于压缩聚集文件的系统,包括:
被配置为获取待压缩的聚集文件的装置;
被配置为基于与所获取的聚集文件对应的删除文件中所存储的被删除对
象的元数据,将所获取的聚集文件中的剩余的对象复制到新的聚集文件中的
装置;以及
被配置为移除所获取的聚集文件的装置。
10.根据权利要求9所述的用于压缩聚集文件的系统,还包括:被配置
为在将所获取的聚集文件中的剩余的对象复制到新的聚集文件过程中,创建
过渡删除文件的装置,所述过渡删除文件不同于所获取的聚集文件对应的删
除文件。
1...
【专利技术属性】
技术研发人员:曾春光,纪海,李媛媛,杨晓阳,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。