【技术实现步骤摘要】
一种文件系统自适应压缩方法及系统
[0001]本专利技术涉及文件系统文件压缩
,尤其涉及一种文件系统自适应压缩方法及压缩系统。
技术介绍
[0002]随着互联网技术的不断进步,应用程序对网络带宽和存储容量的需求不断增加,尤其是在大数据传输方面。为了应对这一挑战,新的技术不断涌现,其中之一就是数据压缩技术。数据压缩技术通过消除大量数据集中的冗余信息,从而节省存储空间并提高传输效率。这种技术的发展使得更多的数据能够在有限的带宽下传输,并且占用更少的存储空间。
[0003]压缩算法主要分为两种类型:有损压缩和无损压缩。有损压缩通过去除人类难以察觉的信息来减小数据量,主要应用于多媒体文件等不需要完全保留原始数据的文件压缩。相比之下,无损压缩则保证了数据完整性,但压缩效率更低且复杂度更高。在最小化信息不能丢失的情况下,通常采用无损压缩,例如在文本文件中。压缩算法的性能通常通过压缩速度、解压速度和压缩率来评估。现有的压缩算法在设计时往往侧重不同的性能因素。例如,LZO和LZ4注重压缩和解压速度,而GZip和Zlib则更注重压缩率,这导致它们在不同的数据类型和应用场景中具有不同的优缺点。
[0004]由于不同的数据格式和工作负载具有不同的特征,单一的压缩算法并不能有效地处理所有数据和场景的压缩需求。因此,为了最大化压缩收益,需要在不同的工作负载下选择适合的压缩算法。然而,如果压缩算法的选择由人工决策,那么在数据变化频繁的情况下,人工决策通常不够快速和准确。为了解决这一问题,自适应压缩系统应运而生。自适应压缩系 ...
【技术保护点】
【技术特征摘要】
1.一种文件系统自适应压缩方法,其特征在于,包括步骤:S1、获取待压缩文件组,并设置将所述待压缩文件组进行压缩并写入到磁盘所允许的最大时延T;S2、以所述最大时延T为约束,以最大化减少存储容量为优化目标,为所述待压缩文件组中的每个文件选择最合适的压缩算法;S3、将所述待压缩文件组中的每个文件按照步骤S2中选择的压缩算法进行压缩并通过文件系统写入磁盘。2.根据权利要求1所述的一种文件系统自适应压缩方法,其特征在于,在所述步骤S2中,通过构建优化问题并对所述优化问题进行求解以为所述待压缩文件组中的每个文件选择最合适的压缩算法;所述优化问题构建为:所述优化问题构建为:所述优化问题构建为:其中,a
ij
表示状态函数,如果文件i采用第j种压缩算法压缩,则a
ij
=1,否则a
ij
=0;表示文件i采用第j种压缩算法的预估延时,由基于机器学习的压缩时间预测模型预测得到;表示文件i采用第j种压缩算法后写入存储介质的预估延时,根据磁盘写入速度和压缩后文件大小计算得到;S
i,j
表示文件i采用第j种压缩算法后的大小,S
i,j
根据预测的压缩率和文件原始大小计算得到,其中预测的压缩率由压缩率预测模型预测得到;i∈F,F表示所述待压缩文件组中n个文件的集合;j∈A,A表示m种压缩算法的集合。3.根据权利要求2所述的一种文件系统自适应压缩方法,其特征在于,所述步骤S2具体包括步骤:S21、选择所述待压缩文件组中的一个文件;S22、利用压缩率预测模型,对压缩库中每种压缩算法对该文件进行压缩时的压缩率进行预测;S23、使用压缩时间预测模型,对压缩库中每种压缩算法在对文件进行压缩时所需的时间即进行预测;S24、通过步骤S22中预测的压缩率和文件原始大小计算压缩后文件大小即S
i
,j;S25、利用iostat系统调用获取当前磁盘写入速度;S26、利用磁盘写入速度和压缩后文件大小S
i,j
计算磁盘写入时间即S27、对待压缩文件组中所有文件重复步骤S21~S26,得到每个文件在不同压缩算法下
的压缩时间、磁盘写入时间、压缩后文件大小;S28、计算所有文件在所有压缩算法选择组合下的时延以及对应的压缩后总文件大小S29、对所述优化问题进行求解,得到满足总时延小于等于T,且压缩后总文件大小最小的压缩算法组合。4.根据权利要求3所述的一种文件系统自适应压缩方法,其特征在于:在所述步骤S22中,所述压缩率预测模型根据输入文件的文件类型、文件大小、香农熵、数据对随机分布距离、压缩算法预测出该文件的压缩率,所述数据对随机分布距离由下式计算:其中,coreset为组成大部分数据的独特符号集,a、b分别为coreset中两个不同的符号,size of sample表示core...
【专利技术属性】
技术研发人员:陈咸彰,陈进,刘铎,谭玉娟,任骜,
申请(专利权)人:重庆大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。