用于泛在存储系统的网络环境自适应编码方法及系统技术方案

技术编号:34521267 阅读:23 留言:0更新日期:2022-08-13 21:10
本发明专利技术属于计算机存储技术领域,具体涉及用于泛在存储系统的网络环境自适应编码方法及系统。方法包括S1,在RS纠删码的基础上扩展纠删码参数;S2,采用有限离散时间马尔科夫链建模,进行数据修复过程;S3,估计数据修复过程所占用的带宽开销比例和数据丢失率,得到最优修复带宽开销及慢速节点分布;S4,通过EAP算法,根据网络环境自适应调整纠删码参数,得到维持期望持久性的最优纠删码参数;S5,通过ORP算法,根据泛在存储系统当前节点抖动率和慢速节点比例的情况下,得到最低修复带宽开销且满足期望持久性的最优纠删码参数。本发明专利技术具有在各种网络环境中都可以维持期望持久性的特点。各种网络环境中都可以维持期望持久性的特点。各种网络环境中都可以维持期望持久性的特点。

【技术实现步骤摘要】
用于泛在存储系统的网络环境自适应编码方法及系统


[0001]本专利技术属于计算机存储
,具体涉及用于泛在存储系统的网络环境自适应编码方法及系统。

技术介绍

[0002]如今,常用的分布式存储系统大多采用数据中心式的多机架多服务器方案,在宏观物理形式上仍然是中心化的存储,导致数据的安全性和私密性受到挑战。而泛在存储采用去中心化架构,每个人都可以将自己设备(手机、平板、电脑甚至是智能汽车)上的空闲存储空间和带宽贡献/出租出去,成为泛在存储系统中的存储节点。然而,如此庞大的存储节点规模使得节点失效成为常态,导致数据持久性急速下降。因此,数据要想永久可靠地存储在泛在存储系统中,就必须采用一定的数据容错技术来维持泛在存储系统中的数据持久性。
[0003]目前,具有高持久性和低冗余性的纠删码泛在存储方案已经引起了人们的关注。例如,被广泛采用的RS(Reed

Solomon)纠删码将大文件或原始数据切割成若干个固定大小的块,大小不够的用0来填充,之后对这些块进行(n,k)纠删编码,将每个块先均分成k个片段,然后将k个片段编码成n个片段。当丢失的片段小于等于n

k时,只需任意k个片段即可恢复出相应的块。与三副本方案相比,它可将存储开销降低53%,同时将数据持久性提高一倍。
[0004]然而,在数据修复时,RS纠删码由于其过高的数据修复带宽开销导致耗费了大量的网络带宽。泛在存储系统中节点是不稳定的,节点抖动率表示了系统中节点下线的比例,所以修复会被更频繁地触发,导致整个存储系统的性能下降甚至不可用。同时现有的纠删码方案还未考虑到以下两点问题:1.在节点抖动时,无法达到系统期望的数据持久性(比如0.99999999999999%,即14个9);2.系统中慢速节点(传输3.2KB数据所花费时间在60ms以上的均为慢速节点)的存在会导致修复时间过长从而严重影响数据持久性,根据以往的实验结果,只要修复时间增加25%至45%,数据持久性就会下降两个数量级。
[0005]综上所述,现有的泛在存储纠删码方案在节点抖动率变化时无法维持期望的持久性且修复带宽开销大、修复时间长,难以实际应用在泛在存储系统中。
[0006]基于上述问题,设计一种在各种网络环境中都可以维持期望持久性的用于泛在存储系统的网络环境自适应编码方法及系统,就显得十分重要。
[0007]例如,申请号为CN201610137334.2的中国专利文献描述的一种多网盘下的增量纠删码存储方法及系统。多网盘下的增量纠删码存储方法包括:文件首先划分为若干“文件块”,并对“文件块”采用纠删码算法转化为若干“纠删数据块”,最后将全部“纠删数据块”分散存储在多个网盘中,并提供“文件块”级别的去冗余存储。多网盘下的增量纠删码存储系统包括:“网盘”装置,负责存储文件的数据内容;“文件系统元服务器”装置,负责存储文件系统的元数据及“文件块”去冗余管理;“文件系统客户端”装置,负责“文件块”的分解与合成、“纠删数据块”的编码与解码、“纠删数据块”的网盘上传与下载、去冗余、及对外提供文
件访问服务。虽然能够有效地提高基于多网盘存储系统的可靠性、访问效率及空间利用率,但是其缺点在于仍然存在节点抖动率变化时无法维持期望的持久性且修复带宽开销大、修复时间长,难以实际应用在泛在存储系统中的问题。

技术实现思路

[0008]本专利技术是为了克服现有技术中,现有的泛在存储纠删码方案在节点抖动率变化时无法维持期望的持久性且修复带宽开销大、修复时间长,难以实际应用在泛在存储系统中的问题,提供了一种在各种网络环境中都可以维持期望持久性的用于泛在存储系统的网络环境自适应编码方法及系统。
[0009]为了达到上述专利技术目的,本专利技术采用以下技术方案:
[0010]用于泛在存储系统的网络环境自适应编码方法,包括如下步骤:
[0011]S1,在RS纠删码的基础上扩展纠删码参数;
[0012]S2,采用有限离散时间马尔科夫链建模,进行数据修复过程;
[0013]S3,估计数据修复过程所占用的带宽开销比例和数据丢失率,得到最优修复带宽开销及慢速节点分布;
[0014]S4,通过EAP算法,根据网络环境自适应调整纠删码参数,得到维持期望持久性的最优纠删码参数;
[0015]S5,通过ORP算法,根据泛在存储系统当前节点抖动率和慢速节点比例的情况下,得到最低修复带宽开销且满足期望持久性的最优纠删码参数。
[0016]作为优选,步骤S1包括如下步骤:
[0017]S11,在RS纠删码的基础上将纠删码参数(n,k)扩展为(k,m,o,n);
[0018]其中,k为修复一个块所需的最少片段数;m为修复阈值;o为不考虑泛在存储系统中慢速节点时的最终片段个数;n为考虑泛在存储系统中慢速节点时的最终片段个数。
[0019]作为优选,步骤S2包括如下步骤:
[0020]S21,设定状态表示泛在存储系统中一个块的冗余级别;节点抖动率PFR表示在泛在存储系统中一年内节点下线的比例,对于一个给定的节点,在单位时间步长内失效的概率为存活的概率为1

α;
[0021]S22,设定马尔科夫链共有o

k+2个状态,即一个数据块b的o

k个冗余级别,外加一个0级和一个死亡dead状态;用[o

k](b)来表示数据块b的剩余冗余片段数,一个数据块以级别i丢失一个片段的概率用δ(i)表示,当[o

k](b)≤m

k时开始修复,并修复到o

k个;
[0022]S23,设定处于某一状态的概率收敛于一个唯一的平稳分布P,P(i)表示处于状态i的平稳概率;δ(0)表示一个数据块的冗余片段数为0时再丢失一个片段的概率,P(0)则表示一个数据块的冗余片段数为0时的平稳概率;马尔科夫链的平稳分布通过以下的稳定性方程进行计算:
[0023][0024]S24,将处于P(o

k)级别的片段的比例简化为其中是n的调和函数;根据欧拉公式,得出H
n
≈ln(n);则当状态i处于m

k<i≤o

k时的数据块的比例表示为代入公式得:
[0025][0026]作为优选,步骤S3包括如下步骤:
[0027]S31,定义修复带宽低效率ε(i),即需要传输来修复i个丢失片段的数据比例:ε(i)=(k+i

1);当一个数据块需要修复时,丢失分片的数据量为o

m;当只考虑需要传输的分片的比例时,平均带宽开销直接来自状态m

k+1到状态m

k的转换,所述转换的数据块的比例表示为:δ(m

k+1)
·
P(m

k+1),完成修复的平均块数为:R
avg<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于泛在存储系统的网络环境自适应编码方法,其特征在于,包括如下步骤:S1,在RS纠删码的基础上扩展纠删码参数;S2,采用有限离散时间马尔科夫链建模,进行数据修复过程;S3,估计数据修复过程所占用的带宽开销比例和数据丢失率,得到最优修复带宽开销及慢速节点分布;S4,通过EAP算法,根据网络环境自适应调整纠删码参数,得到维持期望持久性的最优纠删码参数;S5,通过ORP算法,根据泛在存储系统当前节点抖动率和慢速节点比例的情况下,得到最低修复带宽开销且满足期望持久性的最优纠删码参数。2.根据权利要求1所述的用于泛在存储系统的网络环境自适应编码方法,其特征在于,步骤S1包括如下步骤:S11,在RS纠删码的基础上将纠删码参数(n,k)扩展为(k,m,o,n);其中,k为修复一个块所需的最少片段数;m为修复阈值;o为不考虑泛在存储系统中慢速节点时的最终片段个数;n为考虑泛在存储系统中慢速节点时的最终片段个数。3.根据权利要求2所述的用于泛在存储系统的网络环境自适应编码方法,其特征在于,步骤S2包括如下步骤:S21,设定状态表示泛在存储系统中一个块的冗余级别;节点抖动率PFR表示在泛在存储系统中一年内节点下线的比例,对于一个给定的节点,在单位时间步长内失效的概率为存活的概率为1

α;S22,设定马尔科夫链共有o

k+2个状态,即一个数据块b的o

k个冗余级别,外加一个0级和一个死亡dead状态;用[o

k](b)来表示数据块b的剩余冗余片段数,一个数据块以级别i丢失一个片段的概率用δ(i)表示,当[o

k](b)≤m

k时开始修复,并修复到o

k个;S23,设定处于某一状态的概率收敛于一个唯一的平稳分布P,P(i)表示处于状态i的平稳概率;δ(0)表示一个数据块的冗余片段数为0时再丢失一个片段的概率,P(0)则表示一个数据块的冗余片段数为0时的平稳概率;马尔科夫链的平稳分布通过以下的稳定性方程进行计算:S24,将处于P(o

k)级别的片段的比例简化为其中是n的调和函数;根据欧拉公式,得出H
n
≈ln(n);则当状态i处于m

k&lt;i≤o

k时的数据块的比例表示为代入公式得:4.根据权利要求3所述的用于泛在存储系统的网络环境自适应编码方法,其特征在于,步骤S3包括如下步骤:
S31,定义修复带宽低效率ε(i),即需要传输来修复i个丢失片段的数据比例:ε(i)=(k+i

1);当一个数据块需要修复时,丢失分片的数据量为o

m;当只考虑需要传输的分片的比例时,平均带宽开销直接来自状态m

k+1到状态m

k的转换,所述转换的数据块的比例表示为:δ(m

k+1)
·
P(m

k+1),完成修复的平均块数为:R
av...

【专利技术属性】
技术研发人员:王明阳宋罡汪波杨阿锋刘涛王军良姚英彪王明飞马祥春徐欣
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1