面向大规模集群消重的应用感知数据路由方法及系统技术方案

技术编号:10181493 阅读:198 留言:0更新日期:2014-07-03 11:18
本发明专利技术公开一种面向大规模集群消重的应用感知数据路由方法及实现本方法的大规模备份存储集群系统。应用感知数据路由方法包括:S10)获取备份文件元信息,S20)感知文件应用类型,S30)计算消重存储节点负载,S40)选取文件路由节点,S50)发送文件到目标节点和S60)处理节点内文件消重等步骤;大规模备份存储集群系统包括多个备份客户端、一个备份服务器和多个消重存储服务器。本发明专利技术的数据路由方法及系统具有数据消重率高、节点吞吐率高、系统通信开销小、系统负载均衡的特点。

【技术实现步骤摘要】
面向大规模集群消重的应用感知数据路由方法及系统
本专利技术属于信息存储及集群计算
,特别是一种面向大规模集群消重的应用感知数据路由方法及大规模备份存储集群系统。
技术介绍
在众多管理海量数据的备份存储系统内数据高度冗余,集群消重(ClusterDeduplication)技术是在备份存储服务器集群系统上实现分布并行的数据消重处理,能够满足海量备份数据管理在容量和性能上的可扩展需求。为构建节能、环保、高效的绿色数据中心,集群消重已成为当前数据中心存储管理的核心技术。出于对系统开销的考虑,集群消重往往选择松耦合设计,不去执行跨节点的数据消重。备份客户端发送的数据先通过数据路由分配到各个消重存储服务器节点,消重存储服务器再独立并行地删除节点内重复的数据内容。数据路由直接影响备份数据的存储空间利用率、消重存储服务器节点的系统吞吐率、消重存储服务器集群的负载均衡和通信开销。因此,数据路由方法对集群消重效率的提升至关重要。目前,集群消重的数据路由方法主要有三种:基于分布式哈希表的块级数据路由方法、基于状态信息的超块级数据路由方法、以及基于相似性的文件级数据路由方法。基于分布式哈希表的块级数据路由方法,如USENIXFAST’09会议论文“HYDRAstor:aScalableSecondaryStorage”(公开日:2009-02-23)和中国专利技术专利申请“分布式的重复数据删除系统及其方法”(申请号:201110461322.2,公开日:2011-12-28),是将数据块特征值按分布式哈希表分配到不同数据消重节点。虽然该方法能够有效地提高空间利用率和降低通信开销,但不能保留住节点内的数据局部性而影响系统吞吐率。基于状态信息的超块级数据路由方法,如USENIXFAST’11会议论文“TradeoffsinScalableDataRoutingforDeduplicationClusters”(公开日:2011-02-14),将划分后连续的许多数据块合并成粒度均匀的超块,超块路由前都需要查询其所含数据块与各个节点内已存数据块的重复数,然后在考虑负载平衡的前提下尽量将超块路由到重复数据块数最多的节点。这种策略能在负载平衡的前提下获得高数据缩减率,但其广播式的系统通信开销以及节点内频繁的块指纹查询操作严重影响了系统性能。基于相似性的文件级数据路由,如IEEE/ACMMASCOTS’09会议论文“ExtremeBinning:Scalable,ParallelDeduplicationforChunkbasedFileBackup”(公开日:2009-09-21),利用基于Broder最小值独立置换定理选取文件内数据块指纹的最小值作为文件的相似特征,按分布式哈希机制将相似的文件路由到相同的消重存储服务器节点,但当数据流中相似性较低时,不能检测出文件相似性,备份数据的集群消重效果较差。总之,现有技术存在的问题是:对数据中心成百上千个节点规模的集群消重,存在数据消重率低、节点吞吐率低、系统通信开销大和系统负载不均衡等缺陷。
技术实现思路
本专利技术的目的在于提供一种面向大规模集群消重的应用感知数据路由方法及系统,具有数据消重率高、节点吞吐率高、系统通信开销小和系统负载均衡的特点。实现本专利技术目的的技术解决方案为:一种面向大规模集群消重的应用感知数据路由方法,所述大规模备份存储集群系统包括多个备份客户端(100)、一个备份服务器(200)和多个消重存储服务器(300),其特征在于,包括如下步骤:S10)获取备份文件元信息:备份客户端(100)向备份服务器(200)发送包含文件的名称、用户和大小等文件元信息的文件备份请求消息;S20)感知文件应用类型:备份服务器(200)根据文件元信息对备份文件的应用类型进行划分,并查询应用索引结构,获取可存放相应类型应用文件的候选消重存储服务器(300)节点列表;S30)计算消重存储节点负载:备份服务器(200)通过查询应用感知索引结构获取各消重存储服务器(300)节点的实时动态负载信息,并根据这些节点负载信息和备份文件元信息计算出可保持负载平衡的低负载消重存储服务器(300)节点列表;S40)选取文件路由节点:备份服务器(200)分析候选消重存储服务器节点列表和低负载消重存储服务器节点列表,选取存放相同类型应用数据的一个低负载候选服务器节点作为文件路由目标节点,并将结果返回给备份客户端(100);S50)发送文件到目标节点:备份客户端(100)根据备份服务器(200)返回的文件路由决策结果,将备份会话内的各个文件发送到相应的路由目标消重存储服务器(300)节点;S60)处理节点内文件消重:消重存储服务器(300)节点根据应用文件数据格式和内容的差异,独立地对不同类型的应用文件进行数据消重处理。一种用于实现面向大规模集群消重的应用感知数据路由方法的大规模备份存储集群系统,包括多个备份客户端(100)、一个备份服务器(200)和多个消重存储服务器(300),其特征在于:所述备份客户端(100)用于向备份服务器(200)发送包含文件的名称、用户和大小等文件元信息的文件备份请求消息,备份服务器(200)用于根据文件元信息感知备份文件的应用类型,并查询应用索引结构,获取可存放相应类型应用文件的候选消重存储服务器(300)节点号列表;备份服务器(200)用于通过查询应用感知索引结构获取各消重存储服务器(300)节点的实时动态负载信息,并根据这些节点负载信息和备份文件元信息计算出可保持负载平衡的低负载消重存储服务器(300)节点列表;备份服务器(200)用于分析候选消重存储服务器节点列表和低负载消重存储服务器节点列表,选取存放相同类型应用数据的一个低负载候选节点作为文件路由目标节点,并将结果返回给备份客户端(100);备份客户端(100)根据备份服务器(200)返回的文件路由决策结果,将备份会话内的各个文件发送到相应的路由目标消重存储服务器(300)节点;消重存储服务器(300)节点用于根据应用文件数据格式和内容的差异,独立地对不同类型的应用文件进行数据消重处理。本专利技术与现有技术相比,其显著优点:1、数据消重率高:通过应用感知的数据路由策略将相似的数据分配到同一消重存储服务器节点,减少各个节点之间的数据重叠,对同一消重存储服务器节点内的文件按应用独立地进行数据消重处理;2、节点吞吐率高:基于文件粒度分配数据,保持很好的数据访问局部性;3、系统负载平衡:根据各个消重存储服务器节点的实际物理存储容量来动态分配存储资源,保证整个备份存储集群系统的负载平衡;4、通信开销低:以应用为粒度来判断数据路由,极大地减少了系统的消息通信开销。总之,本专利技术提供一种可支持成百上千节点规模的备份存储集群系统进行集群消重的应用感知数据路由方法。它不仅能够极大地节省备份数据的存储空间使用,还能优化消重存储服务器节点的消重吞吐率,减少集群系统内部的通信开销,以及保持各个消重存储服务器节点的负载平衡。下面结合附图和具体实施方式对本专利技术作进一步的详细描述。附图说明图1是本专利技术大规模备份存储集群系统结构示意图。图2是本专利技术面向大规模集群消重的应用感知数据路由方法主流程图。图3是感知文件应用类型原理图。图4是图2中选取文件路由节点步骤流本文档来自技高网
...
面向大规模集群消重的应用感知数据路由方法及系统

【技术保护点】
一种面向大规模集群消重的应用感知数据路由方法,所述方法实现于大规模备份存储集群系统,包括多个备份客户端(100)、一个备份服务器(200)和多个消重存储服务器(300),其特征在于,包括如下步骤:S10)获取备份文件元信息:备份客户端(100)向备份服务器(200)发送包含文件的名称、用户和大小等文件元信息的文件备份请求消息;S20)感知文件应用类型:备份服务器(200)根据文件元信息对备份文件的应用类型进行划分,并查询应用索引结构,获取可存放相应类型应用文件的候选消重存储服务器(300)节点列表;S30)计算消重存储节点负载:备份服务器(200)通过查询应用感知索引结构获取各消重存储服务器(300)节点的实时动态负载信息,并根据这些节点负载信息和备份文件元信息计算出可保持负载平衡的低负载消重存储服务器(300)节点列表;S40)选取文件路由节点:备份服务器(200)分析候选消重存储服务器节点列表和低负载消重存储服务器节点列表,选取存放相同类型应用数据的一个低负载候选节点作为文件路由目标节点,并将结果返回给备份客户端(100);S50)发送文件到目标节点:备份客户端(100)根据备份服务器(200)返回的文件路由决策结果,将备份会话内的各个文件发送到相应的路由目标消重存储服务器(300)节点;S60)处理节点内文件消重:消重存储服务器(300)节点根据应用文件数据格式和内容的差异,独立地对不同类型的应用文件进行数据消重处理。...

【技术特征摘要】
1.一种面向大规模集群消重的应用感知数据路由方法,所述方法实现于大规模备份存储集群系统,包括多个备份客户端(100)、一个备份服务器(200)和多个消重存储服务器(300),包括如下步骤:S10)获取备份文件元信息:备份客户端(100)向备份服务器(200)发送包含文件的名称、用户和大小等文件元信息的文件备份请求消息;S20)感知文件应用类型:备份服务器(200)根据文件元信息对备份文件的应用类型进行划分,并查询应用索引结构,获取可存放相应类型应用文件的候选消重存储服务器(300)节点列表;S30)计算消重存储节点负载:备份服务器(200)通过查询应用感知索引结构获取各消重存储服务器(300)节点的实时动态负载信息,并根据这些节点负载信息和备份文件元信息计算出可保持负载平衡的低负载消重存储服务器(300)节点列表;S40)选取文件路由节点:备份服务器(200)分析候选消重存储服务器节点列表和低负载消重存储服务器节点列表,选取存放相同类型应用数据的一个低负载候选节点作为文件路由目标节点,并将结果返回给备份客户端(100);S50)发送文件到目标节点:备份客户端(100)根据备份服务器(200)返回的文件路由决策结果,将备份会话内的各个文件发送到相应的路由目标消重存储服务器(300)节点;S60)处理节点内文件消重:消重存储服务器(300)节点根据应用文件数据格式和内容的差异,独立地对不同类型的应用文件进行数据消重处理;其特征在于,所述感知文件应用类型(S20)步骤包括:S21)获取文件元信息:备份服务器(200)获取备份请求中的文件元信息,包括文件的名称、用户和大小,文件名称包括前缀和后缀,由后缀定义应用类型;S22)查询应用索引结构:根据文件名称确定的应用类型查询应用索引结构,应用索引包含应用类型、节点号和数据量等索引项;S23)获取候选消重存储服务器节点号:从应用索引结构中找出存放相同应用类型文件的消重存储服务器节点号,并将结果保存到候选消重存储服务器节点列表。2.根据权利要求1所述的应用感知数据路由方法,其特征在于,所述计算消重存储节点负载(S30)步骤包括:S31)计算消重存储服务器节点已使用的物理容量:消重存储服务器节点i的物理容量Ci可表示为,其中i=1,2,...,N;其中,N为消重存储服务器集群服务器节点个数,K为节点i上存放的应用文件种类数,Cij为通过查询应用索引结构得到的消重存储服务器节点i上存放应用类型j的对应物理容量;S32)查找低负载消重存储服务器节点:当Ci+S<Ti时,判定节点i为低负载节点,将节点号i填加到低负载消重存储服务器节点列表中;其中,Ti为消重存储服务器节点i的负载阈值,S为备份文件的大小。3.根据权利要求1所述的应用感知数据路由方法,其特征在于,所述选取文件路由节点(S40)步骤包括:S41)输入存有相同应用文件的候选消重存储服务器节点列表LIST1和低负载消重存储服务器节点列表LIST2;S42)判断这两个节点列表的交集LIST1∩LIST2是否为空,如是则转步骤S43,如否则转到步骤S46;S43)判断低负载消重存储服务器节点列表LI...

【专利技术属性】
技术研发人员:付印金胡谷雨倪桂强谢钧
申请(专利权)人:中国人民解放军理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1