低延时高吞吐量的多副本文件读写优化方法技术

技术编号:13345118 阅读:119 留言:0更新日期:2016-07-14 13:33
本发明专利技术涉及一种低延时高吞吐量的多副本文件读写优化方法,其包括允许若干客户端进行访问的分布式存储集群,所述分布式存储集群包括若干用于多个文件副本的数据节点,客户端能对分布式存储集群内数据节点存储进行多副本文件的读写操作;客户端内存储记录每个数据节点的访问耗时,在读取分布式存储集群内的副本文件时,确定分布式存储集群内存储待读取副本文件的数据节点,客户端访问待读取副本文件所在数据节点中访问耗时最优的数据节点,以读取所访问数据节点内的副本文件。本发明专利技术在读写流程优化后,能对在线业务支持低延时响应,且对离线业务保证高吞吐量,灵活性高,安全可靠。

【技术实现步骤摘要】
低延时高吞吐量的多副本文件读写优化方法
本专利技术涉及一种文件读写方法,尤其是一种低延时高吞吐量的多副本文件读写优化方法,属于分布式文件读写的

技术介绍
随着分布式存储系统的发展,越来越多的企业在面对涉及到大量数据的业务时,都毫不犹豫的选择分布式存储系统作为底层的数据支撑。但是随着软硬件环境的发展,例如万兆网络、异构硬件、业务混合部署等特点;传统的分布式文件读写模式已经无法有效地支撑高吞吐要求的离线业务和低延时要求的在线业务。
技术实现思路
本专利技术的目的是克服现有技术中存在的不足,提供一种低延时高吞吐量的多副本文件读写优化方法,其在读写流程优化后,能对在线业务支持低延时响应,且对离线业务保证高吞吐量,灵活性高,安全可靠。按照本专利技术提供的技术方案,所述低延时高吞吐量的多副本文件读写优化方法,包括允许若干客户端进行访问的分布式存储集群,所述分布式存储集群包括若干用于多个文件副本的数据节点,客户端能对分布式存储集群内数据节点存储进行多副本文件的读写操作;客户端内存储记录每个数据节点的访问耗时,在读取分布式存储集群内的副本文件时,确定分布式存储集群内存储待读取副本文件的数据节点,客户端访问待读取副本文件所在数据节点中访问耗时最优的数据节点,以读取所访问数据节点内的副本文件。在利用流水线方式向分布式存储集群内数据节点写入所需数量的副本文件时,客户端在发起流水线写入请求后开始计时,当写请求在流水线上的响应时间超过预设时间阈值后,客户端根据当前流水线中每个数据节点的访问耗时,删除当前流水线中访问耗时最慢的数据节点,并利用剩余的数据节点组成流水线完成副本文件的写入,缺少的副本文件在流水线写入结束后采用异步写入相应的数据节点内。在利用分发写入方式向分布式存储集群内的数据节点写入所需数量的副本文件时,在客户端内设置安全副本写入量,当向分布式存储集群内的数据节点写入的副本文件数量达到安全副本写入量时,则分布式存储集群向客户端返回写入成功,缺少的副本文件采用异步方式继续写入对应的数据节点内。客户端访问待读取副本文件所在数据节点中访问耗时最优的数据节点时,同时对所访问数据节点进行响应计时,当经过预设响应时间后未收到数据节点的响应,则客户端会即刻向其他待读取副本文件所在的数据节点发起访问请求,在收到任意一数据节点的请求响应后,客户端取消对数据节点的访问请求,并对响应请求的数据节点进行访问,以读取所访问数据节点内的副本文件。所述分布式存储集群还包括控制节点、命名空间节点以及元数据节点;元数据节点负责维护数据节点内文件的元数据信息,命名空间节点负责维护文件系统的目录树;控制节点能收集数据节点定时发送的保活心跳信息,并在统计数据节点的相关信息后,控制节点将统计的相关信息推送给元数据信息。所述控制节点、命名空间节点以及元数据节点均具有对应的热备节点,若命名空间节点或元数据节点与对应的热备节点进行主从切换时,能通过控制节点找到命名空间节点对应的热备节点的地址以及元数据节点对应的热备节点的地址。本专利技术的优点:能够在运行过程中及时检测出慢节点,并迅速规避,保证集群中所有工作机器都是状态良好的,数据写入模式是客户端可控的,用户可以根据当前集群特点以及业务特点动态调整写入方式,灵活性较高,从而读写流程能够对在线业务支持低延时响应,对离线业务保证高吞吐量,安全可靠。附图说明图1为本专利技术的结构图。图2为现有流水线写入方式的示意图。图3为本专利技术流水线写入方式的示意图。图4为本专利技术分发写入方式的示意图。具体实施方式下面结合具体附图和实施例对本专利技术作进一步说明。如图1所示:为了在读写流程优化后,能对在线业务支持低延时响应,且对离线业务保证高吞吐量,本专利技术包括允许若干客户端进行访问的分布式存储集群,所述分布式存储集群包括若干用于多个文件副本的数据节点,客户端能对分布式存储集群内数据节点存储进行多副本文件的读写操作;客户端内存储记录每个数据节点的访问耗时,在读取分布式存储集群内的副本文件时,确定分布式存储集群内存储待读取副本文件的数据节点,客户端访问待读取副本文件所在数据节点中访问耗时最优的数据节点,以读取所访问数据节点内的副本文件。具体地,在实际情况中,不同的数据节点所处的状态不完全相同,可能会造成它们在处理相同的请求时所花费的时间不同,甚至有可能差异较大,所以客户端在访问时会记录其访问各个数据节点的耗时,访问耗时主要包括读文件耗时以及写文件耗时,所述访问耗时可以衡量数据节点当前的健康状态(工作负载、网络连通性等)。由于副本文件在分布式存储集群中是冗余存储,不同的副本文件放置在不同的数据节点上,所以客户端在读取副本文件时,会根据记录的存储了副本文件的数据节点的健康状态来挑选最优的数据节点来访问,以缩短副本文件读取时间。具体实施时,客户端记录的数据节点健康状态有可能是过期信息,即此时客户端记录的健康状态良好的数据节点实际有可能已经变成了慢节点,为了避免数据请求误落入慢节点上,客户端访问待读取副本文件所在数据节点中访问耗时最优的数据节点时,同时对所访问数据节点进行响应计时,当经过预设响应时间后未收到数据节点的响应,则客户端会即刻向其他待读取副本文件所在的数据节点发起访问请求,在收到任意一数据节点的请求响应后,客户端取消对数据节点的访问请求,并对响应请求的数据节点进行访问,以读取所访问数据节点内的副本文件。进一步地,所述分布式存储集群还包括控制节点、命名空间节点以及元数据节点;元数据节点负责维护数据节点内文件的元数据信息,命名空间节点负责维护文件系统的目录树;控制节点能收集数据节点定时发送的保活心跳信息,并在统计数据节点的相关信息(相关信息包括数据节点汇报的自己存储的数据块信息,控制节点根据收集到的数据节点上的数据块信息进行负载平衡;相关信息还包括控制节点到数据节点的网络延迟,数据节点当前正在处理的请求负载情况等)后,控制节点将统计的相关信息推送给元数据信息。进一步地,所述控制节点、命名空间节点以及元数据节点均具有对应的热备节点,若命名空间节点或元数据节点与对应的热备节点进行主从切换时,能通过控制节点找到命名空间节点对应的热备节点的地址以及元数据节点对应的热备节点的地址。命名空间节点与对应的热备节点的主从切换,具体是指当前的命名空间节点与作为备用的热备节点相互切换,备用的热备节点作为当前的命名空间节点,进而,命名空间节点作为热备节点,具体过程为本
人员所熟知,此处不再赘述。每个命名空间节点负责维护目录树中的一部分,元数据节点保持着与客户端之间的文件操作约束,另外,元数据节点在收到控制节点发送过来的数据节点的接入、离开通知书,需要做出相应的处理(所述处理包括元数据节点在收到控制节点发送过来的数据节点接入通知后,需要根据一定的负载平衡策略,将其他数据节点上的数据块转存到新加入的数据节点上;元数据节点在收到数据节点离开的通知时,需要将原先存储在该数据节点上的数据块通过其他数据节点上的副本进行重新转存)。副本文件在数据节点内是分块存储的,块的大小可以配置,当副本文件不满足配置块的大小时,按实际大小进行存储。在利用流水线方式向分布式存储集群内数据节点写入所需数量的副本文件时,客户端在发起流水线写入请求后开始计时,当写请求在流水线上的响应时间超过预设时间本文档来自技高网
...

【技术保护点】
一种低延时高吞吐量的多副本文件读写优化方法,其特征是:包括允许若干客户端进行访问的分布式存储集群,所述分布式存储集群包括若干用于多个文件副本的数据节点,客户端能对分布式存储集群内数据节点存储进行多副本文件的读写操作;客户端内存储记录每个数据节点的访问耗时,在读取分布式存储集群内的副本文件时,确定分布式存储集群内存储待读取副本文件的数据节点,客户端访问待读取副本文件所在数据节点中访问耗时最优的数据节点,以读取所访问数据节点内的副本文件。

【技术特征摘要】
1.一种低延时高吞吐量的多副本文件读写优化方法,其特征是:包括允许若干客户端进行访问的分布式存储集群,所述分布式存储集群包括若干用于多个文件副本的数据节点,客户端能对分布式存储集群内数据节点存储进行多副本文件的读写操作;客户端内存储记录每个数据节点的访问耗时,在读取分布式存储集群内的副本文件时,确定分布式存储集群内存储待读取副本文件的数据节点,客户端访问待读取副本文件所在数据节点中访问耗时最优的数据节点,以读取所访问数据节点内的副本文件;在利用流水线方式向分布式存储集群内数据节点写入所需数量的副本文件时,客户端在发起流水线写入请求后开始计时,当写请求在流水线上的响应时间超过预设时间阈值后,客户端根据当前流水线中每个数据节点的访问耗时,删除当前流水线中访问耗时最慢的数据节点,并利用剩余的数据节点组成流水线完成副本文件的写入,缺少的副本文件在流水线写入结束后采用异步写入相应的数据节点内;在利用分发写入方式向分布式存储集群内的数据节点写入所需数量的副本文件时,在客户端内设置安全副本写入量,当向分布式存储集群内的数据节点写入的副本文件数量达到安全副本写入量时,则分布式存储集群向客户端返回写入成功,...

【专利技术属性】
技术研发人员:王辉刘斌台宪青
申请(专利权)人:江苏物联网研究发展中心
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1