【技术实现步骤摘要】
本专利技术涉及分布式系统,更具体地,涉及一种用于分布式系统的数据处理方法及装置。
技术介绍
HDFS(Hadoop Distributed File System)是分布式文件系统的一个典型示例,接下来,以HDFS为例阐述现有的分布式文件系统的特点以及不足之处。HDFS采用的是主从架构(Master/Slave),一个HDFS集群中包括一个名字节点(NameNode),多个数据节点(DataNode)。名字节点是主存储节点,管理整个文件系统的命名空间和客户端的接入请求。在名字节点,可以执行打开/关闭/重命名文件或目录等操作。数据节点是从存储节点,用于接收来自客户端的读/写请求,同时根据名字节点的指令完成文件块的建立,删除和复制。为了提高存储的可靠性,通常为一个文件存储三个副本,并以固定块大小的方式存储各个副本,HDFS默认数据块大小是64MB。HDFS的备份机制根据文件副本因子的数量,将切分的块分别复制到其它数据节点,然后由名字节点记录并保存一个文件副本包括哪些数据块,以及分布在哪些数据节点的存储分布信息,也称为文件系统的元数据信息。然而,现有的分布式文件系统并没有考虑分布式程序的有效运行。以MapReduce程序为例,当处理以小的数据块所存储的数据文件时,会启动更多的映射(map)任务,但也会造成较大的开销。当采用大块时,可以减少客户端和主服务器通讯的需求,也会降低主服务器需要保 ...
【技术保护点】
一种用于分布式系统的数据处理方法,该分布式系统包括一个主存储节点以及多个从存储节点,所述方法包括:响应于写入数据文件的请求,在所述多个从存储节点上存储所述数据文件的多个副本,每个所述副本划分为大小相同的数据块,其中至少两个副本所划分出的数据块大小不同;存储所述多个副本的分布信息。
【技术特征摘要】
1.一种用于分布式系统的数据处理方法,该分布式系统包括一个主
存储节点以及多个从存储节点,所述方法包括:
响应于写入数据文件的请求,在所述多个从存储节点上存储所述数据
文件的多个副本,每个所述副本划分为大小相同的数据块,其中至少两个
副本所划分出的数据块大小不同;
存储所述多个副本的分布信息。
2.根据权利要求1所述的方法,其中,所述分布式系统还包括一个
主计算节点以及多个从计算节点,所述方法还包括:
获取包含可用计算单元数量以及所述多个副本的分布信息的运行时
信息,所述计算单元是所述从计算节点所包括的可分配的计算资源;
响应于读取数据文件的请求,根据所述运行时信息确定副本读取策
略。
3.根据权利要求2所述的方法,所述副本读取策略可以最大程度利
用可用计算单元并且读取的副本的数据块最大。
4.根据权利要求3所述的方法,其中,采用贪婪算法确定所述副本
读取策略以最大程度利用可用计算单元并且读取的副本的数据块最大。
5.根据权利要求2所述的方法,根据所述运行时信息确定所述副本
读取策略包括:
确定出最大程度利用所述可周计算单元的副本集合;
根据每个副本的数据块大小以及副本的获取成本确定所述副本集合
中每个副本的特征值;
根据所述特征值确定要读取的副本。
6.根据权利要求5所述的方法,至少使用以下方式中的一种确定所
述获取成本:
该副本所在的从存储节点的忙碌程度;
该副本所在的从存储节点至所述可用计算单元所在的从计算节点的
距离。
7.根据权利要求1所述的方法,所述响应于写入数据文件的请求,
在所述多个从存储节点上存储所述数据文件的多个副本包括:
响应于写入所述数据文件的一个数据块的写入请求,确定该数据块的
放置策略,该放置策略包括用于存放该数据块的从存储节点列表;
由该从存储节点列表中的任一从存储节点接收该数据块,并通过该任
一从存储节点将该数据块传送至其它从存储节点,直至创建完所需数量的
副本。
8.根据权利要求1所述的方法,其中,将一个副本所包括的多个数
据块存储在不同的从存储节点上。
9.根据权利要求1所述的方法,所述数据块的大小是可配置的。
10.一种用于分布式系统的数据处理装置,该分布式系统包括一个主
存储节点以及多个从存储节点,所...
【专利技术属性】
技术研发人员:陈冠诚,李严,李欣,滕启明,李剑,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。