当前位置: 首页 > 专利查询>清华大学专利>正文

一种分布式文件系统元数据的解耦合分布方法技术方案

技术编号:15690976 阅读:105 留言:0更新日期:2017-06-24 03:48
本发明专利技术公开了一种分布式文件系统元数据的解耦合分布方法,包括:对分布式文件系统的元数据进行分离,以得到目录的元数据、目录项的元数据和文件的元数据;将所述目录元数据集中存储在目录元数据索引节点,并不包含指向目录项的指针。根据所述目录索引节点执行目录操作。将每个目录项元数据分割之后与之相关的文件元数据存放在同一个节点,并建立指向目录元数据的反向索引。本发明专利技术具有如下优点:减少了分布式文件系统访问元数据时各个节点之间的信息交互,降低了元数据访问的延迟,同时,通过分离目录内容的方法,解耦合了文件和目录之间的强关联性,能够达到很高的吞吐量,从而提高了分布式文件系统对于元数据的处理效率。

A decoupled distribution method for metadata in distributed file system

The invention discloses a decoupling distributed file system metadata and distribution methods, including: separation of metadata in distributed file system, metadata, directory and file metadata items; the directory metadata stored in the metadata directory inode, not contains pointers to directory entries. The directory node performs directory operations according to the directory index. After each directory metadata file metadata associated with the stored on the same node, and the establishment of inverted index points to directory metadata. The invention has the following advantages: reducing the distributed file system for information exchange between each node to access the metadata, reduces the metadata access delay, at the same time, through the method of separation of contents, decoupling strong relevance between files and directories, can reach a high throughput, thereby improving the distributed file system for the treatment efficiency of metadata.

【技术实现步骤摘要】
一种分布式文件系统元数据的解耦合分布方法
本专利技术涉及计算机领域,具体涉及一种分布式文件系统元数据的解耦合分布方法。
技术介绍
分布式文件系统是一种支持海量数据存储的新型存储系统,被广泛应用于数据中心,超算中心和公有云平台。分布式文件系统具有很多好的优点相对于传统的集中式存储。如可以对存储数据进行横向扩展,通过增加存储节点的方式可以动态的扩充存储的容量,并保证访问吞吐量的同步提升。其次,分布式文件系统相对于传统的集中式存储具有灵活的容错策略,可以使用副本机制和纠删码进行分布式的容错。分布式文件系统还可以使用更加廉价的存储和计算设备去构建一个大规模的存储集群,以保证大量数据的访问。但是受限于文件系统的访问标准(POSIX),分布式文件系统的元数据访问往往成为了其性能的瓶颈。其元数据的访问往往无法满足高吞吐量和低延时的需求,但是在实际的系统中,超过一半以上的数据访问需要经过元数据节点。为了解决分布式文件系统元数据的可扩展性,现有的技术主要有下面三种:一种是基于动态目录树的分布式元数据节点扩展方法,这种方法的特点是将分布式文件系统的名字空间按照子目录分为不同的子树,每个子树独立的存放在某一个节点,并且更具访问的负载动态的调节存放的节点。这种方式的优势是能够根据负载的同步动态的调整访问的位置,但是这种方式无法解决文件访问的路径回朔问题,当访问一个文件的时候,需要访问整个路径的所有目录,而这些目录往往没有存放在同一个节点,往往造成了较大的访问延迟。另一种是基于哈希算法的元数据扩展方法,其特点是将一个目录内的文件通过哈希的方式将元数据分配到不同的节点。这种方式的优势是针对一个目录中有大量的文件时,能够降低文件访问的负载。但是无法解决目录的扩展性问题。第三种方法是通过利用键值数据库存储文件元数据的方法,这种方法利用了键值数据库访问快,延时低的特点,但是这种方法依然存在路径如第一种方法存在的路径查找问题,依然无法解决访问时延时较低的问题。为了解决路径延时的问题,这些方法往往在客户端缓存元数据,但是这又带来了很多不一致性的开销,从而无法从更本上解决问题。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此,本专利技术的一个目的在于提出一种分布式文件系统元数据的解耦合分布方法,以解决分布式文件系统的元数据扩展性,吞吐率不高和延迟较低的问题。为了实现上述目的,本专利技术的实施例公开了一种分布式文件系统元数据的解耦合分布方法,包括以下步骤:S1:对分布式文件系统的元数据进行分离,以得到目录索引节点的元数据、目录项的元数据和文件的元数据;S2:将所述目录的元数据设置在目录索引节点;S3:将每个目录项根据文件的分布情况进行分割,并在文件存放的节点存储与之相关的目录项,并建立指向目录元数据的反向索引。进一步地,所述目录操作包括目录的创建、目录的删除、读取目录、获取目录的所有元数据、改变目录所在的用户组和改变目录所属的用户。进一步地,还包括:提供全局唯一确定文件的标识;计算所需要访问的文件的全局所述标识的哈希值;根据所述哈希值定位元数据存放的节点。进一步地,所述标识为文件的完整路径。进一步地,还包括:当创建文件或者目录时,在创建文件或者目录的节点创建一个包含所述文件或者所述目录的父目录路径的所有目录项;如果所述目录项的全部或者部分已经在该节点创建,则创建余下的目录项。进一步地,还包括:当删除一个文件的时候,删除所述文件所在节点的元数据和所述文件所在节点对应的目录项元数据指向所述文件的项目。进一步地,还包括:当进行读取目录或删除目录操作时,访问所有的元数据节点,以获得读取目录或删除目录下的所有目录项。进一步地,还包括:提供客户端缓存,其中,所述客户端缓存的目录元数据用于客户端创建文件的时候确定是否具有创建文件的权限;所述客户端在访问文件的元数据时,访问目录的元数据,以获取访问权限;当所述客户端具有访问权限时,访问文件的元数据。进一步地,还包括:在所述的目录元数据客户端的缓存失效时,进行目录元数据的目录的权限的更改和对于目录的删除。根据本专利技术实施例的分布式文件系统元数据的解耦合分布方法,所有的对于文件的元数据操作至多访问2次节点,在目录元数据的缓存情况下,只需要访问一次节点,其延时仅仅为一次访问往返的RTT,由于使用键值存储,所以对于元数据获取的延时非常低,在以太网的RTT延时上可以忽略不计,所以这种方法能够有效的减少了分布式文件系统访问元数据时各个节点之间的信息交互,降低了元数据访问的延迟,同时,通过分离目录内容的方法,解耦合了文件和目录之间的强关联性,能够达到很高的吞吐量,从而提高了分布式文件系统对于元数据的处理效率。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术实施例的分布式文件系统元数据的解耦合分布方法的流程图;图2是本专利技术一个实施例的整体系统架构图;图3是本专利技术一个实施例的目录分割解耦合的示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。参照下面的描述和附图,将清楚本专利技术的实施例的这些和其他方面。在这些描述和附图中,具体公开了本专利技术的实施例中的一些特定实施方式,来表示实施本专利技术的实施例的原理的一些方式,但是应当理解,本专利技术的实施例的范围不受此限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。以下结合附图描述本专利技术。图1是本专利技术实施例的分布式文件系统元数据的解耦合分布方法的流程图。如图1所示,根据本专利技术实施例的分布式文件系统元数据的解耦合分布方法,包括以下步骤:S1:对分布式文件系统的元数据进行分离,以得到目录的元数据、目录项的元数据和文件的元数据。S2:将所述目录的元数据设置在目录索引节点。S3:将每个目录项根据文件的分布情况进行分割,并在文件存放的节点存储与之相关的目录项,并建立指向目录元数据的反向索引。在本专利技术的一个实施例中,将文件系统的目录元数据集中存储在一个节点。在这种方式下,目录索引节点的元数据信息不包含指向目录项元数据的地址。仅仅保留基本的目录数据,包括但不限于目录的创建时间,目录的权限标识,目录所在的组标识,目录所属的用户标识。在此基础之上,对于大部分与目录索引节点的元数据相关而与目录项元数据无关的元数据操作都将仅仅在存储目录索引元数据的这个节点上进行。目录操作包括目录的创建、目录的删除、读取目录、获取目录的所有元数据、改变目录所在的用户组和改变目录所属的用户。在本专利技术的一个实施例中,还包括一种基于哈希的分布式的文件元数据存储机制。这种存储机制支持将对于文件元数据的存储和访问扩展到多个节点,从而达到平衡系统负载的目的。这种算法使用可以在全局唯一确定一个文件的标识:当客户端对文件进行元数据操作时,客户端通过计算所需要访问的文件的全局唯一标识的哈希值,定位文件所存放的节点,在该节点对元数据进行操作。这种方法保证了对于本文档来自技高网
...
一种分布式文件系统元数据的解耦合分布方法

【技术保护点】
一种分布式文件系统元数据的解耦合分布方法,其特征在于,包括以下步骤:S1:对分布式文件系统的元数据进行分离,以得到目录的元数据、目录项的元数据和文件的元数据;S2:将所述目录的元数据设置在目录索引节点;S3:将每个目录项根据文件的分布情况进行分割,并在文件存放的节点存储与之相关的目录项,并建立指向目录元数据的反向索引。

【技术特征摘要】
1.一种分布式文件系统元数据的解耦合分布方法,其特征在于,包括以下步骤:S1:对分布式文件系统的元数据进行分离,以得到目录的元数据、目录项的元数据和文件的元数据;S2:将所述目录的元数据设置在目录索引节点;S3:将每个目录项根据文件的分布情况进行分割,并在文件存放的节点存储与之相关的目录项,并建立指向目录元数据的反向索引。2.根据权利要求1所述的分布式文件系统元数据的解耦合分布方法,其特征在于,所述目录操作包括目录的创建、目录的删除、读取目录、获取目录的所有元数据、改变目录所在的用户组和改变目录所属的用户。3.根据权利要求1所述的分布式文件系统元数据的解耦合分布方法,其特征在于,还包括:提供全局唯一确定文件的标识;计算所需要访问的文件的全局所述标识的哈希值;根据所述哈希值定位元数据存放的节点。4.根据权利要求3所述的分布式文件系统元数据的解耦合分布方法,其特征在于,所述标识为文件的完整路径。5.根据权利要求1所述的分布式文件系统元数据的解耦合分布方法,其特征在于,还包括:当创建文件或者目录时,在创建文件或者目录的节点创建一个包...

【专利技术属性】
技术研发人员:陆游游舒继武李思阳
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1