基于数据温度和节点性能的异构Hadoop存储方法技术

技术编号:14295541 阅读:103 留言:0更新日期:2016-12-26 01:25
本发明专利技术提出了一种基于数据温度和节点性能的异构Hadoop存储方法,包括如下步骤:根据文件被访问频度、文件年龄、时间度,设定文件温度等级;根据文件被访问次数和文件温度等级,制定存储策略,建立文件温度和存储策略之间的直接映射;根据节点存储器的类型和节点性能值,确定各种块存储策略;根据文件温度等级和各种块存储策略之间的映射关系,将文件放置相应的存储器中。本发明专利技术所提出的异构Hadoop集群的存储方案,考虑了具有同类存储介质节点间的性能差异,这对于存储介质类型差别较小的集群是有效。

【技术实现步骤摘要】

本专利技术涉及存储方法
,特别涉及一种基于数据温度和节点性能的异构Hadoop存储方法
技术介绍
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。在Hadoop2.6.0版本中,Apache提出了将计算能力与不断增长的存储能力分离:拥有高密度低成本的存储但是计算能力较低的节点将变得可用,可以在集群中做冷存储。增加更多的节点作为冷存储可以提高集群的存储能力,这些节点跟集群的计算能力无关。HDFS对异构存储的支持主要有两个关键因素:存储类型和存储策略。其将存储器类型分为档案存储器(ARCHIEVE),磁盘(DISK),固态硬盘(Solid State Drives,SSDs)以及虚拟内存盘(RAM_DISK)四种。在HDFS的异构存储方案中,用户可以通过调用存储策略应用程序接口(APIs)在文件生命期的任意时候制定数据所要驻留的存储器类型。存储策略的一个典型应用是将经常访问的数据存放在固态硬盘存储器(Solid State Drives,SSDs)中,而将那些不常访问的数据放在档案存储器(ARCHIEVE)中,这将通过缩小应用延迟来优化整体的磁盘访问时间。HDFS针对异构集群的存储方案在对于将来要新部署的Hadoop集群是可行且有效的,但是现存的许多Hadoop集群中只存在磁盘和固态硬盘两种存储器,甚至有的集群只有磁盘一种存储器,同时集群中各节点之间性能相差较大。所以HDFS的异构存储方案对此类集群的性能改善有限。如中国专利CN 105138476 A的专利技术专利,该专利技术提供一种基于hadoop异构存储的数据存储方法及系统,然而,该专利技术只存在磁盘和固态硬盘两种存储器,甚至有的集群只有磁盘一种存储器,同时集群中各节点之间性能相差较大的问题。
技术实现思路
本专利技术的目的旨在至少解决所述技术缺陷之一。为此,本专利技术的目的在于提出一种具有同类存储介质节点间的性能差异的基于数据温度和节点性能的异构Hadoop存储方法。为了实现上述目的,本专利技术提供一种基于数据温度和节点性能的异构Hadoop存储方法,包括如下步骤:步骤S1,根据文件被访问频度、文件年龄、时间度,设定文件温度等级;步骤S2,根据文件被访问次数和文件温度等级,制定存储策略,建立文件温度和存储策略之间的直接映射;步骤S3,根据节点存储器的类型和节点性能值,确定各种块存储策略;步骤S4,根据文件温度等级和各种块存储策略之间的映射关系,将文件放置相应的存储器中。进一步的,在步骤S1中,所述文件温度等级包括:热、温、冷、冰冻。进一步的,在步骤S1中,当文件年龄为小于一周,最近一天访问频度大于30时,则文件温度等级为热;当文件年龄为大于一周且小于一月,最近一天访问频度大于15,最近一周访问频度大于30时,则文件温度等级为温;当文件年龄为大于一月且小于三月,最近一周访问频度等于0,最近一月访问频度大于0时,则文件温度等级为冷;当文件年龄为大于三月且小于一年,最近一月访问频度等于0时,则文件温度等级为冰冻。进一步的,在步骤S2中,文件温度和存储策略之间的直接映射为:当文件温度等级为热时,则块存储策略记为固态硬盘;当文件温度等级为温时,则块存储策略记为准固态硬盘;当文件温度等级为冷时,则块存储策略记为低性能磁盘;当文件温度等级为冰冻时,则块存储策略记为准档案存储器;当文件温度等级不在范围内时,则块存储策略记为磁盘。进一步的,在步骤S3中,节点性能值的计算步骤如下:首先,根据节点性能值、磁盘性能值、内存性能值、CPU性能值的特点,建立节点性能和磁盘的I/O性能、内存性能和节点的CPU处理能力之间的线性回归模型和线性回归模型矩阵;其次,根据多个节点执行基准测试工具以及分析节点日志信息,获得多组节点性能值、磁盘性能值、内存性能值、CPU性能值,将上述获得的性能值作为多元回归模型的样本数据,使用最小二乘法计算线性回归模型中的偏回归系数,获得偏回归系数估计量矩阵;最后,将偏回归系数估计量矩阵中的偏回归系数估计量代入线性回归模型中,计算节点的性能值。进一步的,所述线性回归模型为:Fi=β1+β2Di+β3Mi+β4Ci+e其中,用Fi表示节点i的性能值,Di表示磁盘性能值,Mi表示内存性能值,Ci表示CPU性能值,e表示机器的运行时间、老化程度以及机器所处机房的室温灰尘等不可控因素,β1、β2、β3和β4为偏回归系数,β2为当计算机的内存和CPU不变时,其磁盘I/O能力每增加一个单位对节点性能值Fi的效应,β3和β4同理;将Di、Mi和Ci视为自变量,将e视为方差;所述线性回归模型矩阵为: F 1 F 2 ... F n = 1 D 1 M 1 C 1 1 D 2 M 2 C 2 ... ... ... 本文档来自技高网
...
基于数据温度和节点性能的异构Hadoop存储方法

【技术保护点】
一种基于数据温度和节点性能的异构Hadoop存储方法,其特征在于,包括如下步骤:步骤S1,根据文件被访问频度、文件年龄、时间度,设定文件温度等级;步骤S2,根据文件被访问次数和文件温度等级,制定存储策略,建立文件温度和存储策略之间的直接映射;步骤S3,根据节点存储器的类型和节点性能值,确定各种块存储策略;步骤S4,根据文件温度等级和各种块存储策略之间的映射关系,将文件放置相应的存储器中。

【技术特征摘要】
1.一种基于数据温度和节点性能的异构Hadoop存储方法,其特征在于,包括如下步骤:步骤S1,根据文件被访问频度、文件年龄、时间度,设定文件温度等级;步骤S2,根据文件被访问次数和文件温度等级,制定存储策略,建立文件温度和存储策略之间的直接映射;步骤S3,根据节点存储器的类型和节点性能值,确定各种块存储策略;步骤S4,根据文件温度等级和各种块存储策略之间的映射关系,将文件放置相应的存储器中。2.如权利要求1所述的一种基于数据温度和节点性能的异构Hadoop存储方法,其特征在于:在步骤S1中,所述文件温度等级包括:热、温、冷、冰冻。3.如权利要求1所述的一种基于数据温度和节点性能的异构Hadoop存储方法,其特征在于:在步骤S1中,当文件年龄为小于一周,最近一天访问频度大于30时,则文件温度等级为热;当文件年龄为大于一周且小于一月,最近一天访问频度大于15,最近一周访问频度大于30时,则文件温度等级为温;当文件年龄为大于一月且小于三月,最近一周访问频度等于0,最近一月访问频度大于0时,则文件温度等级为冷;当文件年龄为大于三月且小于一年,最近一月访问频度等于0时,则文件温度等级为冰冻。4.如权利要求1所述的一种基于数据温度和节点性能的异构Hadoop存储方法,其特征在于:在步骤S2中,文件温度和存储策略之间的直接映射为:当文件温度等级为热时,则块存储策略记为固态硬盘;当文件温度等级为温时,则块存储策略记为准固态硬盘;当文件温度等级为冷时,则块存储策略记为低性能磁盘;当文件温度等级为冰冻时,则块存储策略记为准档案存储器;当文件温度等级不在范围内时,则块存储策略记为磁盘。5.如权利要求1所述的一种基于数据温度和节点性能的异构Hadoop存储方法,其特征在于:在步骤S3中,节点性能值的计算步骤如下:首先,根据节点性能值、磁盘性能值、内存性能值、CPU性能值的特点,建立节点性能和磁盘的I/O性能、内存性能和节点的CPU处理能力之间的线性回归模型和线性回归模型矩阵;其次,根据多个节点执行基准测试工具以及分析节点日志信息,获得多组节点性能值、磁盘性能值、内存性能值、CPU性能值,将上述获得的性能值作为多元回归模型的样本数据,使用最小二乘法计算线性回归模型中的偏回归系数,获得偏回归系数估计量矩阵;最后,将偏回归系数估计量矩阵中的偏回归系数估计量代入线性回归模型中,计算节点的性能值。6.如权利要求5所述的一种基于数据温度和节点性能的异构Hadoop存储方法,其特征在于:所述线性回归模型为:Fi=β1+β2Di+β3Mi+β4Ci+e其中,用Fi表示节点i的性能值,Di表示磁盘性能值,Mi表示内存性能值,Ci表示CPU性能值,e表示机器的运行时间、老化程度以及机器所处机房的室温灰尘等不可控因素,β1、β2、β3和β4为偏回归系数,β2为当计算机的内存和CPU不变时,其磁盘I/O能力每增加一个单位对节点性能值Fi的效应,β...

【专利技术属性】
技术研发人员:司宽社王坤鹏曾庆云
申请(专利权)人:江苏迪纳数字科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1