一种海量数据分布式存储的方法技术

技术编号：14626712 阅读：139 留言：0更新日期：2017-02-12 15:44

本发明专利技术公开了一种海量数据分布式存储的方法，将数据存储区分为data区、copy区和coding区，其中：data区用于存储源数据；copy区用于存储副本数据，copy区与data区构成一个多副本完全备份容灾系统；coding区用于和data区构成一个完整的信息关联容灾系统。与现有技术相比，本发明专利技术的积极效果是：本发明专利技术从大数据存储成本、效率和负载均衡的角度，提出并设计实现一种基于数据信息关联策略和动态副本策略相结合的新方法，该方法可以在保证集群数据安全性的同时，显著提高系统数据恢复的速度，优化系统的负载均衡能力，降低系统整体的存储成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种海量数据分布式存储的方法。
技术介绍
互联网技术的迅速发展、信息设备的普及、以及企业及个人对信息技术的广泛应用促进了数据的大规模增长。如果说以前的数据主要是业务部门产生和利用的话，如今则是全民制造和分享数据。数据正变得无处不在，并通过各种可能的方式影响着企业业务和每个人的生活，社会进入了大数据(bigdata)时代。数据的疯狂增长，也使得传统的数据存储模型遭遇了新的挑战：磁盘容量快速增加的同时，其访问速度并没有显著的提高，带来的直接后果是传统的数据存储方式无法胜任互联网时代的海量数据处理任务，Google率先设计并实现了一个新的分布式文件系统GFS(GoogleFileSystem)来解决了上述问题，继而Apache发布了GFS的开源版本HDFS(HadoopDistributedFileSystem)。HDFS是大数据分布式解决方案中非常优秀并且实用存储平台，可以从多方面解决大数据存储的问题，但其具有一个先天性的缺陷，即数据安全性只能通过增加副本的策略来保证。比如，假设每个结点出问题的概率为50％，则1份源数据加2份副本数据的策略，整个平台出问题的概率为12.5％；再增加6个副本，则该平台出问题的概率可以降为0.2％，但此时数据冗余度极大，将浪费8倍于源数据的存储空间。
技术实现思路
为了克服现有技术的上述缺点，本专利技术提供了一种海量数据分布式存储的方法，既可以解决大数据...

【技术保护点】
一种海量数据分布式存储的方法，其特征在于：将数据存储区分为data区、copy区和coding区，其中：data区用于存储源数据；copy区用于存储副本数据，copy区与data区构成一个多副本完全备份容灾系统；coding区用于和data区构成一个完整的信息关联容灾系统。

【技术特征摘要】
1.一种海量数据分布式存储的方法，其特征在于：将数据存储区分为data
区、copy区和coding区，其中：data区用于存储源数据；copy区用于存储副
本数据，copy区与data区构成一个多副本完全备份容灾系统；coding区用于
和data区构成一个完整的信息关联容灾系统。
2.根据权利要求1所述的一种海量数据分布式存储的方法，其特征在于：
所述多副本完全备份容灾系统是指：每次写数据时，首先将原始数据写入data
区，然后利用动态副本策略，系统自动进行数据复制，在copy区写入数据副
本。
3.根据权利要求2所述的一种海量数据分布式存储的方法，其特征在于：
所述动态副本策略是指：data区和copy区的存储节点通过心跳机制定期向管
理节点报告自身状态，管理节点据此判断该存储节点是否正常工作，一旦管理
节点接收不到某一存储节点发送来的状态信息，就会判定该存储节点不能正常
工作，从而将该存储节点上的数据重新恢复到其他正常工作的存储节点上，确
保整个文件系统中数据维持特定的副本数。
4.根据权利要求2所述的一种海量数据分布式存储的方法，其特征在于：
所述多副本完全备份容灾系统在数据存储和复制过程中，管理节点通过存储节
点的状态信息，均衡地分配待存储...

【专利技术属性】
技术研发人员：钟勇，周渭博，王阳，李振东，
申请(专利权)人：中科院成都信息技术股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人