一种并发层次式的重复数据消除方法和系统技术方案

技术编号：4052806 阅读：272 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种并发层次式的重复数据消除方法和系统。所述方法包括下列步骤：输入装置接收到外部输入的数据，并将所述数据放入共享缓冲队列；多个分块装置并行地从所述缓冲队列中获取所述数据并进行分块，并将划分后的块输入给多个粗粒度去重装置进行粗粒度去重；所述粗粒度去重装置进行粗粒度去重，判断数据块是否重复，若是，则将重复数据块的索引信息通过数据读写子系统写入存储器；否则细粒度去重装置对非重复的数据块执行细粒度的去重，并将去重后的数据块及其索引信息通过数据读写子系统存入存储器。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息安全领域，特别是涉及一种可以有效利用多核计算资源的并发层次式的重复数据消除方法和系统。
技术介绍
随着信息化程度的不断提高，数据量不断爆炸式增长。据统计，2002年全球产生了 5EB的数据，并且以每年30%速度迅速增长，预计到2010年，全球数据总量将超过988EB。同时，数据的重要性不断提高，越来越多的数据需要通过归档和备份进行集中存储，据企业战略集团(Enterprise StrategyGroup, ESG)统计，归档和备份的数据量每年以60%的速度迅速增长，规模已达PB级并且很快会增长到百PB级；备份系统中的数据量通常会达到生产系统的10倍到20倍。而在备份、归档等集中存储系统中，存在大量的冗余数据信息，某些情况下冗余数据量甚至可以达到几十倍甚至上百倍。例如办公自动化系统中，文件流转、版本修订比较普遍，一个文件可能抄送给多个人，一个文件可能有多个版本，这其中有大量的重复数据；另外，群发邮件也会导致巨大的冗余信息。在这种情况下，消除冗余信息、节省存储空间就成为需要解决的重要问题。目前，在初期，大量的研究工作都集中在消冗率的提升方面，通过不断减小数据消冗粒度来提高消冗率。美国易安信公司(EMC)的Centera内容寻址系统、windows的单实例存储系统采用了以文件为单位的数据消冗方法，该方法的优点是实现简单、计算速度快，但是检测粒度较粗，消冗效果差；为了提高消冗率，研究者又提出了定长块的检测方法，将一个文件分成固定长度的数据块，以数据块为单位进行消冗，该方法的优点是计算速度快、对数据变化反应比较敏感，主...

【技术保护点】
一种并发层次式的重复数据消除方法，其特征在于，所述方法，包括下列步骤：步骤１００．输入装置接收到外部输入的数据，并将所述数据放入共享缓冲队列；步骤２００．多个分块装置并行地从所述缓冲队列中获取所述数据并进行分块，并将划分后的块输入给多个粗粒度去重装置进行粗粒度去重；步骤３００．所述粗粒度去重装置进行粗粒度去重，判断数据块是否重复，若是，则执行步骤５００，否则执行步骤４００；步骤４００．细粒度去重装置对非重复的数据块执行细粒度的去重，并将去重后的数据块及其索引信息通过数据读写子系统存入存储器；步骤５００．将重复数据块的索引信息通过数据读写子系统写入存储器。

【技术特征摘要】

【专利技术属性】
技术研发人员：王树鹏，云晓春，包秀国，李楠宁，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人