数据存储方法及设备技术

技术编号:4216803 阅读:211 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了数据存储方法及设备,应用于数据存储技术领域。本发明专利技术实施例的数据存储方法,通过解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息用于指示所述待储存文件的属性信息;按照所述语义信息,将所述待储存文件分解为至少两个语义数据块,获取所述语义数据块的内容标识,所述内容标识用于指示所述语义数据块的内容信息,储存至少两个语义数据块,和待储存文件信息与所述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置,储存所述语义数据块以及所述内容标识与所述语义数据块的存储位置的第二映射关系,提高了文件搜索效率,方便对数据管理和检索。

【技术实现步骤摘要】

本专利技术涉及数据存储领域,特别涉及数据存储方法及设备
技术介绍
在如今的数据存储领域中,数据量的增长导致了包括硬件成本、维护成本和人力 成本在内的存储系统整体拥有成本(Total Cost of Ownership,TCO)的增长。减少数据传 输、数据存储和数据管理过程中的数据量就成为大规模分布式存储系统中的一个需求,而 重复数据删除技术是一种在文件内部层次通过无损的数据压縮方法来消除重复数据的技 术,在诸如数据归档等应用类型的存储系统中具有很好的应用价值。 现有的重复数据删除技术主要是基于比特级,将文件分割成互不交叠的数据块, 然后对内容相同的块在存储系统中只保存一份,一个被保存的数据块可能属于同一个文件 的不同部分,也可能属于多个文件的不同部分。 在对上述现有技术进行实践和研究的过程中,本专利技术的专利技术人发现 按照现有的数据存储方法进行文件的储存后,在查找文件时,系统需要先对有关的非重复大块进行检索,这些大块随机分布在存储设备中,要逐个地对文件进行重构,然后检查文件内容是否与要求的查询相匹配,这样会降低文件搜索效率;除此而外,由于现有技术是基于比特级对文件进行分割,因此在数据存储的过程中可能把差别很小的两个文件划分为几乎完全不同的数据块,不能很好的删除重复数据。
技术实现思路
本专利技术实施例提供数据存储方法及设备,提高了数据管理和数据检索的效率。 为实现上述目的,本专利技术实施例提供了如下方案 —种数据存储方法,包括 解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息用于指示 所述待储存文件的属性信息; 按照所述语义信息,将所述待储存文件分解为至少两个语义数据块; 获取所述语义数据块的内容标识,所述内容标识用于指示所述语义数据块的内容信息; 存储待储存文件信息与所述内容标识的第一映射关系,所述待储存文件信息用于 标识所述语义数据块的位置; 储存所述语义数据块以及所述内容标识与所述语义数据块的存储位置的第二映 射关系。 —种数据储存设备,包括 解析模块,用于解析待储存文件,得到所述待储存文件包括的语义信息,所述语义 信息用于指示待储存文件的属性信息; 语义分解模块,用于按照语义信息将待储存文件分解为至少两个语义数据块; 标识获取模块,用于获取所述语义分解模块分解的语义数据块的内容标识,所述 内容标识用于指示所述语义数据块的内容信息; 第一映射关系存储模块,用于存储待储存文件信息与所述标识获取模块获取的所述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置; 数据储存模块,用于储存所述语义分解模块分解的语义数据块; 第二映射关系储存模块,用于储存所述标识获取模块获取的内容标识与所述语义数据块的存储位置的第二映射关系。 可见,本专利技术实施例的数据存储方法,通过解析待储存文件,得到所述待储存文件 包括的语义信息,所述语义信息用于指示所述待储存文件的属性信息,按照所述语义信息, 将所述待储存文件分解为至少两个语义数据块,获取所述语义数据块的内容标识,所述内 容标识用于指示所述语义数据块的内容信息,存储待储存文件信息与所述内容标识的第一 映射关系,所述待储存文件信息用于标识所述语义数据块,储存所述语义数据块以及所述 内容标识与所述语义数据块的存储位置的第二映射关系。这样由于数据是以语义数据块为 单位进行储存的,则在查看文件时,可以查看文件中一部分语义数据块的数据。采用本专利技术 实施例提供的技术方案,提高了数据管理和数据检索的效率。附图说明 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。图1是本专利技术方法实施例提供的数据存储方法的流程图; 图2是本专利技术方法实施例中将语义数据块包装到固定长度的第一对象中的结构 示意图; 图3是本专利技术实施例中提供的电子邮件系统中对数据存储的方法流程图; 图4是本专利技术实施例中提供的MP3文件的结构示意图; 图5是本专利技术设备实施例一提供的数据存储设备的结构示意图; 图6是本专利技术设备实施例二提供的数据存储设备的结构示意图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。为便于说明,下面介绍本专利技术的一个具体实施例,如下一种数据存储方法,本方 法实施例的方法是适用于数据存储系统中,如邮件系统等,流程图如图1所示,包括 步骤100、解析待储存文件,得到待储存文件包括的语义信息; 可以理解,语义信息是用于指示待储存文件的属性信息,可以包括以下任意两种 以上信息应用元数据如文件类型,文件格式,应用软件等,应用提示即应用标记符,文件系统元数据等,其中文件系统元数据包括目录条目、文件的索引(inode)信息等。 例如,通常情况, 一个电子邮件文件中包括6个语义信息即发件地址(FROM)、收件地址(TO)、标题(SUBJECT)、文本(TEXT)、附件名称(ATTACHMENT FILE NAME)和附件内容信息。 步骤101、按照语义信息将待储存文件分解为至少两个语义数据块(Semantic Chunk, SC) 5 步骤102、获取所述语义数据块的内容标识; 可以理解,内容标识用于指示所述语义数据块的内容信息。在获取语义数据块的内容标识时,系统可以通过加密哈希(Hash)算法得到,能全局唯一标识语义数据块的数据内容,其中hash算法包括信息-摘要算法5(MD5)或安全哈希算法(SHA1)等。 步骤103、存储待储存文件信息与所述内容标识的第一映射关系; 其中,待储存文件信息用于标识所述语义数据块的位置,待储存文件信息可以包括待储存文件的属性、名称等信息,例如从0到100字节的文件1标识一个语义数据块,从100到1000字节的文件1标识另一个语义数据块。 可以理解,在储存待储存文件信息与内容标识的第一映射关系时,可以将待储存 文件信息和内容标识进行对应储存,例如从0到100字节的文件1对应内容标识l,从100 到1000字节的文件1对应内容标识2等。 步骤104、储存所述至少两个语义数据块; 上述步骤103和104并没有顺序关系,也没有互为条件的关系。 步骤105、储存所述内容标识与相应语义数据块的存储位置的第二映射关系; 具体地,在储存内容标识与相应语义数据块的存储位置的第二映射关系时,可以将内容标识和语义数据块的存储位置如存储地址等信息对应的储存,例如内容标识1对应身份标识号码(Identification Identity, ID) 1,内容标识2对应ID2等。 其中,语义数据块的存储位置是在步骤104进行储存时获得的。 可见,本专利技术实施例的数据存储方法包括将待储存文件按照语义信息分解成至少两个语义数据块,储存该语义数据块,并获取所述语义数据块的内容标识,将获取的语义数据块、和内容标识与相应语义数据块的存储位本文档来自技高网...

【技术保护点】
一种数据存储方法,其特征在于,包括:解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息用于指示所述待储存文件的属性信息;按照所述语义信息,将所述待储存文件分解为至少两个语义数据块;获取所述语义数据块的内容标识,所述内容标识用于指示所述语义数据块的内容信息;存储待储存文件信息与所述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置;储存所述语义数据块以及所述内容标识与所述语义数据块的存储位置的第二映射关系。

【技术特征摘要】

【专利技术属性】
技术研发人员:王奇张巍吕先红曹振奇汪东升刘川意鞠大鹏
申请(专利权)人:成都市华为赛门铁克科技有限公司清华大学
类型:发明
国别省市:90[中国|成都]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1