一种大数据存储优化方法和装置制造方法及图纸

技术编号:11680325 阅读:155 留言:0更新日期:2015-07-06 12:59
本发明专利技术提出了一种大数据存储优化的方法和装置,所述方法包括:步骤S100,对待存储数据进行预处理;将所述待存储数据封装成对象数据,所述对象数据中添加有对象数据的属性信息,所述属性信息包括对象数据的数据类型;步骤S200,接收对象数据,根据对象数据的属性信息确定对象数据的数据类型;步骤S300,根据对象数据的数据类型将对象数据存储到不同的存储单元中。本发明专利技术通过利用不同的存储单元分别存储不同数据类型的数据,从而可以发挥不同存储单元的存储优势。

【技术实现步骤摘要】

本专利技术涉及数据存储领域,具体涉及一种大数据存储优化方法和装置
技术介绍
随着移动互联网、物联网等应用的飞速发展,全球数据量出现了爆炸式增长。数据量的飞速增长预示着现在已经进入了大数据时代。数据按类型分为结构化数据、半结构化数据和非结构化数据,其中结构化数据是指能够以二维结构表示的一种数据类型,能通过关系型数据库存储;半结构化数据是指具有一定结构,但语义不够明确的一种数据类型,如邮件、HTML网页等,它们有些字段是确定的,也有些字段是不确定的;非结构化数据是指无法用二维结构表示的一种数据类型,主要包括办公文档、文本、图片、音视频文件等,无法采用关系型数据库进行处理。伴随社交网络的兴起和发展,产生了大量的UGC(User Generated Content,用户生成内容),包括音频、视频、文本和图片等非结构化数据。在所有数据中,结构化数据占数据总量的20%,半结构化数据和非结构化数据占数据总量的80 %,如何科学管理和合理应用这些数据显得日益重要。传统的关系型数据库具有非常优异的性能,但由于强一致性与强事务性等规则约束,关系型数据不适宜于大规模的横向扩展,从而使得关系型数据库应用在半结构化或非结构化的数据存储时存在诸多问题。大数据给传统的数据分析处理技术(例如并行数据库、数据仓库)带来的技术挑战。传统数据分析处理技术无法处理大数据的高扩展性和海量需求。针对亿万的用户,数据呈现出多源化、异构化的趋势,不同的应用对数据的一致性、数据交互、传输延时等均有不同的需求。现有技术中对大数据的处理采用基于Hadoop的平台。Hadoop是一个开源分布式计算平台,其核心包括HDFS (Hadoop Distributed Files System, Hadoop分布式文件系统)。HDFS的众多优点(主要包括高容错性、高伸缩性等)允许用户将Hadoop部署在低廉的硬件上,搭建分布式集群,构成分布式系统。HBase (Hadoop DataBase,Hadoop数据库)是建立在分布式文件系统HDFS之上的提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,主要用来存储非结构化和半结构化的松散数据。如何实现对不同数据结构的数据的优化存储,是大数据存储领域面临的一个问题。
技术实现思路
为解决现有技术中存在的上述技术问题,本专利技术提出一种大数据存储优化的方法和装置。本专利技术提出的一种大数据存储优化的方法,包括:步骤S100,对待存储数据进行预处理;将所述待存储数据封装成对象数据,所述对象数据中添加有对象数据的属性信息,所述属性信息包括对象数据的数据类型;步骤S200,接收对象数据,根据对象数据的属性信息确定对象数据的数据类型;步骤S300,根据对象数据的数据类型将对象数据存储到不同的存储单元中。其中,步骤SlOO中被封装的对象数据具有统一的数据操作接口,所述数据操作接口接收对对象数据的操作;不同的存储单元分别具有各自的数据操作解析单元,用于接收对象数据的数据操作接口发送的数据操作,并对所述数据操作进行解析,将数据操作接口发送的数据操作转换为本存储单元可以执行的操作。其中,步骤SlOO中所述的对象数据的数据类型包括结构化数据、半结构化数据和非结构化数据;步骤S300中所述的不同的存储单元包括HDFS分布式文件系统单元、HBase数据库单元和关系数据库单元;其中,HDFS分布式文件系统单元用于存储非结构化数据,HBase数据库单元用于存储半结构化数据,关系数据库用于存储结构化数据。其中,采用树型结构保存对象数据之间的关联关系,一方面,树型结构的每个节点保存了指向一个对象数据的链接,即树型结构并没有存储实际的对象数据,树型结构的节点与对象数据是一一对应的关系,另一方面,树型结构父子节点之间的关系表示了对象数据之间的对应关系。本专利技术提出的大数据存储优化的方法,进一步包括:步骤S400,对各存储单元中的对象数据进行同步,所述同步是指客户端的对象数据与服务器端的对象数据之间的同步。本专利技术提出的大数据存储优化的方法,进一步包括:在对象数据的属性信息中包括实时同步标志,在客户端进行同步时,首先检测网络环境,如果数据传输速率大于第一阈值,则进行实时同步,如果数据传输速率不大于第一阈值,则检测对象数据的实时同步标志,如果实时同步标志为“是”,则进行实时同步,如果实时同步标志为“否”,则暂时不进行实时同步,等待数据传输速率大于指定阈值时再进行同步操作。本专利技术提出的大数据存储优化的方法,进一步包括:对于非实时同步的情况,在进行同步时包括两种同步处理方式,一种是全部同步方式,即不用考虑单个对象数据是否需要同步,将全部对象数据进行同步,另一种是增量同步方式,即仅同步需要同步的对象数据,即有变化的对象数据;在同步操作时,通过同步方式判断来决定采用增量同步方式或者全部同步方式,所述同步方式判断包括:判断所有对象数据的最早同步时间,当最早同步时间与当前时间的差值大于第二阈值,则采用全部同步方式。本专利技术还提出了一种大数据存储优化的装置,包括:预处理模块,用于对待存储数据进行预处理;将所述待存储数据封装成对象数据,所述对象数据中添加有对象数据的属性信息,所述属性信息包括对象数据的数据类型;接收模块,接收对象数据,根据对象数据的属性信息确定对象数据的数据类型;存储模块,根据对象数据的数据类型将对象数据存储到不同的存储单元中;其中,预处理模块中被封装的对象数据具有统一的数据操作接口,所述数据操作接口接收对对象数据的操作;不同的存储单元分别具有各自的数据操作解析单元,用于接收对象数据的数据操作接口发送的数据操作,并对所述数据操作进行解析,将数据操作接口发送的数据操作转换为本存储单元可以执行的操作。本专利技术提出的一种大数据存储优化的方法和装置,通过利用不同的存储单元分别存储不同数据类型的数据,从而可以发挥不同存储单元的存储优势。通过对象数据的方式将不同数据类型的数据进行封装,并提供统一的数据操作接口,可以实现对不同存储单元中的数据的统一操作。通过树型结构组织不同存储单元中的对象数据,可以方便操作离散的对象数据。【附图说明】图1为本专利技术数据存储方法的流程图;图2为本专利技术数据存储装置的结构图。【具体实施方式】下面将结合本专利技术的附图,对本专利技术的技术方案进行清楚、完整地描述。这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。参见图1,本专利技术提出的一种大数据存储优化的方法,包括:步骤S100,对待存储数据进行预处理;将所述待存储数据封装成对象数据,所述对象数据中添加有对象数据的属性信息,所述属性信息包括对象数据的数据类型;待存储数据可以是各种类型的数据,结构化数据、半结构化数据、非结构化数据。对待存储数据的预处理包括分析并确定待存储数据的数据类型。将待存储数据封装成对象数据,并将待存储数据的数据类型添加到对象数据的属性信息中,即通过对象数据的属性信息即可确定对象数据的数据类型。步骤S200,接收对象数据,根据对象本文档来自技高网
...
一种大数据存储优化方法和装置

【技术保护点】
一种大数据存储优化的方法,包括:步骤S100,对待存储数据进行预处理;将所述待存储数据封装成对象数据,所述对象数据中添加有对象数据的属性信息,所述属性信息包括对象数据的数据类型;步骤S200,接收对象数据,根据对象数据的属性信息确定对象数据的数据类型;步骤S300,根据对象数据的数据类型将对象数据存储到不同的存储单元中。其中,步骤S100中被封装的对象数据具有统一的数据操作接口,所述数据操作接口接收对对象数据的操作;不同的存储单元分别具有各自的数据操作解析单元,用于接收对象数据的数据操作接口发送的数据操作,并对所述数据操作进行解析,将数据操作接口发送的数据操作转换为本存储单元可以执行的操作。

【技术特征摘要】

【专利技术属性】
技术研发人员:马泳宇
申请(专利权)人:成都睿峰科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1