一种实现软硬件结合的面向应用的大数据系统及方法技术方案

技术编号:10539812 阅读:187 留言:0更新日期:2014-10-15 15:59
本发明专利技术公开了一种实现软硬件结合的面向应用的大数据系统及方法,包括:硬件层、基础平台层、平台增强层;其中,硬件层,用于根据应用场景以及系统需求对硬件进行定制,并对基础平台层提供硬件支撑;基础平台层,用于根据大数据平台搭配能力以及应用场景的策略,选择一个或者几个大数据平台;平台增强层,用于根据基础平台层选择的大数据平台提供相应的大数据平台工具;其中,应用场景为用户应用需求或用户应用场景。本申请的技术方案屏蔽了平台多样性对用户带来的选择和搭配的难度,并且充分利用了软硬件结合的优势以及结合大数据平台工具提高易用性,极大地提高了行业大数据应用的开发质量和效率。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,包括:硬件层、基础平台层、平台增强层;其中,硬件层,用于根据应用场景以及系统需求对硬件进行定制,并对基础平台层提供硬件支撑;基础平台层,用于根据大数据平台搭配能力以及应用场景的策略,选择一个或者几个大数据平台;平台增强层,用于根据基础平台层选择的大数据平台提供相应的大数据平台工具;其中,应用场景为用户应用需求或用户应用场景。本申请的技术方案屏蔽了平台多样性对用户带来的选择和搭配的难度,并且充分利用了软硬件结合的优势以及结合大数据平台工具提高易用性,极大地提高了行业大数据应用的开发质量和效率。【专利说明】
本专利技术涉及大数据领域,尤指一种实现软硬件结合的面向应用的大数据系统及方 法。
技术介绍
大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集, 并不是说一定要超过特定万亿字节(TB)值的数据集才能算是大数据。国际数据公司(IDC) 从四个特征定义大数据,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系 (Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。大数据几乎渗透到国 民经济的所有部门,应用领域涉及信息服务、智慧城市、金融、制造业、国家安全和科学研究 等。但目前这些行业处理大数据时,至少会面临如下的问题: 1、数据存储与管理 大数据给存储系统带来了 3个方面的挑战:存储规模大,通常达到ΡΒ(1,000ΤΒ)甚 至EB (1,000ΡΒ)量级;存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据;上层 应用对存储系统的性能、可靠性等指标有不同的要求,而数据的大规模和高复杂度放大了 达到这些指标的技术难度。 2、数据分析处理 传统的并行计算方法主要从体系结构和编程语言的层面定义了一些较为底层的 并行计算抽象和模型,但由于大数据处理问题具有很高层的数据特征和计算特征,因此大 数据处理需要更多地结合这些高层特征考虑更为高层的计算模式。大数据处理包括以下典 型的特征和维度: 1)数据结构特征 可分为结构化数据处理、半结构化数据处理与非结构化数据处理。 2)数据获取处理方式 按照数据获取方式,大数据可分为批处理与流式计算方式。 3)数据处理类型 从数据处理类型来看,大数据处理可分为传统的查询分析计算和复杂的数据挖掘 分析计算。 4)实时性 从数据计算响应性能角度看,大数据处理可分为实时/准实时与非实时计算,或 者是联机计算与离线计算。 5)并行计算体系结构 由于需要支持大规模数据的存储计算,大数据处理通常需要使用基于集群的分布 式存储与并行计算体系结构和硬件平台。 3、数据系统使用及日常运维 目前大数据系统与传统关系型数据库(比如Oracle、MySql等)相比,对于企业IT 人员在使用和日常运维方面还有不小的难度。一方面,大数据系统相关配套工具很零散或 不成熟(比如数据导入导出、数据安全、备份容灾等);另一方面由于大数据系统部署在集 群上,服务器数量较多,怎样减少人工操作成本和提高效率,这对大数据系统进行监控和运 维提出了很大挑战。 4、应用迁移与开发难度 目前行业内大部分的应用系统都不是基于大数据平台,随着数据规模的增大,这 些应用系统已逐渐满足不了日常需求,需要在大数据系统框架下进行应用系统迁移或重 构。但大数据应用的开发跟传统应用的开发还是有很大区别,加上缺乏面向行业解决方案 的开发工具包,使得行业内大数据应用系统开发成本及难度很高,难以短时间内进行普及。 另外,现有的平台级的大数据系统及产品,每个都侧重于解决一种应用场景,而现 实中大数据应用一般都是混合型场景,比如既包含批处理又包含查询分析,并且现有技术 中并没有通过对硬件的一些限定来适应大数据平台运行的方法这至少会带来三个问题:第 一,平台的多样性会给用户的选择与搭配能力带来极大挑战;第二,需要有为应用场景定制 的硬件才能使平台发挥出其优势,采取通用硬件往往达不到最佳效果或者造成浪费;第三, 目前这些平台基本是面向通用性,缺乏对具体行业应用的支持,使用及应用开发难度比较 大,离用户还有一定距离。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种实现软硬件结合的面向应用的大数据 系统及方法,能够屏蔽平台多样性对用户带来的选择和搭配的难度,充分利用软硬件结合 的优势以及结合大数据平台工具提高易用性,极大地提高了行业大数据应用的开发质量和 效率。 为了达到上述专利技术目的,本专利技术公开了一种实现软硬件结合的面向应用的大数据 系统,包括:硬件层、基础平台层、平台增强层;其中, 硬件层,用于根据应用场景以及系统需求对硬件进行定制,并对基础平台层提供 硬件支撑; 基础平台层,用于根据大数据平台搭配能力以及应用场景的策略,选择一个或者 几个大数据平台; 平台增强层,用于根据基础平台层选择的所述大数据平台提供相应的大数据平台 工具; 其中,所述应用场景为用户应用需求或用户应用场景。 进一步地,大数据平台搭配能力以及应用场景的策略包括: 批处理查询分析对应平台:映射规约平台MapReduce,内存计算引擎平台Spark, 数据仓库工具Hive,数据仓库工具Shark ; 交互式查询分析对应平台:交互式数据分析系统Dremel,实时查询开源项目 Impala,内存数据库; 高并发单表简单查询场景对应平台:分布式的、面向列的开源数据库Hbase ; 流式计算场景对应平台:流式计算平台Storm,流式计算平台Spark streaming ; 复杂查询场景对应平台:大规模并行处理数据库,内存数据库。 进一步地,上述系统还包括业务增值层,用于根据用户应用场景提供与行业应用 结合的大数据开发工具包; 所述与行业应用结合的大数据开发工具包包括:金融行业开发工具包、电信行业 开发工具包、公安行业开发工具包。 进一步地,硬件层具体用于: 对硬件的网络性能进行定制,包括:根据所述应用场景选择节点间的网络互连类 型; 对硬件的存储性能进行定制,包括:节点的硬盘配置、是否使用SSD卡及内存的大 小; 对硬件的计算资源进行定制,包括:确定CPU个数、核数及主频要求。 进一步地,大数据平台工具包括:运维监控、数据导入导出、集群管理、数据挖掘、 工作流管理、安全增强及权限管理、数据可视化、备份与容灾。 本专利技术还公开了一种实现软硬件结合的面向应用的大数据方法,包括以下步骤: 根据应用场景以及系统需求对硬件进行定制,并提供硬件支撑; 根据大数据平台搭配能力以及应用场景的策略,选择一个或者几个大数据平台; 根据基础平台层选择的所述大数据平台提供相应的大数据平台工具; 其中,所述应用场景为用户应用需求或用户应用场景。 进一步地,大数据平台搭配能力以及应用场景的策略包括: 批处理查询分析对应平台:映射规约平台MapReduce,内存计算引擎平台Spark, 数据仓库工具Hive,数据仓库工具Shark ; 交互式查询分析对应平台:交互式数据分析系统Dremel,实时查询开源项目 I本文档来自技高网
...

【技术保护点】
一种实现软硬件结合的面向应用的大数据系统,其特征在于,包括:硬件层、基础平台层、平台增强层;其中,硬件层,用于根据应用场景以及系统需求对硬件进行定制,并对基础平台层提供硬件支撑;基础平台层,用于根据大数据平台搭配能力以及应用场景的策略,选择一个或者几个大数据平台;平台增强层,用于根据基础平台层选择的所述大数据平台提供相应的大数据平台工具;其中,所述应用场景为用户应用需求或用户应用场景。

【技术特征摘要】

【专利技术属性】
技术研发人员:辛国茂亓开元赵仁明房体盈曹连超卢军佐
申请(专利权)人:浪潮北京电子信息产业有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1