一种大数据开发与运行方法及系统技术方案

技术编号:15298241 阅读:96 留言:0更新日期:2017-05-11 22:58
本发明专利技术涉及一种大数据开发与运行方法及系统,其中的方法包括:扩展大数据计算处理流程,形成大数据处理流程的集成环境;基于所述集成环境,获取用户定制的大数据处理流程;上传所述定制的大数据处理流程,调度运行所述上传的大数据处理流程,并显示运行结果。其抽象了大数据应用开发的流程,将大数据应用开发流程集成在一起,方便用户自行定制大数据处理流程,提高了工作效率,达到降低大数据应用门槛、降低生产成本的目标。

Large data development and operation method and system

The invention relates to a method and system for data development and operation, the method includes: extended data calculation process, the formation of integrated environment data processing; the integrated environment based on large data acquisition, customized processing; data uploading the making process of big data scheduling run the upload process and display the results. The abstract data application development process, the big data application development process are integrated together to facilitate users to customize the data processing flow, improve work efficiency, reduce the data application threshold, reducing the production cost target.

【技术实现步骤摘要】

本专利技术涉及数据处理领域,尤其涉及一种大数据开发与运行方法及系统
技术介绍
目前,各公司、单位通常基于开源或商业的大数据基础平台进行大数据应用开发,这些开源或商业的大数据基础平台通常对Hadoop、Spark体系平台进行了定制、封装和集成。在此基础上进行大数据开发时,通常在本地完成程序的开发和编译,随后上传到上述平台运行。此种方式中的所有运行、调度等工作都需要自写代码完成,其大致流程如图1所示,首先,开发人员在本地计算机进行大数据应用开发,并编译成在大数据平台运行的目标文件;操作人员将目标文件上传到大数据平台,并使用命令行提交到大数据平台运行;运行成功结束或失败后,操作人员检查运行结果、日志。如运行结果与预想的不一致,则开发人员还需要再修改、编译代码。然后再重复上述过程。现有大数据平台是通常只是大数据运行Hadoop、Spark框架和组件的堆砌,相关通常直接基于上述底层的组件进行开发和运行,在诸多方面具有不足,大致有以下几种缺点:1、大数据应用门槛高大数据运行Hadoop、Spark框架包含程序组件有上百个之多,开发人员、运维人员学习这些框架的曲线非常陡峭。另外,人才市场也缺少具有这些技能的开发人员与运维人员。基于以上原因,企业要在现有大数据平台上开展大数据应用,门槛非常高。2、生产效率低下从上面描述的生产过程可知,在现有大数据平台上开展大数据应用的几个步骤是完全割裂的。在实际的工作中往往需要反复执行上述步骤,割裂的步骤导致低下的生产效率。3、生产成本高开展大数据应用的高门槛、生产效率的低下,导致企业或单位开展大数据应用的成本极高,严重阻碍了大数据行业的发展。
技术实现思路
为克服现有技术存在的上述技术问题,本专利技术提供了一种大数据开发与运行方法,其抽象了大数据应用开发的流程,将大数据应用开发流程集成在一起,方便用户自行定制大数据处理流程,提高了工作效率,达到降低大数据应用门槛、降低生产成本的目标。本专利技术解决上述技术问题的技术方案如下:一种大数据开发与运行方法,其包括:扩展大数据计算处理流程,形成大数据处理流程的集成环境;基于所述集成环境,获取用户定制的大数据处理流程;上传所述定制的大数据处理流程,调度运行所述上传的大数据处理流程,并显示运行结果。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,用户根据所述运行结果,与其期望运行结果进行对比,如果所述运行结果与其期望运行结果不同,则重新定制新的大数据处理流程。进一步,所述扩展大数据计算处理流程,形成大数据处理流程的集成环境的步骤包括数据采集的扩展、数据存储的扩展、数据处理的扩展和数据分享的扩展。进一步,所述数据采集的扩展包括历史数据的采集和即时发生的业务数据的采集,采集的数据类型包括结构化数据、半结构化数据和非结构化数据。进一步,所述数据存储的扩展包括存储结构化数据的关系型数据存储和支持存储半结构化数据和非结构化数据的非关系型数据存储。进一步,所述数据处理的扩展包括SQL处理、通用算法处理及利用用户开发的处理程序的处理;所述数据分享的扩展包括数据的批量输出、实时输出和外部高并发访问。本专利技术还提供了一种大数据开发与运行系统,其包括:处理流程集成模块,用于集成扩展后的大数据计算处理流程;获取模块,用于获取用户定制的大数据处理流程;上传模块,用于将定制的大数据处理流程上传至大数据集群;调度运行模块,用于运行上传至大数据集群的大数据处理流程,获得运行结果;显示模块,用于显示所述运行结果。进一步,所述处理流程集成模块包括:历史数据采集模块,用于采集非交易数据;业务数据采集模块,用于实时采集即时发生的业务数据;存储模块,用于存储采集的所述历史数据和业务数据;处理模块,用于处理采集的历史数据和业务数据,获得处理后的数据;数据分享模块,用于分享所述处理后的数据。进一步,所述历史数据采集模块和实时数据采集模块均包括结构化数据采集单元、半结构化数据采集单元和非结构化数据采集单元。进一步,所述存储模块包括关系型数据存储单元和非关系型数据存储单元,所述关系型数据存储单元用于存储结构化数据,所述非关系型数据存储单元用于存储半结构化数据和非结构化数据;所述处理模块包括SQL处理单元、通用算法处理单元及开源处理单元;所述SQL处理单元用于支持用户直接使用SQL语句处理所述历史数据和交易数据;所述通用算法处理单元用于利用通用算法处理所述历史数据和交易数据;所述开源处理单元用于基于用户开发的处理程序处理所述历史数据和交易数据;所述数据分享模块包括批量输出单元、实时输出单元和高并发访问接口;所述批量输出单元用于将所述处理后的数据一次性或周期性地输出;所述实时输出单元用于将所述处理后的数据实时输出;所述高并发访问接口用于外部业务系统高并发访问所述处理后的数据。与现有技术相比,本专利技术提供的大数据开发与运行方法通过扩展大数据计算处理流程,将大数据应用开发流程集成在一起,方便用户自行定制大数据处理流程,达到降低大数据应用门槛、降低生产成本的目标;另外,通过获取用户定制的自己所需的大数据处理流程,将其定制的大数据处理流程上传至大数据集群进行调度运行,在运行过程中始终监控应用的运行情况,并将运行结果及时回馈给用户,用户可以根据运行结果,与其期望运行结果进行对比,如果所述运行结果与其期望运行结果不同,则重新定制新的大数据处理流程,再次获取用户重新定制的新的大数据处理流程,使得用户可以连续进行开发运行相关工作,而不需要在每一个步骤都切换工作环境,提高了工作效率。附图说明图1为
技术介绍
中大数据开发与运行方法的流程图;图2为本专利技术实施例一提供的大数据开发与运行方法的流程图;图3为现有技术中的大数据计算处理的通用流程图;图4为本专利技术实施例二提供的大数据计算处理的扩展流程图;图5为本专利技术实施例二提供大数据开发与运行方法的流程图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。实施例一如图2所示,本实施例提供了一种大数据开发与运行方法,其包括:S1:扩展大数据计算处理流程,形成大数据处理流程的集成环境;S2:基于所述集成环境,获取用户定制的大数据处理流程;S3:上传所述定制的大数据处理流程,调度运行所述上传的大数据处理流程,并显示运行结果。如图3所示,进行大数据计算处理的通用流程会经过数据采集、存储、处理和分享四个步骤,其中的数据采集是从外部的业务系统抽取、收集业务数据的过程,采集数据进入大数据平台后可以进行持久化存储,也可以不存储而直接进行数据处理;数据存储是将外部的业务数据持久化存储到磁盘中,大数据平台通常会使用分布式的方式存储这些数据,数据量不大的时候也可能采用关系数据库来保存这些数据;数据处理是指用户编写基于大数据平台的数据计算程序或脚本进行数据的处理,要处理数据通常有两种来源,其一为在数据采集阶段采集的数据,直接进行数据处理,其二为读取已经持久化存储的数据进行数据处理;数据分享是指用户根据需要将处理结果数据或持久化存储的数据输出到业务系统、数据库。本实施例中针对大数据计算处理流程的扩展以上述通用流程为基础,将采集部分、存储部分、处理部分及分享处理部分都进本文档来自技高网
...
一种大数据开发与运行方法及系统

【技术保护点】
一种大数据开发与运行方法,其特征在于,包括:扩展大数据计算处理流程,形成大数据处理流程的集成环境;基于所述集成环境,获取用户定制的大数据处理流程;上传所述定制的大数据处理流程,调度运行所述上传的大数据处理流程,并显示运行结果。

【技术特征摘要】
1.一种大数据开发与运行方法,其特征在于,包括:扩展大数据计算处理流程,形成大数据处理流程的集成环境;基于所述集成环境,获取用户定制的大数据处理流程;上传所述定制的大数据处理流程,调度运行所述上传的大数据处理流程,并显示运行结果。2.根据权利要求1所述的大数据开发与运行方法,其特征在于,用户根据所述运行结果,与其期望运行结果进行对比,如果所述运行结果与其期望运行结果不同,则重新定制新的大数据处理流程。3.根据权利要求1所述的大数据开发与运行方法,其特征在于,所述扩展大数据计算处理流程,形成大数据处理流程的集成环境的步骤包括数据采集的扩展、数据存储的扩展、数据处理的扩展和数据分享的扩展。4.根据权利要求3所述的大数据开发与运行方法,其特征在于,所述数据采集的扩展包括历史数据的采集和实时数据的采集,采集的数据类型包括结构化数据、半结构化数据和非结构化数据。5.根据权利要求3或4所述的大数据开发与运行方法,其特征在于,所述数据存储的扩展包括存储结构化数据的关系型数据存储和支持存储半结构化数据和非结构化数据的非关系型数据存储。6.根据权利要求3或4所述的大数据开发与运行方法,其特征在于,所述数据处理的扩展包括SQL处理、通用算法处理及利用用户开发的处理程序的处理;所述数据分享的扩展包括数据的批量输出、实时输出和外部高并发访问。7.一种大数据开发与运行系统,其特征在于,包括:处理流程集成模块,用于集成扩展后的大数据计算处理流程;获取模块,用于获取用户定制的大数据处理流程;上传模块,用于将定制的大数据处理流程上传至大数...

【专利技术属性】
技术研发人员:黄超曹正凤张祺君郜义浩边海叶
申请(专利权)人:北京云星宇交通科技股份有限公司北京博宇通达科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1