一种自助数据处理系统、方法及计算机设备技术方案

技术编号:33838067 阅读:12 留言:0更新日期:2022-06-16 11:58
本发明专利技术公开了一种自助数据处理方法、装置、系统及计算机设备,该方法包括,基于所述数据的处理需求和数据源生成处理流程;对所述处理流程进行解析及线性通道封装,得到计算任务,并将所述计算任务发送至Spark集群;执行所述计算任务,得到计算结果。通过实施本发明专利技术,能够自动根据数据处理需求生成相应的计算任务,得到计算结果,避免了手动编写指令的方式,提高了数据处理的效率,将处理流程进行解析和封装,对处理流程进行智能合并,减少了中间结果写磁盘的发生,提升了任务处理性能。提升了任务处理性能。提升了任务处理性能。

【技术实现步骤摘要】
一种自助数据处理系统、方法及计算机设备


[0001]本专利技术涉及数据分析
,具体涉及一种自助数据处理系统、方法及计算机设备。

技术介绍

[0002]随着信息化技术的飞速发展,各行各业都面临海量数据分析和处理需求,编程模型MapReduce作为google大数据的主要处理分析工具之一,已成为大数据处理行业的标准。但MapReduce框架仅支持Map和Reduce两种算子,编写较为复杂的数据处理任务难度大,中间计算结果必须要写磁盘,从而导致计算效率低下。并且,MapReduce计算任务的提交,往往需要通过手动编写指令的方式进行提交,开发和执行效率都很低下。

技术实现思路

[0003]因此,本专利技术要解决的技术问题在于克服现有数据处理过程中需要手动编写指令,从而导致开发和执行效率低的缺陷,从而提供一种自助数据处理系统、方法及计算机设备。
[0004]根据第一方面,本专利技术实施例公开了一种自助数据处理方法,包括:基于所述数据的处理需求和数据源生成处理流程;对所述处理流程进行解析及线性通道封装,得到计算任务,并将所述计算任务发送至Spark集群;执行所述计算任务,得到计算结果。
[0005]可选地,所述执行所述计算任务,得到计算结果,包括:对所述计算任务中的数据进行优化处理,得到优化后的计算任务;执行所述优化后的计算任务,得到所述计算结果。
[0006]可选地,对所述计算任务中的数据进行优化处理的过程,包括以下步骤中的至少之一:对所述计算任务进行谓词下推处理,调整所述计算任务的执行顺序;对所述计算任务的数据进行列裁剪处理,提取有效数据;对所述计算任务中的表达式进行常量替换处理。
[0007]可选地,所述基于所述数据的处理需求和数据源生成处理流程,包括:获取用户在可视化操作界面中的拖拽操作,基于所述数据源及拖拽操作确定与所述数据的处理需求对应的数据处理节点和配置数据;基于所述数据处理节点和配置数据生成所述处理流程。
[0008]可选地,所述基于所述数据处理节点和配置数据生成所述处理流程,包括:基于所述处理需求和数据源生成有向无环图;基于所述有向无环图中的节点信息及边信息生成json格式的处理流程进行保存。
[0009]可选地,所述有向无环图中的节点包括解析处理节点及关联处理节点,所述基于所述有向无环图中的节点信息及边信息生成json格式的处理流程进行保存,包括:基于所述数据源的存储路径得到配置路径;将所述配置路径加载到日志内存中,得到路径日志;基于解析处理节点对所述路径日志进行日志解析,得到所述数据源的各项特征;基于关联处理节点对所述特征进行标签数据关联,得到所述json格式的处理流程。
[0010]根据第二方面,本专利技术实施例还公开了一种自助数据处理装置,包括:处理流程生成模块,用于基于所述数据的处理需求和数据源生成处理流程;线性通道封装模块,用于对
所述处理流程进行解析及线性通道封装,得到计算任务,并将所述计算任务发送至Spark集群;任务执行模块,用于执行所述计算任务,得到计算结果。
[0011]根据第三方面,本专利技术实施例还公开了一种自助数据处理系统,包括:终端设备、数据处理模块和Spark集群,其中,所述终端设备用于基于所述数据的处理需求和数据源生成处理流程,并将所述处理流程发送至所述数据处理模块;所述数据处理模块用于对所述处理流程进行解析及线性通道封装,得到计算任务,并将所述计算任务发送至所述Spark集群;所述Spark集群用于执行所述计算任务,得到计算结果。
[0012]可选地,所述Spark集群还用于将所述计算结果发送至所述数据处理模块;所述数据处理模块还用于对所述计算结果进行汇总,得到汇总结果,将所述汇总结果发送至所述终端设备。
[0013]根据第四方面,本专利技术实施例还公开了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的自助数据处理方法的步骤。
[0014]根据第五方面,本专利技术实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的自助数据处理方法的步骤。
[0015]本专利技术技术方案,具有如下优点:
[0016]本专利技术提供的自助数据处理方法、装置、系统及计算机设备,该方法包括:基于所述数据的处理需求和数据源生成处理流程;对所述处理流程进行解析及线性通道封装,得到计算任务,并将所述计算任务发送至Spark集群,执行所述计算任务,得到计算结果。通过实施本专利技术,能够自动根据数据处理需求生成相应的计算任务,得到计算结果,避免了手动编写指令的方式,提高了数据处理的效率将处理流程进行解析和封装,对处理流程进行智能合并,减少了中间结果写磁盘的发生,提升了任务处理性能。
附图说明
[0017]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本专利技术实施例中自助数据处理方法的一个具体示例的流程图;
[0019]图2为本专利技术实施例中自助数据处理装置的一个具体示例的原理框图;
[0020]图3本专利技术实施例中自助数据处理系统的一个具体示例的原理框图;
[0021]图4为本专利技术实施例中计算机设备的一个具体示例图;
[0022]图5为本专利技术实施例中自助数据处理系统的一个具体示例数据交互图;
[0023]图6为本专利技术实施例中自助数据处理系统的一个具体示例示意图;
[0024]图7为本专利技术实施例中自助数据处理系统的一个具体示例示意图;
[0025]图8为本专利技术实施例中自助数据处理系统的一个具体示例示意;
[0026]图9为本专利技术实施例中自助数据处理方法的一个具体示例的流程图;
[0027]图10为本专利技术实施例中自助数据处理方法的一个具体示例的流程图。
具体实施方式
[0028]下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自助数据处理方法,其特征在于,包括:基于所述数据的处理需求和数据源生成处理流程;对所述处理流程进行解析及线性通道封装,得到计算任务,并将所述计算任务发送至Spark集群;执行所述计算任务,得到计算结果。2.根据权利要求1所述的自助数据处理方法,其特征在于,所述执行所述计算任务,得到计算结果,包括:对所述计算任务中的数据进行优化处理,得到优化后的计算任务;执行所述优化后的计算任务,得到所述计算结果。3.根据权利要求2所述的自助数据处理方法,其特征在于,对所述计算任务中的数据进行优化处理的过程,包括以下步骤中的至少之一:对所述计算任务进行谓词下推处理,调整所述计算任务的执行顺序;对所述计算任务的数据进行列裁剪处理,提取有效数据;对所述计算任务中的表达式进行常量替换处理。4.根据权利要求1所述的自助数据处理方法,其特征在于,所述基于所述数据的处理需求和数据源生成处理流程,包括:获取用户在可视化操作界面中的拖拽操作,基于所述数据源及拖拽操作确定与所述数据的处理需求对应的数据处理节点和配置数据;基于所述数据处理节点和配置数据生成所述处理流程。5.根据权利要求4所述的自助数据处理方法,其特征在于,所述基于所述数据处理节点和配置数据生成所述处理流程,包括:基于所述处理需求和数据源生成有向无环图;基于所述有向无环图中的节点信息及边信息生成json格式的处理流程进行保存。6.根据权利要求5所述的自助数据处理方法,其特征在于,所述有向无环图中的节点包括解析处理节点及关联处理节点,所述基于所述有向无环图中的节点信息及边信息生成json格式的处理流程进行保存,包括:基于所述数据源的存储路径得到配置路径;将所述配置路径加载到日志内存中,得到路径日志;基于解析处理节...

【专利技术属性】
技术研发人员:陶时
申请(专利权)人:南京四维智联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1