数据处理方法、系统、装置、设备和存储介质制造方法及图纸

技术编号:38712480 阅读:15 留言:0更新日期:2023-09-08 14:55
本发明专利技术实施例提供一种数据处理方法、系统、装置、设备和存储介质,该方法应用于位于计算节点和存储节点之间的加速节点,包括:接收计算节点发送的查询指令,查询指令中包括:目标数据的标识信息和需要对目标数据执行的计算指令;根据目标数据的标识信息,获取目标数据,并根据计算指令对目标数据进行处理,以获取计算结果;发送计算结果至计算节点。通过该方案将原本需要在计算节点执行的计算指令下推到加速节点执行,加速节点仅将计算结果传输给计算节点,减少了向计算节点传输的数据量,提高了数据传输效率,减少了计算节点的资源使用压力。用压力。用压力。

【技术实现步骤摘要】
数据处理方法、系统、装置、设备和存储介质


[0001]本专利技术涉及大数据
,尤其涉及一种数据处理方法、系统、装置、设备和存储介质。

技术介绍

[0002]在大数据处理领域,多采用存储和计算相分离的计算架构,将数据的计算和存储设置在不同的节点上,且多采用列式存储格式存储数据,比如使用Parquet等格式存储数据。
[0003]实际应用中,经常会遇到需要读取大量数据并进行某种计算(比如求平均值、加和等聚合算子运算,数值过滤、文本筛选等过滤算子运算)的实际需求,受计算侧和存储侧网络带宽的限制,传输效率和计算效率往往较低。

技术实现思路

[0004]本专利技术实施例提供一种数据处理方法、系统、装置、设备和存储介质,用以提升计算节点和存储节点的数据传输效率和计算性能。
[0005]第一方面,本专利技术实施例提供一种数据处理方法,应用于位于计算节点和存储节点之间的加速节点,所述方法包括:
[0006]接收计算节点发送的查询指令,所述查询指令中包括:目标数据的标识信息和需要对所述目标数据执行的计算指令;
[0007]根据所述目标数据的标识信息,获取所述目标数据;
[0008]根据所述计算指令对所述目标数据进行处理,以获取计算结果;
[0009]发送所述计算结果至所述计算节点。
[0010]第二方面,本专利技术实施例提供一种数据处理系统,所述系统包括:
[0011]计算节点集群、加速节点集群和存储节点集群,所述加速节点集群耦合于所述计算节点集群和所述存储节点集群之间;
[0012]所述加速节点集群中的任一加速节点,用于执行如第一方面所述的数据处理方法。
[0013]第三方面,本专利技术实施例提供一种数据处理装置,应用于位于计算节点和存储节点之间的加速节点,所述装置包括:
[0014]接收模块,用于接收计算节点发送的查询指令,所述查询指令中包括:目标数据的标识信息和需要对所述目标数据执行的计算指令;
[0015]处理模块,用于根据所述目标数据的标识信息,获取所述目标数据;根据所述计算指令对所述目标数据进行处理,以获取计算结果;
[0016]发送模块,用于发送所述计算结果至所述计算节点。
[0017]第四方面,本专利技术实施例提供一种电子设备,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理
器至少可以实现如第一方面所述的数据处理方法。
[0018]第五方面,本专利技术实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面所述的数据处理方法。
[0019]在本专利技术实施例提供的方案中,在计算节点和存储节点之间设置有加速节点,当计算节点需要从存储节点中查询目标数据并对目标数据执行相应计算(比如过滤、聚合等)时,加速节点首先接收计算节点发送的查询指令,其中查询指令中包括:目标数据的标识信息和需要对目标数据执行的计算指令;然后,根据目标数据的标识信息,获取目标数据,并根据计算指令对目标数据进行处理,以获取计算结果;最后,发送计算结果至计算节点。本方案中,将原本需要在计算节点执行的计算指令下推到加速节点执行,加速节点仅将计算结果传输给计算节点,一方面,能够减少向计算节点传输的数据量,提高数据传输效率;另一方面,还能够减少计算节点的资源使用压力,提升查询服务的响应速度。
附图说明
[0020]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本专利技术实施例提供的一种数据处理系统的架构示意图;
[0022]图2为本专利技术实施例提供的另一种数据处理系统的架构示意图;
[0023]图3为本专利技术实施例提供的一种数据处理方法的流程图;
[0024]图4为本专利技术实施例提供的另一种数据处理方法的流程图;
[0025]图5为本专利技术实施例提供的又一种数据处理方法的流程图;
[0026]图6为本专利技术实施例提供的一种加速节点的结构示意图;
[0027]图7为本专利技术实施例提供的一种数据处理装置的结构示意图;
[0028]图8为与图7所示实施例提供的数据处理装置对应的电子设备的结构示意图。
具体实施方式
[0029]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]需要说明的是,本专利技术实施例中所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0031]另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
[0032]图1为本专利技术实施例提供的一种数据处理系统的架构示意图。如图1所示,该数据
处理系统包括:计算节点集群、加速节点集群和存储节点集群。其中,加速节点集群耦合于计算节点集群和存储节点集群之间。
[0033]计算节点集群中包含有N个(N大于等于1)不同的计算节点,每个计算节点中主要部署有CPU等计算资源以及一定的存储资源,用于执行各种计算任务,比如:数据的过滤、聚合等。
[0034]存储节点集群中包含有P个(P大于等于1)不同的存储节点,每个存储节点中主要部署有磁盘等存储资源以及一定的计算资源,用于持久化存储数据。其中,数据在存储时,可以以列式存储格式存储,也可以以行式存储格式存储。
[0035]加速节点集群中包含有M个(M大于等于1)加速节点,每个加速节点对应有计算资源和存储资源,用于基于计算节点发送的查询指令,对计算节点查询的目标数据进行数据预处理,并将得到的数据量较小的处理结果反馈给计算节点,以实现数据传输的加速。其中,数据预处理过程将在下述实施例中进行详细展开,在此先聚焦于数据处理系统的构成。
[0036]其中,上述N、P、M的取值可以相同也可以不同。为便于表述,下述实施例中从计算节点、存储节点和加速节点的角度进行描述,其分别是相应集群中的任一个节点。
[0037]需要说明的是,本实施例中,加速节点位于计算节点和存储节点之间想要强调的是计算节点和存储节点之间的数据查询要经过加速节点,而非限定计算节点、加速节点和存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于位于计算节点和存储节点之间的加速节点,所述方法包括:接收计算节点发送的查询指令,所述查询指令中包括:目标数据的标识信息和需要对所述目标数据执行的计算指令;根据所述目标数据的标识信息,获取所述目标数据;根据所述计算指令对所述目标数据进行处理,以获取计算结果;发送所述计算结果至所述计算节点。2.根据权利要求1所述的方法,其特征在于,所述加速节点提供统一的服务调用接口,所述服务调用接口支持设定的数据传输协议;所述计算节点中部署有适配于所述计算节点的数据读取插件,以通过所述数据读取插件调用所述服务调用接口,发出所述查询指令。3.根据权利要求1所述的方法,其特征在于,所述加速节点中包括处理器和硬件加速器;所述根据所述计算指令对所述目标数据进行处理,以获取计算结果,包括:根据所述目标数据的数据类型和所述计算指令的指令类型,确定是否采用所述硬件加速器对所述目标数据进行所述计算指令的处理;若是,则通过所述处理器和所述硬件加速器对所述目标数据进行所述计算指令的处理,以获取计算结果;若否,则通过所述处理器对所述目标数据进行所述计算指令的处理,以获取计算结果。4.根据权利要求3所述的方法,其特征在于,所述通过所述处理器和所述硬件加速器对所述目标数据进行所述计算指令的处理,以获取计算结果,包括:将读取到的所述目标数据以第一列式存储格式存储至所述加速节点的内存中的第一存储地址,所述目标数据由所述处理器读取;将所述第一存储地址和所述计算指令发送给所述硬件加速器,以使所述硬件加速器根据所述第一存储地址获取所述目标数据,根据所述计算指令对所述目标数据进行处理以得到计算结果,将所述计算结果以所述第一列式存储格式存储至所述内存中的第二存储地址,并将所述第二存储地址发送至所述处理器;通过所述处理器从所述第二存储地址中获取所述计算结果。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据所述目标数据的标识信息,获取所述目标数据,包括:根据所述目标数据的标识信息,若确定所述加速节点本地缓存...

【专利技术属性】
技术研发人员:师印
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1