数据处理方法、装置、设备和存储介质制造方法及图纸

技术编号:34800752 阅读:13 留言:0更新日期:2022-09-03 20:07
本申请公开了一种数据处理方法、装置、设备和存储介质。该数据处理方法通过列数据库中每列数据所在行号的行数据,计算每行的哈希分桶值,接着,根据每行的哈希分桶值,确定具有相同哈希分桶值的行号集合,然后,向与行号集合对应的哈希分桶,发送具有相同哈希分桶值的行号集合中每个行号对应的列数据。根据本申请实施例提供的数据处理方法,能够将单指令流多数据流技术运用于大数据处理系统的Shuffle过程,极大地提升了Shuffle过程的执行效率,改善了大型数据处理系统的数据计算性能。了大型数据处理系统的数据计算性能。了大型数据处理系统的数据计算性能。

【技术实现步骤摘要】
数据处理方法、装置、设备和存储介质


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、设备和存储介质。

技术介绍

[0002]随着互联网技术的快速发展,网络数据量已成爆炸式增长,大型数据处理系统应用而生。为了减少数据处理的时间,在大型数据处理系统中,对于一些数据的运算会涉及到数据的重分布即Shuffle过程,其中,Shuffle过程是将各节点上的同一类数据汇集到某一节点进行计算,把这些分布在不同节点的数据按照一定的规则汇集到一起,以基于这些数据进行数据处理。然而,Shuffle过程的用时占比通常很大,所以,如何提升大型数据处理系统中Shuffle过程的执行效率成为亟需解决的问题。

技术实现思路

[0003]本申请实施例提供一种数据处理方法、装置、设备和存储介质,能够提升大型数据处理系统中Shuffle过程的执行效率,改善大型数据处理系统的数据计算性能。
[0004]根据本申请实施例的第一方面,提供一种数据处理方法,包括:
[0005]获取列数据库中的至少一列数据;
[0006]根据至少一列数据中每列数据所在行号的行数据,计算每行的哈希分桶值;
[0007]根据每行的哈希分桶值,确定具有相同哈希分桶值的行号集合;
[0008]向与行号集合对应的哈希分桶发送目标数据,目标数据为具有相同哈希分桶值的行号集合中每个行号对应的列数据。
[0009]根据本申请实施例的第二方面,提供一种数据处理装置,包括:
[0010]获取模块,用于获取列数据库中的至少一列数据;
[0011]计算模块,用于根据至少一列数据中每列数据所在行号的行数据,计算每行的哈希分桶值;
[0012]确定模块,用于根据每行的哈希分桶值,确定具有相同哈希分桶值的行号集合;
[0013]发送模块,用于向与行号集合对应的哈希分桶发送目标数据,目标数据为具有相同哈希分桶值的行号集合中每个行号对应的列数据。
[0014]根据本申请实施例的第三方面,提供一种计算机设备,包括:存储器和处理器;
[0015]存储器,用于存储有计算机程序;
[0016]处理器,用于执行存储器中存储的计算机程序,计算机程序运行时使得处理器执行如第一方面所示的数据处理方法的步骤。
[0017]根据本申请实施例的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储程序或指令,在程序或指令被计算机设备执行的情况下,使得计算机设备执行如第一方面所示的数据处理方法的步骤。
[0018]根据本申请实施例的第五方面,提供一种计算机程序产品,包括计算机程序,在计
算机程序被计算机设备执行的情况下,使得计算机设备执行如第一方面所示的数据处理方法的步骤。
[0019]根据本申请实施例中数据处理方法、装置、设备和存储介质,通过列数据库中每列数据所在行号的行数据,计算每行的哈希分桶值,接着,根据每行的哈希分桶值,确定具有相同哈希分桶值的行号集合,然后,向与行号集合对应的哈希分桶,发送具有相同哈希分桶值的行号集合中每个行号对应的列数据,这样,通过大数据系统控制多个哈希分桶,同时对多个行号集合中的每个行号集合对应的列数据执行对应的操作,从而实现数据并行处理,由此,本申请实施例中数据处理方法是将单指令流多数据流技术运用于大数据处理系统的Shuffle过程,极大地提升了Shuffle过程的执行效率,改善了大型数据处理系统的数据计算性能。
附图说明
[0020]从下面结合附图对本申请的具体实施方式的描述中可以更好地理解本申请其中,相同或相似的附图标记表示相同或相似的特征。
[0021]图1是示出根据一个实施例的一种数据处理架构示意图;
[0022]图2是示出根据一个实施例的一种数据处理流程示意图;
[0023]图3是示出根据一个实施例的一种数据处理方法的流程图;
[0024]图4是示出根据一个实施例的一种基于第一数据语义的数据处理方法的流程示意图;
[0025]图5是示出根据一个实施例的一种基于第二数据语义的数据处理方法的流程示意图;
[0026]图6是示出根据一个实施例的一种数据处理装置的结构示意图;
[0027]图7是示出根据一个实施例的计算机设备的硬件结构示意图。
具体实施方式
[0028]下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
[0029]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0030]在相关技术中,大数据处理系统通常采用大规模并行处理(Massively Parallel Processing,MPP)模型或者神经网络中的Batch模型对数据进行处理,但无论是MPP模型还
是Batch模型都离不开数据的重分布,也就是Shuffle过程,例如,大数据处理系统的有些运算需要将各个不同计算节点上的执行同一个任务的数据汇集到某一个制定节点进行计算,这里,将这些分布在各个不同计算节点上执行同一个任务的数据,按照一定规则汇集到一起的过程称为Shuffle过程。但是,大数据处理系统在处理数据的过程中,Shuffle过程的用时占比通常很大,导致大型数据处理系统中Shuffle过程的执行效率,影响大型数据处理系统的数据计算性能。
[0031]基于此,本申请实施例提供的数据处理方法,通过将单指令流多数据流(Single Instruction Multiple Data,SIMD)技术运用于Shuffle过程,系统性提出了基于第一数据语义即SIMD Gather语义和第二数据语义即SIMD Scatter语义的两种Shuffle方案,极大的提升了大数据处理系统中Shuffle过程的执行效率,以及,将SIMD运用到大数据处理系统的Shuffle过程中,改善并提升了大型数据处理系统的数据计算性能。这里,SIMD是指采用一个控制器来控制多个处理器,同时对一组数据(又称“数据向量”)中的每一个分别执行相同的操作从而实现空间上的并行的技术。
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:获取列数据库中的至少一列数据;根据所述至少一列数据中每列数据所在行号的行数据,计算每行的哈希分桶值;根据所述每行的哈希分桶值,确定具有相同哈希分桶值的行号集合;向与所述行号集合对应的哈希分桶发送目标数据,所述目标数据为所述具有相同哈希分桶值的行号集合中每个行号对应的列数据。2.根据权利要求1所述的方法,其中,所述向与所述行号集合对应的哈希分桶发送目标数据,包括:从所述至少一列数据中,获取所述行号集合中每个行号对应的列数据;按照寄存器存储数据的维度,拷贝所述列数据至寄存器;向与所述行号集合对应的哈希分桶发送所述寄存器中的目标数据。3.根据权利要求2所述的方法,其中,所述寄存器为单指令流多数据流SIMD寄存器,所述SIMD寄存器包括第一数据语义,所述第一数据语义包括gather语义函数;所述按照寄存器存储数据的维度,拷贝所述列数据至寄存器,包括:按照寄存器存储数据的维度,通过gather语义函数,拷贝所述列数据至与所述哈希分桶值对应的寄存器。4.根据权利要求2或3所述的方法,其中,所述第一数据语义还包括toArray语义函数;所述向与所述行号集合对应的哈希分桶发送所述寄存器中的目标数据,包括:通过所述toArray语义函数,向与所述行号集合对应的哈希分桶发送所述寄存器中的目标数据,并指示与所述行号集合对应的哈希分桶存储所述目标数据。5.根据权利要求1所述的方法,其中,所述向与所述行号集合对应的哈希分桶发送目标数据,包括:按照行号排列顺序,拷贝所述至少一列数据至寄存器;根据哈希分桶值的排布顺序,将所述寄存器中的数据写入临时内存中;拷贝所述连续内存中的目标数据,并向与所述行号集合对应的哈希分桶发送所述目标数据。6.根据权利要求5所述的方法,其中,所述寄存器为单指令流多数据流SIMD寄存器,所述SIMD寄存器包括第二数据语义,所述第二数据语义包括SIMD fromArray语义函数;所述按照行号排列顺序,拷贝所述至少一列数据至寄存器,包括:通过所述SIMD fromArray语义函数,按照行号排列顺序和寄存器存储数据的维度,拷贝所...

【专利技术属性】
技术研发人员:赖立李飞飞林亮
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1