System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据仓库,特别是涉及一种数据任务处理和切分方法及其相关装置。
技术介绍
1、现有技术中,随着数据处理平台的发展和使用,能够实现不同平台、不同计算系统或者不同计算引擎之间数据的共用,但是在处理超大数据量时,限制于性能瓶颈与资源瓶颈等问题,使得数据在处理存在较大的延迟性,导致使用对象的体验感较差。例如,针对单任务超大数据量的数据摆渡场景,尤其是在数据均匀分布或者不均匀分布情况下,现有的处理方案往往限制于处理环节的性能瓶颈或者单服务器的资源瓶颈等多方面瓶颈的情况下,导致超大数据量的摆渡实时性较低,导致数据摆渡存在较大延迟。
2、因此,市面上亟需一种数据处理方法以解决上述问题。
技术实现思路
1、本申请至少提供一种数据任务处理和切分方法及其相关装置,能够提升数据任务处理的实时性。
2、本申请第一方面提供了一种数据任务处理方法,该方法包括:处理节点接收处理平台发送的至少一个待处理数据任务;对于各待处理数据任务,在待处理数据任务的数据量满足预设数据量要求的情况下,利用唯一切分标识将待处理数据任务切分为若干处理子数据任务,其中,各处理子数据任务之间数据量差异小于预设差异值;对若干处理子数据任务进行并发处理,以完成待处理数据任务。
3、其中,唯一切分标识为切分键,切分键表示对待处理数据任务分段划分的符号;利用唯一切分标识将待处理数据任务切分为若干处理子数据任务,包括:响应于待处理数据任务中的切分键满足预设条件,利用切分键对待处理数据任务进行切分,得到若
4、其中,预设条件为切分键为唯一分布;和/或,唯一切分标识为唯一标识,利用唯一切分标识将待处理数据任务切分为若干处理子数据任务,还包括:响应于待处理数据任务中的切分键不满足预设条件,查找待处理数据任务对应的原始数据的唯一标识,并利用唯一标识对应的维度对待处理数据任务进行切分,得到若干处理子数据任务。
5、其中,对若干处理子数据任务进行并发处理,以完成待处理数据任务,包括:基于预设数据范围,将若干处理子数据任务进行组合,得到任务执行组;对任务执行组进行并发处理,以完成待处理数据任务,其中,并发处理包括数据读、数据流转、数据写操作中的至少一者;和/或,预设数据量要求为待处理数据任务的数据量大于或等于处理阈值;和/或,待处理数据任务为处理平台接收到的原始数据任务,或者为处理平台对原始数据任务进行切分得到的切分子数据任务。
6、本申请第二方面提供了一种数据任务切分方法,该方法包括:处理平台确定原始数据任务的数据量;响应于原始数据任务的数据量满足切分条件,对原始数据任务进行切分处理,得到若干切分子数据任务;分别将若干切分子数据任务分配至数据处理系统中的至少一个处理节点进行处理,其中,处理节点在接收到处理平台发送的切分子数据任务后,能够切分子数据任务进行切分,并对切分后的切分子数据任务进行并发处理。
7、其中,切分条件包括以下至少一者:数据处理系统中的所有处理节点的当前剩余资源能够处理原始数据任务的数据量、原始数据任务的数据量大于或等于切分阈值、原始数据任务设有目标数据处理速率且目标数据处理速率大于预设数据处理速率,其中,目标数据处理速率表示需在设定时间内完成原始数据任务。
8、其中,对原始数据任务进行切分处理,得到若干切分子数据任务,包括:获取原始数据任务的数据关联信息;响应于数据关联信息满足第一关联条件,基于库维度对原始数据任务进行切分处理,得到若干切分子数据任务;响应于数据关联信息满足第二关联条件,基于数据区间维度对原始数据任务进行切分处理,得到若干切分子数据任务;其中,第一关联条件表示数据关联信息至少对应两个数据仓库,数据仓库至少对应两个数据表;第二关联条件表示数据关联信息中对应一个数据仓库,数据仓库对应一个数据表。
9、其中,分别将若干切分子数据任务分配至数据处理系统中的至少一个处理节点进行处理,包括:分别利用各处理节点的当前剩余资源进行预测,得到各处理节点的未来资源预测信息;分别基于各未来资源预测信息,确定各处理节点的接收任务数量;基于各处理节点的接收任务数量,将对应数量的切分子数据任务分配至各处理节点;和/或,方法还包括:响应于原始数据任务的数据量不满足切分条件,直接将原始数据任务发送至处理节点。
10、本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的数据任务处理方法,和/或实现上述第二方面中的数据任务切分方法。
11、本申请第六方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的数据任务处理方法,和/或实现上述第二方面中的数据任务切分方法。
12、上述方案,处理节点在接收处理平台发送的至少一个待处理数据任务后,在待处理数据任务的数据量满足预设数据量要求的情况下,利用唯一切分标识将待处理数据任务切分为若干处理子数据任务,使得各处理子数据任务之间数据量差异小于预设差异值,以达到均匀切分的效果,再对若干处理子数据任务进行并发处理,以完成待处理数据任务,无论数据任务中的数据是均匀分布还是不均匀分布,都可利用唯一切分标识进行均匀切分,使得各处理子数据任务的数据量之间相差不会太大,以达到大数据量任务性能提升的目的,同时将待处理数据任务切分为更小级别的处理子数据任务,并进行并发,可提升任务执行时的效率,从而可使得数据任务能够更加快速的并发处理,以提升数据任务处理的实时性。
13、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
本文档来自技高网...【技术保护点】
1.一种数据任务处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述唯一切分标识为切分键,所述切分键表示对所述待处理数据任务分段划分的符号;所述利用唯一切分标识将所述待处理数据任务切分为若干处理子数据任务,包括:
3.根据权利要求2所述的方法,其特征在于,所述预设条件为所述切分键为唯一分布;
4.根据权利要求1所述的方法,其特征在于,所述对所述若干处理子数据任务进行并发处理,以完成所述待处理数据任务,包括:
5.一种数据任务切分方法,其特征在于,包括:
6.根据权利要求5所述的方法,其特征在于,所述切分条件包括以下至少一者:所述数据处理系统中的所有处理节点的当前剩余资源能够处理所述原始数据任务的数据量、所述原始数据任务的数据量大于或等于切分阈值、所述原始数据任务设有目标数据处理速率且所述目标数据处理速率大于预设数据处理速率,其中,所述目标数据处理速率表示需在设定时间内完成所述原始数据任务。
7.根据权利要求5所述的方法,其特征在于,所述对所述原始数据任务进行切分处理,得到若干切分子数据
8.根据权利要求5所述的方法,其特征在于,所述分别将若干所述切分子数据任务分配至数据处理系统中的至少一个处理节点进行处理,包括:
9.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至4任一项所述的数据任务处理方法,和/或以实现权利要求5至8任一项所述的数据任务切分方法。
10.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至4任一项所述的数据任务处理方法,和/或以实现权利要求5至8任一项所述的数据任务切分方法。
...【技术特征摘要】
1.一种数据任务处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述唯一切分标识为切分键,所述切分键表示对所述待处理数据任务分段划分的符号;所述利用唯一切分标识将所述待处理数据任务切分为若干处理子数据任务,包括:
3.根据权利要求2所述的方法,其特征在于,所述预设条件为所述切分键为唯一分布;
4.根据权利要求1所述的方法,其特征在于,所述对所述若干处理子数据任务进行并发处理,以完成所述待处理数据任务,包括:
5.一种数据任务切分方法,其特征在于,包括:
6.根据权利要求5所述的方法,其特征在于,所述切分条件包括以下至少一者:所述数据处理系统中的所有处理节点的当前剩余资源能够处理所述原始数据任务的数据量、所述原始数据任务的数据量大于或等于切分阈值、所述原始数据任务设有目标数据处理速率且所述目标数据处...
【专利技术属性】
技术研发人员:斯奇能,王亮,文江,白璐,李原,朱崇凯,
申请(专利权)人:浙江大华技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。