流计算任务并行度优化方法、装置、电子设备及存储介质制造方法及图纸

技术编号：34364015 阅读：21 留言：0更新日期：2022-07-31 08:04

本发明专利技术公开了一种流计算任务并行度优化方法、装置、电子设备及存储介质，属于大数据领域。其中方法包括：获取流计算中各计算节点的性能参数值和各任务预设的任务优先级，其中性能参数值包括各计算节点的CPU、内存、网络带宽和/或任务吞吐量的参数值；基于任务并行度模型，确定在当前运行的所有流计算任务总价值最大时各任务的并行度，其中，任务并行度模型是通过任务收益与任务开销的差值确定任务的价值，任务收益由预设的任务优先级和任务吞吐量确定，任务开销由任务消耗的资源确定，该资源包括CPU、内存和/或网络带宽，任务吞吐量和任务消耗的资源是关于任务并行度的函数；根据所确定的各任务的并行度对当前运行的各任务的并行度进行调整。并行度进行调整。并行度进行调整。

全部详细技术资料下载

【技术实现步骤摘要】
流计算任务并行度优化方法、装置、电子设备及存储介质

[0001]本专利技术属于大数据领域，具体涉及一种流计算任务并行度优化方法、流计算任务并行度优化装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着物联网的快速发展，各种传感器不断产生大量传感数据，这些数据具有密集度高、实时性强、价值密度低等特点，需要进行实时、高效的计算，因此流计算技术在物联网领域获得了广泛应用。
[0003]流计算是一种对流数据的处理技术。作为一种新的分布式数据计算技术，它能够以类似于流水线的方式处理无边界的数据流。待处理的数据连续不断的进入流计算系统，系统实时的对数据进行分析处理，高效快速的获得有价值的信息。流计算优势是实时性强，缺点是吞吐量较小，资源开销较大。
[0004]一个流计算任务逻辑上通常由一连串的多个计算算子组成，称为任务的逻辑拓扑。用户自定义的计算逻辑被封装在算子中，算子是最小的计算执行单元，承载实际的数据处理工作，数据流沿着算子顺序依次执行，并将计算结果传递给下游算子，最终得到计算结果。所有算子和其上下游数据传输路线组成了一个有向无环图DAG(Directed Acyclic Graph)。当任务逻辑拓扑调度到物理节点上执行时，可以借助并行计算提升计算效率。任务的并行度指明了逻辑任务中算子的并行程度。通过算子的并行执行，显著提升流计算系统吞吐量。一个流计算任务并行度越高，并行计算的计算效率也就越高，系统吞吐量也越大。同时，由于算子作为系统中的执行单位(线程/进程)，消耗的系统资源也就越多。
[...

【技术保护点】

【技术特征摘要】
1.一种流计算任务并行度优化方法，应用于电子设备，其特征在于，包括：获取流计算中各计算节点的性能参数值和流计算当前运行的各任务预设的任务优先级，其中，所述各计算节点的性能参数值包括：各计算节点的CPU、内存、网络带宽和/或任务吞吐量的参数值；基于任务并行度模型，确定在当前运行的所有流计算任务总价值最大时各任务的并行度，其中，所述任务并行度模型是通过任务收益与任务开销的差值确定任务的价值，所述任务收益是由预设的任务优先级和任务吞吐量确定，所述任务开销是由任务消耗的资源确定，所述资源包括CPU、内存和/或网络带宽，所述任务吞吐量和所述任务消耗的资源是关于任务并行度的函数；根据所确定的各任务的并行度对当前运行的所有流计算任务的并行度进行调整。2.根据权利要求1所述的方法，其特征在于，所述基于任务并行度模型，确定在当前运行的所有流计算任务总价值最大时各任务的并行度，包括：根据所述任务并行度模型构造适应度函数；确定流计算任务的并行度和各计算节点资源的约束条件；在满足所述约束条件的情况下，根据所述适应度函数，通过遗传算法经过有限次迭代，确定在当前运行的所有流计算任务总价值最大时各任务的并行度。3.根据权利要求2所述的方法，其特征在于，所述任务并行度模型的任务收益中还包括优先级影响因子；在满足所述约束条件的情况下，根据所述适应度函数，通过遗传算法经过有限次迭代，确定在当前运行的所有流计算任务总价值最大时各任务的并行度之后，所述方法还包括：判断所确定的各任务的并行度与各任务当前的并行度之间的差值是否小于预设阈值；若所确定的各任务的并行度与各任务当前的并行度之间的差值小于预设阈值，则增大所述任务并行度模型中的优先级影响因子，并根据增大优先级影响因子的任务并行度模型构造适应度函数。4.根据权利要求3所述的方法，其特征在于，所述增大所述任务并行度模型中的优先级影响因子，包括：根据所确定的各任务的并行度与各任务当前的并行度之间的差值，和所述差值小于预设阈值的次数，增大所述任务并行度模型中的优先级影响因子。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：若所确定的各任务的并行度与各任务当前的并行度之间的差值大于或等于预设阈值，则根据所确定的各任务的并行度对当前运行的所有流计算任务的并行度进行调整。6.根据权利要求2所述的方法，其特征在于，所述约束条件包括以下至少一项：当前运行的所有流计算任务的并行度之和小于或等于可用计算节点的CPU核心数目；每个计算节点上运行的所有流计算任务的CPU占用率小于或等于预设的上限值；每个计算节点上运行的所有流计算任务的内存占用率小于或等于预设的上限值；每个计算节点上运行的所有流计算任务的网络带宽占用率小于或等于预设的上限值；每个流计算任务的并行度为整数。7.根据权利要求1至6中任一项所述的方法，其特征在于，在基于任务并行度模型，确定在当前运行的所有流计算任务总价值最大时各任务的并行度之前，所述方法还包括：
获取所述流计算的任务参数值；根据所述性能参数值判断所述流计算是否发生资源紧张的情况，以及根据所述任务参数值判断所述流计算的任务数目是否发生变化；所述基于任务并行度模型，确定在当前运行的所有...

【专利技术属性】
技术研发人员：张力，刘玮哲，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人