一种预测平台作业执行时间的方法、装置和电子设备制造方法及图纸

技术编号:27204999 阅读:13 留言:0更新日期:2021-01-31 12:25
本发明专利技术涉及计算机技术领域,具体涉及一种预测平台作业执行时间的方法、装置和电子设备,包括:于目标作业中提取作业数据集,所述作业数据集包括:特征向量数据、度量指标数据;通过时间预测模型获取所述目标作业每个阶段执行时间;根据所述目标作业每个阶段执行时间计算所述目标作业的执行时间;根据预测的所述目标作业的执行时间对所述目标作业的执行计划自动进行动态调整并执行,获取调整后的所述目标作业的执行计划。本发明专利技术能够实现对分布式计算平台中复杂算子执行时间的准确预测,能够动态地调整作业执行计划,有效减低计算过程的复杂度,提升计算集群的整体性能。提升计算集群的整体性能。提升计算集群的整体性能。

【技术实现步骤摘要】
一种预测平台作业执行时间的方法、装置和电子设备


[0001]本专利技术涉及计算机
,尤其涉及一种预测平台作业执行时间的方法、装置和电子设备。

技术介绍

[0002]分布式计算平台借助核心引擎能够将集群规模扩展到数千个节点,Catalyst Optimizer提供了基于规则和代价的优化器,把数据仓库的计算能力推向新的高度。但在超大规模数据集上,存在易用性和可扩展性的问题,结构化产讯语言或Dataset程序在执行之前被解析成逻辑计划,然后生成可执行的物理计划,不同的执行计划对性能有很大的影响。
[0003]在分布式计算平台作业执行时间预测方面的理论研究,以及技术实践存在以下技术问题:
[0004]不能准确预测分布式计算平台中复杂算子的执行时间,现有技术中研究了预测Hadoop分布式存储系统中查询执行时间的方法,采用核典型相关分析统计模型,关联查询输出大小与执行时间,通过最近的类似查询的性能预测作业执行时间,实验表明对计算过程简单的算子有一定参考价值,复杂算子的精确度较低,同时现有技术中提出了一种混合模型估计不同类型算子的性能,在关系型数据库中有良好的表现,但在大规模分布式计算平台中应用性较差,以及使用样本数据模拟集群中不同节点的执行性能,存在Shuffle开销的接口密集型作业的预测精度较低。

技术实现思路

[0005]本专利技术提供了一种预测平台作业执行时间的方法、装置和电子设备,用以对分布式计算平台中复杂算子执行时间的准确预测,能够动态地调整作业执行计划,有效减低计算过程的复杂度,提升计算集群的整体性能。。
[0006]本说明书实施例提供一种预测平台作业执行时间的方法,包括:
[0007]于目标作业中提取作业数据集,所述作业数据集包括:特征向量数据、度量指标数据;
[0008]通过时间预测模型获取所述目标作业每个阶段执行时间;
[0009]根据所述目标作业每个阶段执行时间计算所述目标作业的执行时间;
[0010]根据预测的所述目标作业的执行时间对所述目标作业的执行计划自动进行动态调整并执行,获取调整后的所述目标作业的执行计划。
[0011]优选的,所述于目标作业中提取作业数据集,包括:
[0012]通过作业调度页面、REST接口、外部监控工具中任意一方式获取所述作业数据集;
[0013]通过侦听器总线机制提取所述特征向量数据以及通过指标系统提取所述度量指标数据。
[0014]优选的,所述目标作业每个阶段执行时间为每个阶段开始时间与完成时间之间的时间间隔,所述开始时间为开始执行任务的开始时间,所述完成时间为左后执行任务的完
成时间。
[0015]优选的,所述目标作业的执行时间为所述目标作业每个阶段执行时间之和。
[0016]优选的,所述通过时间预测模型获取所述目标作业每个阶段执行时间,包括:
[0017]将所述目标作业编译成有向无环图,所述有向无环图依赖弹性分布式数据集运行;
[0018]通过有向无环图调度器对所述目标作业进行排序;
[0019]通过作业调度器调度所述目标作业并执行,获取所述目标作业每个阶段执行时间。
[0020]优选的,所述对所述目标作业的执行计划自动进行动态调整并执行,包括:
[0021]当调整后的所述目标作业的执行计划失败时,对失败的所述目标作业的执行计划采用容错机制或重试。
[0022]本说明书实施例还提供一种预测平台作业执行时间的装置,其特征在于,包括:
[0023]数据提取模块,于目标作业中提取作业数据集,所述作业数据集包括:特征向量数据、度量指标数据;
[0024]时间预测模块,通过时间预测模型获取所述目标作业每个阶段执行时间;
[0025]数据处理模块,根据所述目标作业每个阶段执行时间计算所述目标作业的执行时间;
[0026]作业执行模块,根据预测的所述目标作业的执行时间对所述目标作业的执行计划自动进行动态调整并执行,获取调整后的所述目标作业的执行计划。
[0027]优选的,所述于目标作业中提取作业数据集,包括:
[0028]通过作业调度页面、REST接口、外部监控工具中任意一方式获取所述作业数据集;
[0029]通过侦听器总线机制提取所述特征向量数据以及通过指标系统提取所述度量指标数据。
[0030]优选的,所述目标作业每个阶段执行时间为每个阶段开始时间与完成时间之间的时间间隔,所述开始时间为开始执行任务的开始时间,所述完成时间为左后执行任务的完成时间。
[0031]优选的,所述目标作业的执行时间为所述目标作业每个阶段执行时间之和。
[0032]优选的,所述通过时间预测模型获取所述目标作业每个阶段执行时间,包括:
[0033]将所述目标作业编译成有向无环图,所述有向无环图依赖弹性分布式数据集运行;
[0034]通过有向无环图调度器对所述目标作业进行排序;
[0035]通过作业调度器调度所述目标作业并执行,获取所述目标作业每个阶段执行时间。
[0036]优选的,所述对所述目标作业的执行计划自动进行动态调整并执行,包括:
[0037]当调整后的所述目标作业的执行计划失败时,对失败的所述目标作业的执行计划采用容错机制或重试。
[0038]一种电子设备,其中,该电子设备包括:
[0039]处理器以及存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一项所述的方法。
[0040]一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述任一项所述的方法。
[0041]其有益效果在于:
[0042]本专利技术能够实现对分布式计算平台中复杂算子执行时间的准确预测,能够动态地调整作业执行计划,有效减低计算过程的复杂度,提升计算集群的整体性能。
附图说明
[0043]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0044]图1为本说明书实施例提供的一种预测平台作业执行时间的方法的原理示意图;
[0045]图2为本说明书实施例提供的一种预测平台作业执行时间的装置的结构示意图;
[0046]图3为本说明书实施例提供的一种电子设备的结构示意图;
[0047]图4为本说明书实施例提供的一种计算机可读介质的原理示意图。
具体实施方式
[0048]现在将参考附图更全面地描述本专利技术的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本专利技术仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本专利技术更加全面和完整,更加便于将专利技术构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预测平台作业执行时间的方法,其特征在于,包括:于目标作业中提取作业数据集,所述作业数据集包括:特征向量数据、度量指标数据;通过时间预测模型获取所述目标作业每个阶段执行时间;根据所述目标作业每个阶段执行时间计算所述目标作业的执行时间;根据预测的所述目标作业的执行时间对所述目标作业的执行计划自动进行动态调整并执行,获取调整后的所述目标作业的执行计划。2.如权利要求1所述的一种预测平台作业执行时间的方法,其特征在于,所述于目标作业中提取作业数据集,包括:通过作业调度页面、REST接口、外部监控工具中任意一方式获取所述作业数据集;通过侦听器总线机制提取所述特征向量数据以及通过指标系统提取所述度量指标数据。3.如权利要求1或2所述的一种预测平台作业执行时间的方法,其特征在于,所述目标作业每个阶段执行时间为每个阶段开始时间与完成时间之间的时间间隔,所述开始时间为开始执行任务的开始时间,所述完成时间为左后执行任务的完成时间。4.如权利要求1-3中任一项所述的一种预测平台作业执行时间的方法,其特征在于,所述目标作业的执行时间为所述目标作业每个阶段执行时间之和。5.如权利要求1-4中任一项所述的一种预测平台作业执行时间的方法,其特征在于,所述通过时间预测模型获取所述目标作业每个阶段执行时间,包括:将所述目标作业编译成有向无环图,所述有向无环图依赖弹性分布式数据集运行;通过有向无环图调度器对所述目标作业进行排序;通过作业调度器调度所述目标作业并执行,获取所述目标作业每个阶段执行时间...

【专利技术属性】
技术研发人员:吴恩慈
申请(专利权)人:上海淇玥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1