System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种预测异构集群中作业运行时间的方法技术_技高网

一种预测异构集群中作业运行时间的方法技术

技术编号:41860754 阅读:2 留言:0更新日期:2024-06-27 18:34
本发明专利技术公开了一种预测异构集群中作业运行时间的方法,属于异构集群技术领域,所述方法包括:采集异构集群中历史作业运行日志数据,从历史作业运行日志数据中提取出历史作业运行特征数据,并对提取出的历史作业运行特征数据进行预处理;采用预设的神经网络搭建预测网络模型;利用预处理后的历史作业运行特征数据训练所述预测网络模型;将训练好的预测网络模型应用于实际作业调度中,预测作业运行时间。本发明专利技术提供的预测异构集群中作业运行时间的方法能够提高作业运行时间的预测精度,从而可提高作业调度效率。

【技术实现步骤摘要】

本专利技术涉及异构集群,特别是指一种用于异构集群资源调度中的预测异构集群中作业运行时间的方法


技术介绍

1、随着海量的数据和日益庞大的网络模型的涌现,对算力的需求也显著增加,传统的单机训练模式达到了性能瓶颈,所以研究人员开始采用分布式训练的方式来对大规模的模型进行训练。异构集群作为一种分布式计算方式,其由若干台计算机通过高速通信网络组成一个计算系统,是一种提高算力的有效方案。而由于集群节点之间存在不同的硬件资源配置和性能差异,从而导致节点之间处理能力不同,所以异构集群中面临负载问题和稳定性问题,同时,由于异构集群中系统应用的复杂性,也会导致作业的成功率比较低。所以,异构集群资源调度研究越倾向于资源调度前的作业运行时间预测,在这种情况下,如何提高异构集群作业运行时间的预测精度,进行成为分布式训练的关键环节之一。

2、虽然作业运行时间的预测不能直接作用于异构集群资源调度,但是准确预测作用运行时间可以提高回填算法和调度框架的性能,有助于异构集群资源的更好分配。回填策略是一种辅助异构集群资源调度的算法,其思想是不改变先前作业的排队顺序,根据当前作业所需的运行时间信息为其分配碎片化资源,其跳过预留资源的长作业为当前作业进行优先调度,提高了异构集群资源利用率。回填策略利用了用户设置的作业请求运行时间,如果预估时间过高会降低整体异构集群资源利用率,因此需要能够准确预估作业运行时间。

3、目前关于异构集群作业运行时间预测研究主要采用基于历史作业记录通过分类技术或机器学习技术来预测异构集群作业运行时间,

4、其基本思路是通过对收集到的数据进行特征选择,再进行数据预处理,选择适合的模型对模型进行训练和优化,最后进行模型的评估。总之,基于历史作业记录来预测异构集群作业运行时间是主要的研究方法,但是预测精度和低估率上还是有较高的缺陷。


技术实现思路

1、本专利技术提供了一种预测异构集群中作业运行时间的方法,以解决现有的异构集群作业运行时间预测方法预测精度较低的技术问题。

2、为解决上述技术问题,本专利技术提供了如下技术方案:

3、一方面,本专利技术提供了一种预测异构集群中作业运行时间的方法,包括:

4、采集异构集群中历史作业运行日志数据,从历史作业运行日志数据中提取出历史作业运行特征数据,并对提取出的历史作业运行特征数据进行预处理;

5、采用预设的神经网络搭建预测网络模型;

6、利用预处理后的历史作业运行特征数据训练所述预测网络模型;

7、将训练好的预测网络模型应用于实际作业调度中,预测作业运行时间。

8、进一步地,每条作业运行特征数据分别包括:提交时间、等待时间、运行时间、分配处理器数量、请求处理器数量、请求运行时间以及用户id。

9、进一步地,所述对提取出的历史作业运行特征数据进行预处理,依次包括以下步骤:

10、对所述作业运行特征数据中的时间信息进行归一化处理;其中,所述时间信息包括:提交时间、等待时间、运行时间以及请求运行时间;

11、使用预设的聚类算法对作业运行特征数据进行聚类,根据聚类结果得到每条作业运行特征数据对应的类别,并以其所属类别替代其中的用户id。

12、进一步地,所述预设的聚类算法为k-means算法。

13、进一步地,对作业运行特征数据进行聚类时,采用手肘法确定最佳聚类数k。

14、进一步地,所述采用预设的神经网络搭建预测网络模型,包括:

15、选择门控循环单元gru网络作为预测网络模型的主体,利用gru网络提取作业运行特征数据中的长短期时间序列;并利用基于时间模式的注意力机制tpa来增加时间信息的权重;

16、通过全连接层和dropout机制优化网络模型结构,减少过拟合的产生;

17、引入批量归一化层提升网络模型的泛化能力。

18、进一步地,在将训练好的预测网络模型应用于实际作业调度中,预测作业运行时间之后,所述预测异构集群中作业运行时间的方法还包括:

19、将时间预测结果与弹性调度方法相结合,实现异构集群资源动态调度。

20、再一方面,本专利技术还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述方法。

21、又一方面,本专利技术还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述方法。

22、本专利技术提供的技术方案带来的有益效果至少包括:

23、本专利技术首先通过k-means算法对异构集群作业日志的数据特征进行类别划分,以减少训练数据的离散性。其次,设计了一种预测时间的tpa-gru网络模型,在精简模型参数量的同时可更好地获取上下文时间信息。在高性能异构集群的公共数据集中证明本专利技术所提出的网络具有较高的预测准确率。从而可提高作业运行时间的预测精度,进而提高作业调度效率。

本文档来自技高网...

【技术保护点】

1.一种预测异构集群中作业运行时间的方法,其特征在于,包括:

2.如权利要求1所述的预测异构集群中作业运行时间的方法,其特征在于,每条作业运行特征数据分别包括:提交时间、等待时间、运行时间、分配处理器数量、请求处理器数量、请求运行时间以及用户ID。

3.如权利要求2所述的预测异构集群中作业运行时间的方法,其特征在于,所述对提取出的历史作业运行特征数据进行预处理,依次包括以下步骤:

4.如权利要求3所述的预测异构集群中作业运行时间的方法,其特征在于,所述预设的聚类算法为K-means算法。

5.如权利要求4所述的预测异构集群中作业运行时间的方法,其特征在于,在对作业运行特征数据进行聚类时,采用手肘法确定最佳聚类数k。

6.如权利要求1所述的预测异构集群中作业运行时间的方法,其特征在于,所述采用预设的神经网络搭建预测网络模型,包括:

7.如权利要求1所述的预测异构集群中作业运行时间的方法,其特征在于,在将训练好的预测网络模型应用于实际作业调度中,预测作业运行时间之后,所述预测异构集群中作业运行时间的方法还包括:</p>...

【技术特征摘要】

1.一种预测异构集群中作业运行时间的方法,其特征在于,包括:

2.如权利要求1所述的预测异构集群中作业运行时间的方法,其特征在于,每条作业运行特征数据分别包括:提交时间、等待时间、运行时间、分配处理器数量、请求处理器数量、请求运行时间以及用户id。

3.如权利要求2所述的预测异构集群中作业运行时间的方法,其特征在于,所述对提取出的历史作业运行特征数据进行预处理,依次包括以下步骤:

4.如权利要求3所述的预测异构集群中作业运行时间的方法,其特征在于,所述预设...

【专利技术属性】
技术研发人员:许海涛廖志龙张子怡董春芳安建伟林福宏周贤伟
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1