作业运行结果预测的方法、装置及处理器制造方法及图纸

技术编号:32786025 阅读:13 留言:0更新日期:2022-03-23 19:45
本申请实施例提供一种作业运行结果预测的方法、装置及处理器。该方法包括:获取作业链路关系上的数据样本的特征属性,以形成训练样本集合;基于训练样本集合生成朴素贝叶斯分类器;根据所述朴素贝叶斯分类器,对当下作业执行完成时间进行分类,得到输出值;根据所述输出值,判断是否需要人工处理。通过本申请的技术方案,预判超时运行作业的最终执行结果,对于预判执行失败的作业,输出初步分析结果。减少人为干预作业。少人为干预作业。少人为干预作业。

【技术实现步骤摘要】
作业运行结果预测的方法、装置及处理器


[0001]本申请涉及大数据
,具体涉及一种作业运行结果预测的方法、装置及处理器。

技术介绍

[0002]随着批量处理作业数量日趋庞大,作业间的依赖关系也错综复杂,某个作业运行出现超时导致其下游作业无法正常运行和无法在预计时间完成时,系统往往无法识别超时的作业是否运行正常或者异常。通常,如果作业运行异常结束,触发告警为应急处理;但是如果作业被正常执行,只是在预计时间没有运行完成,并无有效方法确认超时作业是否需要人工介入排查,或判断作业是否还在正常运行;现有作业的运行情况基于多方因素触发,对于未在约定时间完成执行的作业采用一刀切的方式统一触发告警,人工即刻加入干预和排查,缺乏对超时运行作业的分析和预判。

技术实现思路

[0003]本专利技术提出一种作业运行结果预测的方法、装置及处理器,基于朴素贝叶斯理论的有监督学习算法,建立预测模型,通过工具自动判断超时运行作业的合理性,减少人为处理和干预作业的执行。
[0004]为了实现上述目的,本申请第一方面提供一作业运行结果预测方法,包括:获取作业链路关系上的数据样本的特征属性,以形成训练样本集合;基于训练样本集合生成朴素贝叶斯分类器;根据所述朴素贝叶斯分类器,对当下作业执行完成时间进行分类,得到输出值;根据所述输出值,判断是否需要人工处理。
[0005]在本申请实施例中,述特征属性包括:历史作业完成时长是否超出底线时间;调度执行机资源是否低于阈值;跑批数据量是否高于阈值;依赖作业文件是否到达;作业依赖表是否有锁等待。
[0006]进一步地,获取作业链路关系上的数据样本的特征属性,以形成训练样本集合,包括:根据所述历史作业完成时间是否超出底线时间,对每个数据样本赋予分类标签,包括:标签0为底线时间之前结束;标签1为底线时间之后结束。
[0007]进一步地,基于训练样本集合生成朴素贝叶斯分类器,包括:计算所述特征属性的每个类别在所述训练样本集合中的出现频率;基于所述出现频率计算每个特征属性划分对每个类别的条件概率;存储计算结果。
[0008]进一步地,计算所述特征属性的每个类别在所述训练样本集合中的出现频率,包括:计算历史作业完成时长超出底线时间的概率和历史作业完成时长没超出底线时间的概率;计算调度执行机资源低于阈值的概率和调度执行机资源不低于阈值的概率;计算跑批数据量高于阈值的概率和跑批数据量不高于阈值的概率;计算依赖作业文件到达的概率和依赖作业文件没有到达的概率;计算作业依赖表有锁等待的概率和作业依赖表没有锁等待的概率。
[0009]进一步地,基于所述出现频率计算每个特征属性划分对每个类别的条件概率,包括:在所述调度执行机资源不低于阈值的概率发生的条件下,计算历史作业完成时长超出底线时间的概率和历史作业完成时长没超出底线时间的概率。
[0010]进一步地,根据所述朴素贝叶斯分类器,对当下作业执行完成时间进行分类,得到输出值,包括:将所述当下作业执行完成时间分为预期完成时间和底线完成时间;对超出所述预期完成时间完成的作业进行标签分类,包括:如果计算超出所述预期完成时间但没有超出底线完成时间的概率大于第一阈值概率,设置输出值为0;如果计算超出所述预期完成时间但没有超出底线完成时间的概率不大于第一阈值概率,设置输出值为1;其中输入值为当前作业链路关系上的数据样本的特征属性;所述预期完成时间小于所述底线完成时间。
[0011]进一步地,根据所述输出值,判断是否需要人工处置,包括:所述输出为0表示不需要人工介入干预作业执行;所述输出为1表示需要人工介入应急处置。
[0012]进一步地,所述获取作业链路关系上的数据样本的特征属性,包括:通过识别末端作业,在数据库中轮询所述末端作业的上游依赖作业;递归批量作业的依赖关系,其中,对所述依赖关系中的各作业按照特定文件格式存储;解析生成的作业文件,将所述各作业分配到多叉树中;依据所述多叉树获取作业链路关系;查询作业历史运行数据,获取数据样本的特征属性。
[0013]通过上述的方法,基于朴素贝叶斯算法分类器,能够通过提前建立好的作业执行预测模型,预判超时运行作业的最终执行结果,对于预判执行失败的作业,输出初步分析结果。减少人为干预作业和分析。
[0014]本申请第二方面提供一种作业运行结果预测的装置,包括:第一模块,用于获取作业链路关系上的数据样本的特征属性,以形成训练样本集合,其中所述特征属性包括:历史作业完成时长是否超出底线时间;调度执行机资源是否低于阈值;跑批数据量是否高于阈值;依赖作业文件是否到达;作业依赖表是否有锁等待;第二模块,用于基于训练样本集合生成朴素贝叶斯分类器;第三模块,用于根据所述朴素贝叶斯分类器,对当下作业执行完成时间进行分类,得到输出值;以及第四模块,用于根据所述输出值,判断是否需要人工处理。
[0015]进一步地,所述第一模块被配置为:根据历史作业完成时间是否超出底线时间,对每个数据样本赋予分类标签,包括:标签0为底线时间之前结束;标签1为底线时间之后结束。
[0016]进一步地,所述第二模块被配置为:计算每个类别在所述训练样本集合中的出现频率;基于所述出现频率计算每个特征属性划分对每个类别的条件概率;存储计算结果,其中计算所述特征属性的每个类别在所述训练样本集合中的出现频率,包括:计算历史作业完成时长超出底线时间的概率和历史作业完成时长没超出底线时间的概率;计算调度执行机资源低于阈值的概率和调度执行机资源不低于阈值的概率;计算跑批数据量高于阈值的概率和跑批数据量不高于阈值的概率;计算依赖作业文件到达的概率和依赖作业文件没有到达的概率;计算作业依赖表有锁等待的概率和作业依赖表没有锁等待的概率。
[0017]进一步地,所述第三模块被配置为:将作业完成时间分为预期完成时间和底线完成时间;对超出所述预期完成时间完成的作业进行分类,包括:如果计算超出所述预期完成时间但没有超出底线完成时间的概率大于第一阈值概率,设置输出值为0;如果计算超出所述预期完成时间但没有超出底线完成时间的概率不大于第一阈值概率,设置输出值为1;其
中输入值为当前作业链路关系上的数据样本的特征属性;所述预期完成时间小于所述底线完成时间。
[0018]进一步地,所述第四模块被配置为:所述输出为0表示不需要人工介入干预作业执行;所述输出为1表示需要人工介入应急处置。
[0019]进一步地,所述装置被配置为:通过识别末端作业,在数据库中轮询所述末端作业的上游依赖作业;递归批量作业的依赖关系,其中,对所述依赖关系中的各作业按照特定文件格式存储;解析生成的作业文件,将所述各作业分配到多叉树中;依据所述多叉树获取作业链路关系;查询作业历史运行数据,获取数据样本的特征属性。
[0020]本申请第三方面提供一种处理器,被配置成执行上述作业运行结果预测方法。
[0021]本申请第四方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得所述处理器被配置成执行上述的作业运行结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种作业运行结果预测方法,其特征在于,所述方法包括:获取作业链路关系上的数据样本的特征属性,以形成训练样本集合;基于训练样本集合生成朴素贝叶斯分类器;根据所述朴素贝叶斯分类器,对当下作业执行完成时间进行分类,得到输出值;根据所述输出值,判断是否需要人工处理。2.根据权利要求1所述的方法,其特征在于,所述特征属性包括:历史作业完成时长是否超出底线时间;调度执行机资源是否低于阈值;跑批数据量是否高于阈值;依赖作业文件是否到达;作业依赖表是否有锁等待。3.根据权利要求2所述的方法,其特征在于,获取作业链路关系上的数据样本的特征属性,以形成训练样本集合,包括:根据所述历史作业完成时间是否超出底线时间,对每个数据样本赋予分类标签,包括:标签0为底线时间之前结束;标签1为底线时间之后结束。4.根据权利要求2所述的方法,其特征在于,基于训练样本集合生成朴素贝叶斯分类器,包括:计算所述特征属性的每个类别在所述训练样本集合中的出现频率;基于所述出现频率计算每个特征属性划分对每个类别的条件概率;存储计算结果。5.根据权利要求4所述的方法,其特征在于,计算所述特征属性的每个类别在所述训练样本集合中的出现频率,包括:计算历史作业完成时长超出底线时间的概率和历史作业完成时长没超出底线时间的概率;计算调度执行机资源低于阈值的概率和调度执行机资源不低于阈值的概率;计算跑批数据量高于阈值的概率和跑批数据量不高于阈值的概率;计算依赖作业文件到达的概率和依赖作业文件没有到达的概率;计算作业依赖表有锁等待的概率和作业依赖表没有锁等待的概率。6.根据权利要求5所述的方法,其特征在于,基于所述出现频率计算每个特征属性划分对每个类别的条件概率,包括:在所述调度执行机资源不低于阈值的概率发生的条件下,计算历史作业完成时长超出底线时间的概率和历史作业完成时长没超出底线时间的概率。7.根据权利要求2所述的方法,其特征在于,根据所述朴素贝叶斯分类器,对当下作业执行完成时间进行分类,得到输出值,包括:将所述当下作业执行完成时间分为预期完成时间和底线完成时间;对超出所述预期完成时间完成的作业进行标签分类,包括:如果计算超出所述预期完成时间但没有超出底线完成时间的概率大于第一阈值概率,设置输出值为0;
如果计算超出所述预期完成时间但没有超出底线完成时间的概率不大于第一阈值概率,设置输出值为1;其中输入值为当前作业链路关系上的数据样本的特征属性;所述预期完成时间小于所述底线完成时间。8.根据权利要求7所述的方法,其特征在于,根据所述输出值,判断是否需要人工处置,包括:所述输出值为0表示不需要人工介入干预作业执行;所述输出值为1表示需要人工介入应急处置。9.根据权利要求1所述的方法,其特征在于,所述获取作业链路关系上的数据样本的特征属性,包括:通过识别末端作业,在数据库中轮询所述末端作业的上游依赖作业;递归批量作业的依赖关系,其中,对所述依赖关系中的各作业按照特定文件格式存储;解析生成的作业文件,将所述各作业分配到多叉树中;依据所述多叉树获取作业链路关系;查询作业历史运行数据,获取数据样本的特征属...

【专利技术属性】
技术研发人员:范先爽吴迪丁萍李超
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1