The present application provides an exception monitoring method and apparatus. Anomaly monitoring method comprises the following steps: according to preset reference task task scheduling system, determine the abnormal task scheduling system; task completion time according to the preset benchmark benchmark to determine the abnormal operation of the latest start time of task; according to the operation of abnormal task the latest start time and the current time, the abnormal the task of the alarm processing. The application can improve the flexibility of alarming for abnormal tasks, reduce the probability that the alarm is not timely or unnecessary, and improve the accuracy of the alarm.
【技术实现步骤摘要】
异常监控方法及装置
本申请涉及通信技术,尤其涉及一种异常监控方法及装置。
技术介绍
在大数据时代,数据被越来越广泛的分析和使用,但是由于数据量之大、收集过程复杂,难免会出现不稳定或错误的情况,特别是在分布式系统中,出错重试更是难以避免。当出现问题时,如果能够及时预警甚至提前预警,会极大的降低数据错误带来的损失。在任务调度系统中,为便于及时发现异常任务,一般采用任务监控方案。现有技术任务监控方案,基本上都是用户配置繁杂的信息,包括报警触发条件、报警时间、报警对象、报警方式等,基于这些配置信息,对任务运行过程进行监控,当发现符合报警触发条件的任务时,在设定的报警时间,以设定的报警方式向设定的报警对象进行报警。在这种方式中,报警时间是预先配置好的,灵活性较差,容易引起报警不够及时或者非必要的报警,导致报警精度较差。
技术实现思路
本申请提供一种异常监控方法及装置,用以提高对异常任务报警的灵活性,降低出现报警不及时或非必要报警的几率,提高报警精度。为达到上述目的,本申请的实施例采用如下技术方案:第一方面,提供了一种异常监控方法,包括:根据任务调度系统中预先设定的基准任务,确定所述任务调度系统中的异常任务;根据预先设定的所述基准任务的基准完成时间,确定重新运行所述异常任务的最晚开始时间;根据重新运行所述异常任务的最晚开始时间和当前时间,对所述异常任务进行报警处理。第二方面,提供了一种异常监控装置,包括:异常任务确定模块,用于根据任务调度系统中预先设定的基准任务,确定所述任务调度系统中的异常任务;最晚时间确定模块,用于根据预先设定的所述基准任务的基准完成时间,确定重新运行 ...
【技术保护点】
一种异常监控方法,其特征在于,包括:根据任务调度系统中预先设定的基准任务,确定所述任务调度系统中的异常任务;根据预先设定的所述基准任务的基准完成时间,确定重新运行所述异常任务的最晚开始时间;根据重新运行所述异常任务的最晚开始时间和当前时间,对所述异常任务进行报警处理。
【技术特征摘要】
1.一种异常监控方法,其特征在于,包括:根据任务调度系统中预先设定的基准任务,确定所述任务调度系统中的异常任务;根据预先设定的所述基准任务的基准完成时间,确定重新运行所述异常任务的最晚开始时间;根据重新运行所述异常任务的最晚开始时间和当前时间,对所述异常任务进行报警处理。2.根据权利要求1所述的方法,其特征在于,所述根据任务调度系统中预先设定的基准任务,确定所述任务调度系统中的异常任务,包括:确定所述任务调度系统中的被所述基准任务所依赖的任务作为待监控任务;获取所述待监控任务中运行状态异常的任务作为所述异常任务。3.根据权利要求2所述的方法,其特征在于,所述获取所述待监控任务中运行状态异常的任务作为所述异常任务,包括以下至少一种操作:获取所述待监控任务中运行出错的任务作为所述异常任务;获取所述待监控任务中运行速度变慢的任务作为所述异常任务。4.根据权利要求3所述的方法,其特征在于,所述获取所述待监控任务中运行速度变慢的任务作为所述异常任务,包括:获取所述待监控任务中运行时长满足指定时长条件的任务作为所述异常任务;其中,所述指定时长条件包括以下至少一个:大于预设时长阈值;比指定时间段内的平均运行时长多出指定比例。5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据重新运行所述异常任务的最晚开始时间和当前时间,对所述异常任务进行报警处理,包括:若所述当前时间处于指定时间范围内,立即对所述异常任务进行报警处理;若所述当前时间未处于指定时间范围内,根据所述异常任务的异常类型以及重新运行所述异常任务的最晚开始时间,确定异常报警时间,在所述异常报警时间到达时,对所述异常任务进行报警处理。6.根据权利要求5所述的方法,其特征在于,所述根据所述异常任务的异常类型以及重新运行所述异常任务的最晚开始时间,确定异常报警时间,包括:若所述异常任务的异常类型为运行出错,则在重新运行所述异常任务的最晚开始时间晚于预设的第一时间时,设置晚于当前时间但早于所述第一时间的第二时间作为所述异常报警时间,或者,在重新运行所述异常任务的最晚开始时间早于或等于所述第一时间时,设置当前时间作为所述异常报警时间;若所述异常任务的异常类型为运行速度变慢,则在重新运行所述异常任务的最晚开始时间与当前时间的时间差大于预设的时差阈值时,设置比重新运行所述异常任务的最晚开始时间早所述时差阈值的第三时间作为所述异常报警时间,或者,在重新运行所述异常任务的最晚开始时间与当前时间的时间差小于或等于所述时差阈值...
【专利技术属性】
技术研发人员:陈磊,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。