计算节点的定位方法、系统及管理节点技术方案

技术编号:7329717 阅读:203 留言:0更新日期:2012-05-10 18:42
本申请实施例公开了一种计算节点的定位方法、系统及管理节点,所述方法包括:所述管理节点监测在所述系统中执行的并行作业;当监测到异常并行作业时,确定执行所述异常并行作业的并行计算节点;获取所述并行计算节点的错误信息;根据预先设置的错误优先级的排序信息对所述错误信息进行过滤,并根据过滤的结果定位到相应的计算节点。本申请实施例中通过对海量的错误信息按照优先级排序进行过滤,无需人为分析错误信息,因此可以快速定位到发生错误的根源计算节点,提高了计算节点的定位效率;并且,由于各个计算节点可以将错误信息保存到内存的特定区域,因此所记录的精确错误信息不会因为操作系统故障而消失,保证了计算节点定位的准确性。

【技术实现步骤摘要】

本申请涉及计算机
,特别涉及一种计算节点的定位方法、系统及管理节点O
技术介绍
并行计算指通过多个具有计算能力的设备共同完成一项计算任务,以提高任务的处理效率。在并行计算系统中,每个设备也称为一个计算节点,当系统中的计算节点数量达到万数量级时,该系统称为超大规模并行计算系统,相应的,运行在若干设备上的程序称为超大规模并行程序。在超大规模并行计算系统中,程序通常被划分为多个进程,这些进程运行在不同的计算节点上,协同完成一项计算任务。在超大规模并行计算系统中,由于各个计算节点之间是协同运行的,因此任何一个计算节点上发生异常,都将导致程序的运行异常, 甚至使得计算节点发生宕机。现有技术中,一旦某个计算节点发生错误,该计算节点的操作系统(例如,Linux)会记录错误日志,并将错误信息输出打印,由系统管理者逐一检查所有计算节点的错误信息,以便对出错的计算节点进行定位。专利技术人在对现有技术的研究过程中发现,由于每个计算节点操作系统所记录的错误信息种类较多,并且某个计算节点上的一个错误可能引起该计算节点,甚至其它计算节点上产生多条错误信息,而采用人为分析错误信息,并定位错误计算节点的方式的定位效率低下,且耗费大量人力;并且,由于错误信息保存在操作系统的临时存储区,新的其他系统信息将覆盖所记录的错误信息,特别当操作系统故障时,管理员将无法获取到错误信息, 从而导致无法对故障的计算节点进行定位。
技术实现思路
本申请实施例的目的在于提供一种计算节点的定位方法及系统,以解决现有技术中定位错误节点效率不高,且耗费人力的问题。为解决上述技术问题,本申请实施例提供如下技术方案一种计算节点的定位方法,应用在包含管理节点和若干计算节点的并行计算系统中,所述方法包括所述管理节点监测在所述系统中执行的并行作业;当监测到异常并行作业时,确定执行所述异常并行作业的并行计算节点;获取所述并行计算节点的错误信息;根据预先设置的错误优先级的排序信息对所述错误信息进行过滤,并根据过滤的结果定位到相应的计算节点。还包括保存预先设置的计算节点中所发生错误的错误优先级的排序信息,所述错误优先级的排序信息包括错误类型信息和对应的优先级设置信息。所述获取并行计算节点的错误信息包括扫描执行所述并行作业的并行计算节点;按照预先定义的错误信息记录结构从所扫描的并行计算节点上读取错误信息并保存。所述根据预先设置的错误优先级的排序信息对所述错误信息进行过滤包括通过查找所述错误优先级的排序信息,将每个并行计算节点中优先级最高的错误信息作为所述并行计算节点的过滤错误信息;比较每个并行计算节点的过滤错误信息的优先级排序;根据比较的结果筛选出优先级排序最高的过滤错误信息所在的计算节点。还包括所述若干计算节点实时捕获本地发生的错误;将所捕获的每一个错误的错误信息记录到预先设置的内存区域中。一种计算节点的定位系统,所述系统为并行计算系统,包括管理节点和若干计算节点,所述若干计算节点,用于执行并行作业;所述管理节点,用于当监测到异常并行作业时,确定执行所述异常并行作业的并行计算节点,获取所述并行计算节点的错误信息,根据预先设置的错误优先级的排序信息对所述错误信息进行过滤,并根据过滤的结果定位到相应的计算节点。所述管理节点,还用于保存预先设置的计算节点中所发生错误的错误优先级的排序信息,所述错误优先级的排序信息包括错误类型信息和对应的优先级设置信息。所述计算节点,还用于实时捕获本地发生的错误,并将所捕获的每一个错误的错误信息记录到预先设置的内存区域中。—种管理节点,应用在包含若干计算节点的并行计算系统中,包括监测单元,用于监测在所述系统中执行的并行作业;确定单元,用于当监测到异常并行作业时,确定执行所述异常并行作业的并行计算节点;获取单元,用于获取所述并行计算节点的错误信息;过滤单元,用于根据预先设置的错误优先级的排序信息对所述错误信息进行过滤;定位单元,用于根据过滤的结果定位到相应的计算节点。还包括保存单元,用于保存预先设置的计算节点中所发生错误的错误优先级的排序信息,所述错误优先级的排序信息包括错误类型信息和对应的优先级设置信息。所述获取单元包括扫描单元,用于扫描执行所述并行作业的并行计算节点;读取单元,用于按照预先定义的错误信息记录结构从所扫描的并行计算节点上读取错误信息并保存。所述过滤单元包括查找单元,用于通过查找所述错误优先级的排序信息,将每个并行计算节点中优先级最高的错误信息作为所述并行计算节点的过滤错误信息;比较单元,用于比较每个并行计算节点的过滤错误信息的优先级排序;5筛选单元,用于根据比较的结果筛选出优先级排序最高的过滤错误信息所在的计算节点。由以上本申请实施例提供的技术方案可见,本申请实施例应用在包含管理节点和若干计算节点的并行计算系统中,当管理节点监测到异常并行作业时,确定执行该异常并行作业的并行计算节点,获取并行计算节点的错误信息,根据预先设置的错误优先级的排序信息对错误信息进行过滤,并根据过滤的结果定位到相应的计算节点。本申请实施例中通过对海量的错误信息按照优先级排序进行过滤,无需人为分析错误信息,因此可以快速定位到发生错误的根源计算节点,提高了计算节点的定位效率;并且,由于各个计算节点可以将错误信息保存到内存的特定区域,因此所记录的精确错误信息不会因为操作系统故障而消失,保证了计算节点定位的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请计算节点的定位方法的第一实施例流程图;图2为本申请计算节点的定位方法的第二实施例流程图;图3为应用本申请实施例进行计算节点定位的系统架构示意图;图4为本申请计算节点的定位系统的实施例框图;图5为本申请管理节点的第一实施例框图;图6为本申请管理节点的第二实施例框图。具体实施例方式在如下本申请的多个实施例中,有些实施例提供了一种计算节点的定位方法,有些实施例提供了一种计算节点的定位系统和管理节点。本申请实施例中的并行计算系统中包含管理节点和若干计算节点。为了使本
的人员更好地理解本申请实施例中的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。参见图1,为本申请计算节点的定位方法的第一实施例流程图步骤101 管理节点监测系统中执行的并行作业。步骤102 当监测到异常并行作业时,确定执行该异常并行作业的并行计算节点。系统中的若干计算节点实时捕获本地发生的错误,将所捕获的每一个错误的错误信息记录到预先设置的内存区域中。步骤103 获取并行计算节点的错误信息。具体的,扫描执行所述并行作业的并行计算节点,按照预先定义的错误信息记录结构从所扫描的并行计算节点上读取错误信息并保存。步骤104 根据预先设置的错误优先级的排序信息对错误信息进行过滤,并根据6过滤的结果定位到相应的计算节点。具体的,通过查找所述错误优先级的排序信息,将每个并行计算节点中优先级最高的错误信息作为所述并行计算节点的过滤错误信息,比较本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:沈金祥朱建涛陈婓崔巍
申请(专利权)人:无锡江南计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术