本发明专利技术的各实施例涉及用于确定在互连/控制器之间的故障的位置的方法和系统。在一种用于确定在互连/控制器之间的故障的位置的方式中,计算机在耦合到互连的多个节点同时收集调试信息。在收集调试信息之后,计算机分析同时收集的调试信息、由此确定互连的哪端引起故障。
【技术实现步骤摘要】
用于确定在互连/控制器之间的故障的位置的方法和系统
本公开内容涉及分布式计算机系统,并且更具体地涉及针对分布式计算机系统的故障数据。
技术介绍
计算机系统中的硬件和软件部件的组合如今已经发展至这样的程度以使得这些计算机系统可以高度地可靠。可以通过使用冗余部件来提供计算机系统中的可靠性。例如,在一些计算机系统中,部件(比如节点控制器(这些节点控制器管理计算机系统的节点的硬件错误请求))是按冗余对(一个主节点控制器和一个冗余(备份)节点控制器)提供的。在这样的主节点控制器故障时,冗余节点控制器接管主节点控制器的操作。冗余对也可以出于相同目的而用于系统控制器。节点控制器和系统控制器也可以被称为服务处理器。服务处理器是在分布式计算机系统中的如下部件,该部件提供操作任务,比如初始化、配置、运行时错误检测、诊断和纠正以及密切地监视其它硬件部件的故障。系统转储(dump)是冗余节点控制器的工作存储器在具体时间(比如当在冗余节点控制器上运行内的程序已经确定失去与系统控制器的通信时)的记录的状态。第一故障数据捕获(FFDC)是与由节点和/或系统控制器检测到的某个错误有关的最小信息集合。调试转储数据是FFDC的超集合,并且它包括来自控制器的所有信息、包括可能不与具体错误调查直接有关的信息。在错误在节点之一中出现时,从主节点控制器立即捕获对调试信息的转储以用于进一步分析。然而,备份节点控制器仅如果主节点控制器故障并且因而备份节点控制器作为主节点控制器而接管则才可以变成了解错误。这一过程被称为故障转移。等待故障转移过程完成以捕获转储可能延迟对调试信息的转储并且负面地影响用于分析错误的能力。
技术实现思路
本专利技术的实施例公开了一种用于确定在互连/控制器之间的故障的位置的方法、计算机程序产品和系统。该方法包括计算机在耦合到互连的多个节点同时收集调试信息。在收集调试信息之后,计算机分析同时收集的调试信息、由此确定互连的哪端引起故障。附图说明图1是图示了根据本专利技术的一个实施例的包括服务器计算机的分布式计算机系统环境的功能框图。图2是描绘了根据本专利技术的一个实施例的用于同步调试信息生成的在图1的分布式计算机系统环境内的部件的相互通信的数据流程图。图3图示了根据本专利技术的一个实施例的用于根据预定映射同步调试信息生成的场景的示例。图4描绘了根据本专利技术的一个实施例的图1的服务器计算机的部件的框图。具体实施方式在分布式计算机系统内的正常操作期间,特定节点控制器可以检测错误。该错误可以包括许多不同类型的故障,比如通信故障错误、应用或者进程故障错误、特定节点或者节点控制器操作的崩溃或者锁定以及其它错误。在节点控制器检测到在分布式计算机系统中的错误时,分布式计算机系统的资源尝试存储与该错误相关的错误信息以用于以后取回。分布式计算机系统监视具有高优先级的进程、应用和其它资源而保持那些资源始终可用于用户和其它实体。分布式计算机系统可以运用一个或者多个系统控制器,该一个或者多个系统控制器监视分布式计算机系统的节点控制器和其它设备的操作并且管理节点控制器错误信息。在节点控制器检测到错误时,该错误可能在分布式计算机系统内引起通信故障。通信故障可能给系统控制器在取回节点控制器错误检测信息时带来挑战。在具有在分级架构中配置的多个服务处理器的系统架构中,在遇到任何错误条件时从多于一个服务处理器同时收集调试信息可以改进错误分析。例如,如果节点内互连经历故障,则没有用于确定互连的哪端是故障的原因的可靠方法。同时从在其之间经历互连故障的节点二者上的服务处理器收集调试信息提供用于错误分析的附加数据。可以从收集同时调试信息受益的故障的另一示例是在节点控制器故障时。在这种情况出现时,主系统控制器不能与故障的节点控制器通信。从备份系统控制器和在经历故障的节点中的备份节点控制器二者同时收集故障数据可以是有益的。可以从收集同时调试信息受益的故障的又一示例是在主节点控制器难以访问在节点内的硬件时。这时,同时从主节点控制器和备份节点控制器二者收集的故障数据可以向系统管理员给予对错误的附加认识。本专利技术的实施例认识到如果同时从所有涉及到的服务处理器(即节点控制器和系统控制器)捕获第一故障数据捕获(FFDC)和调试转储数据则可以改进对在分布式计算机系统内的错误的分析。本专利技术的实施例检测在分布式计算机系统中的错误、确定从哪些服务处理器收集调试信息并且将数据聚合成单个报告。本专利技术的实施例的实现方式可以采用多种形式,并且随后参照各图讨论示例性实现方式细节。所属
的技术人员知道,本专利技术的各个方面可以实现为系统、方法或计算机程序产品。因此,本专利技术的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本专利技术的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。可以采用计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本专利技术操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如(备注:术语“Java”可以在全世界各管辖地有商标权并且这里仅用来在这样的商标权可以存在的程度上指代被商标恰当命名的产品或者服务)、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。下面将本文档来自技高网...
【技术保护点】
一种用于确定在互连/控制器之间的故障的位置的方法,所述方法包括:在耦合到互连的多个节点同时收集调试信息;并且分析同时收集的所述调试信息、由此确定所述互连的哪端引起所述故障。
【技术特征摘要】
2013.10.30 US 14/066,7221.一种用于确定在互连/控制器之间的故障的位置的方法,所述方法包括:由第一系统控制器确定在服务器计算机中的错误,其中所述第一系统控制器耦合到第二系统控制器和所述服务器计算机的多个节点控制器,所述服务器计算机包括在分级架构中配置的多个服务处理器;响应于确定在所述服务器计算机中的所述错误,由所述第一系统控制器确定应当由所述第二系统控制器和所述多个节点控制器二者中的多个控制器执行同时转储;响应于确定应当执行所述同时转储,由所述第一系统控制器向所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器广播警告;并且由所述第一系统控制器接收由所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器执行的所述同时转储。2.根据权利要求1所述的方法,其中由所述第一系统控制器向所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器广播警告包括利用在所述服务器计算机中的可编程中断生成器以与所述多个系统控制器和所述多个节点控制器通信。3.根据权利要求1所述的方法,其中由所述第一系统控制器向所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器广播警告包括所述第一系统控制器在其上驻留所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器的以太网传送上广播所述错误。4.根据权利要求1所述的方法,其中由所述第一系统控制器向所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器广播警告包括利用在所述服务器计算机中的功能子系统接口以与所述多个系统控制器和所述多个节点控制器通信。5.根据权利要求1所述的方法,其中由所述第一系统控制器确定应当由所述第二系统控制器和所述多个节点控制器二者中的多个控制器执行同时转储包括利用预定映射,所述映射定义对于其需要同时转储的场景。6...
【专利技术属性】
技术研发人员:A·K·马哈詹,V·塞纳斯,V·苏班纳,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。