预防停机的方法、系统及BIOS芯片技术方案

技术编号:34762203 阅读:22 留言:0更新日期:2022-08-31 19:03
在计算机系统中,预防看门狗超时开始之后停机的一种系统及方法。启动例程(start

【技术实现步骤摘要】
预防停机的方法、系统及BIOS芯片


[0001]本公开广泛地涉及运算装置的操作可靠性(operating reliability),更特别涉及预防于开机自我检测(power

on self

test;POST)例程(routine)期间,因错误的基本输入输出系统(basic input output system;BIOS)设定而停机(hang

up)的一种系统。

技术介绍

[0002]服务器被大量地运用在高需求应用中,像是基于网络的系统或数据中心。云端运算运用的出现,增加了对于数据中心的需求。数据中心拥有许多服务器,储存数据并执行远端连线的计算机装置使用者所存取的应用。典型的数据中心具有物理的机架(rack)结构,伴随着电力与通信的连接。每一机架可承受多个运算服务器及储存服务器。每一服务器通常包含硬件元件,像是处理器、存储器装置、网络接口卡、电源供应,及其他专用硬件。每一服务器通常包含基板管理控制器(baseboard management controller;BMC),管理服务器的运作,以及将运算数据传达至管理机架的服务器的中央管理站。
[0003]典型的服务器具有处理单元,处理单元可具有多个供运算操作的内核(cores)。这些内核是由操作系统所执行,以与其他服务器内的硬件元件进行沟通。操作系统的其中一项功能,是判别出于启动期间指示硬件元件故障的错误。操作系统是通过基本输入输出系统(basic input output system;BIOS)所启动。BIOS通常是以安装在服务器的主机板上的硬件芯片所提供。BIOS执行开机自我检测(power

on self

test;POST)例程(routine),当系统启动时,POST检查服务器的硬件元件的状态。为了预防系统当机卡死,看门狗计时器(watch dog timer)可被包含为部分的BIOS。看门狗计时器倒数计时,若它没有周期性地重置,则会重新启动BIOS。当看门狗计时器重置,则表示系统已成功启动并且运作中。
[0004]在开机自我检测(POST)例程期间,BIOS会参考储存在固件中的设定,以初始化运算系统之硬件元件。若是使用了不恰当的BIOS设定以初始化运算系统之任何硬件元件,则运算系统可能会在BIOS POST例程期间停机(hang

up),而无法成功启动。举例来说,对于快捷外围元件互连接口(peripheral component interconnect express;PCIe)卡的BIOS设定,可以是接口卡与基址寄存器(base address register)之间的存储器映射关系。现有的BIOS芯片并无提供任何方法以预防系统在BIOS使用不恰当的设定时停机。举例来说,若没有适当安排BIOS PCIe存储器资源,则BIOS将会停机。当BIOS POST超过了看门狗计时器的时间,看门狗计时器会重新启动系统。于是,当系统继续运作,提供看门狗超时(watch

dog timeout),并将错误设定相关数据保存在BMC所储存的系统错误日志(system error log)中。BIOS不会尝试启动系统,且在系统成功启动之前,必须鉴别出错误的设定并套用正确的设定。
[0005]举例来说,运算系统可具有PCIe扩充卡,伴随图形处理单元(graphicprocessing unit;GPU)。于是,在启动期间,BIOS需要为PCIe扩充卡设定适当的存储器映射输入输出(memory mapped input/output;MMIO)大小,及适当的基址寄存器设定。在GPU的案例中,GPU需要适当的MMIO,以储存其固件并初始化GPU扩充卡。若BIOS无法提供适当的MMIO大小
及基址寄存器设定,则系统会在BIOS POST例程期间停机。另一示例可能是当扩充卡的某个功能需要大于MMIO大小的存储器时,而因此导致停机。
[0006]在此案例中,一旦发生停机,使用者可拔出GPU扩充卡,并通过为GPU扩充卡输入正确的设定,以尝试找出系统停机的根本原因。当运算系统仅具有单独一张扩充卡,对于使用者而言,要为这张单独的扩充卡找出正确的BIOS设定,并不复杂。然而,目前的服务器设计是具有多张扩充卡及其他的装置,像是专用处理器、非易失性存储器规范(Non

Volatile Memory Express;NVMe)装置,及独立硬盘冗余阵列(redundant array of inexpensive disks;RAID)装置。因此,对于使用者而言,要为特定的出错装置找出适当的BIOS设定通常是非常困难的,因为可能会有多个装置的设定,而其中任何装置都可能有不恰当的设定。
[0007]因此,需要有一种机制,能在初次启动引发看门口超时的时候,使启动例程(start

up routine)得以为附加的装置使用适当的BIOS设定,以预防系统停机。也需要有一种系统例程(system routine)的指定,得以检查系统配置,并将配置不正确的装置停用,以预防系统停机。又需要有一种系统,包含数据库以储存先前的配置设定,而得以在系统于POST期间停机之后,判别出适当的配置。

技术实现思路

[0008]“实施例”一词及类似的词汇旨在广泛地指代本专利技术及以下权利要求的所有申请标的。包含这些词汇的陈述不应被理解为限制在此所述的申请标的或限制以下的权利要求的含义或范围。在此所涵盖的本公开的实施例,是由以下的权利要求而非本
技术实现思路
所限定。本
技术实现思路
是本公开的各方面的高阶综述,并且介绍了一些概念,这些概念在以下实施方式的段落中会进一步描述。本
技术实现思路
并不旨在标识出所请求的申请标的的必要特征,也不旨在单独用于决定所请求的申请标的的范围。通过参考本专利技术的整个说明书的适当部分、任何或所有的附图,以及每个权利要求,应当理解本申请标的。
[0009]所公开的示例是一种容许停机后再启动的系统,停机是不恰当的硬件设定所造成,该系统包含:BIOS,执行启动例程(start

up routine),启动例程套用硬件元件的设定;多个硬件元件,每个硬件元件需要BIOS所套用适当的设定以运作;数据库,储存每一该硬件元件的设定;看门狗计时器(watch dogtimer),在启动例程期间触发重新启动;在重新启动期间,当看门狗计时器触发重新启动,启动例程存取数据库,以取得至少一个硬件元件的适当的设定。
[0010]在本示例系统的一实施例中,数据库是被储存在BIOS所能存取的存储器装置上。在另一实施例中,运算装置为服务器。在另一实施例中,若在数据库中找不到适当的设定,BIOS停用至少一个硬件元件。在另一实施例中,BIOS触发警报信号(alert),表示多个硬件元件的设定已改变。在另一实施例中,多个硬件元件为快捷外围元件互连接口(peripheral component interconnect ex本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种容许停机后再启动的系统,该停机是不恰当的硬件设定所造成,该系统包括:BIOS,执行启动例程,该启动例程套用硬件元件的设定;多个硬件元件,每个硬件元件需要该BIOS所套用的适当的设定以运作;数据库,储存该多个硬件元件中每个硬件元件的设定;看门狗计时器,在该启动例程期间触发重新启动;其中在该重新启动期间,当该看门狗计时器触发该重新启动,该启动例程存取该数据库,以取得该多个硬件元件的至少一者的适当的设定。2.根据权利要求1所述的系统,其中若在该数据库中找不到适当的设定,该BIOS停用该至少一个硬件元件。3.根据权利要求1所述的系统,其中该BIOS触发警报信号,该警报信号表示该多个硬件元件的设定已改变。4.根据权利要求1所述的系统,其中该多个硬件元件为快捷外围元件互连接口装置;其中该设定包含存储器映射输入输出大小,及基址寄存器设定。5.根据权利要求1所述的系统,其中该数据库包含配置文件,配置文件包含所述多个硬件元件中每个硬件元件的设定,及BIOS设定;其中当该设定改变时,新配置文件被创建出来,及其中当存取该数据库时,该启动例程首先检查最近的该配置文件。6.一种容许系统停机后再启动的方法,该停机是不恰当的硬件设定所造成,该方法包括:经由BIOS执行启动例程,该启动例程套用多个硬件元件的设定;判断看门狗...

【专利技术属性】
技术研发人员:周永丰廖国钧洪震安王美珍
申请(专利权)人:广达电脑股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1