故障恢复方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37844464 阅读:10 留言:0更新日期:2023-06-14 22:27
本发明专利技术实施例提供了一种故障恢复方法、装置、电子设备及存储介质。方法包括:清除PCIE设备中目标状态寄存器的各项设置并获取PCIE设备的第一数据传输速率和下行端口抑制DPC的工作状态,在检测到第一数据传输速率与预设速率一致且工作状态为启动的情况下,通过目标注错工具在PCI E设备注入目标类型的错误并获取PCIE设备目标状态寄存器的置位信息和P CIE设备的第二数据传输速率,在检测到目标状态寄存器置位成功且PCIE设备的第二数据传输速率小于第一数据传输速率的情况下,控制操作系统清除注入的目标类型的错误,以使PCIE设备恢复正常,从而保证了系统的稳定性。从而保证了系统的稳定性。从而保证了系统的稳定性。

【技术实现步骤摘要】
故障恢复方法、装置、电子设备及存储介质


[0001]本专利技术涉及服务器
,特别是涉及一种故障恢复方法、装置、电子设备及存储介质。

技术介绍

[0002]随着云计算的普遍推广和应用,需要建立越来越多的数据中心,服务器作为数据中心中重要的基础设施,其稳定性直接影响着云服务的体验和价值。高速串行计算机扩展总线标准(Peripheral component interconnect expr ess,PCIE)设备是服务器的重要组件,几乎所有的外围硬件都采用了PCIE协议,当PCIE设备出现不可纠正故障时,会直接影响到服务器的操作系统OS,导致服务器出现宕机,因此,确保PCIE设备能正常工作是至关重要的。
[0003]当前,下行端口抑制(Downstream Port Containment,DPC)技术允许在端口或端口以下检测到无法纠正的错误后停止下游端口以下的PCIE通信,避免任何数据损坏的潜在传播,这保证了错误控制,因此PCIE设备中会通过DPC技术来对PCIE运行过程中的错误进行检测并控制,而后通过软件对错误进行恢复。
[0004]然而,因为错误的类型繁杂多样,只有在PCIE设备出现故障的时刻才能检测到DCP是否可以对这一类型的错误进行检错并进行错误控制,因此现在一般使用故障的PCIE设备去验证在基本输入输出系统(Basic Input Output System,BIOS)下DCP是否能检测到这种类型错误并能进行错误控制,而针对不同类型的错误需要寻找不同故障的PCIE设备且这样的设备很难找,从而系统检测不全面导致系统的稳定性无法得到保证。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种故障恢复方法、装置、电子设备及存储介质,以解决现有技术中难以找到不同故障类型的PCIE设备,导致无法准确判断该设备中DPC技术的作用,从而系统检测不全面导致系统的稳定性无法得到保证的问题。具体技术方案如下:
[0006]在本专利技术实施的第一方面,首先提供了一种故障恢复方法,所述方法包括:
[0007]清除高速串行计算机扩展总线标准PCIE设备中目标状态寄存器的各项设置并获取所述PCIE设备的第一设备信息,所述第一设备信息包括:PCIE设备的第一数据传输速率和下行端口抑制DPC的工作状态;
[0008]在检测到所述第一数据传输速率与预设速率一致且所述工作状态为启动的情况下,通过目标注错工具在所述PCIE设备注入目标类型的错误并获取所述PCIE设备的第二设备信息,所述第二设备信息包括:所述目标状态寄存器的置位信息和所述PCIE设备的第二数据传输速率;
[0009]在检测到所述目标状态寄存器置位成功且所述PCIE设备的第二数据传输速率小于所述第一数据传输速率的情况下,控制操作系统清除注入的所述目标类型的错误,以使所述PCIE设备恢复正常。
[0010]可选地,所述控制操作系统清除注入的所述目标类型的错误,以使所述PCIE设备恢复正常包括:
[0011]控制操作系统清除注入的所述目标类型的错误且控制所述PCIE设备的当前数据传输速率恢复为所述第一数据传输速率且控制清除所述目标状态寄存器的所述置位信息,以使所述PCIE设备恢复正常。
[0012]可选地,在所述在检测到所述目标状态寄存器置位成功且所述PCIE设备的第二数据传输速率小于所述第一数据传输速率的情况下,控制操作系统清除注入的所述目标类型的错误,以使所述PCIE设备恢复正常之后,所述方法还包括:
[0013]获取所述操作系统的日志信息和所述目标注错工具的脚本信息;
[0014]根据所述日志信息和所述脚本信息确定所述PCIE设备恢复正常。
[0015]可选地,在所述清除PCIE设备中目标状态寄存器的各项设置并获取所述PCIE设备的第一设备信息之前,所述方法还包括:
[0016]根据所述目标注错工具和所述DPC的特点配置测试环境,以使所述目标注错工具和所述DPC正常发挥作用。
[0017]可选地,在所述根据所述目标注错工具和所述DPC的特点配置测试环5境,以使所述目标注错工具和所述DPC正常发挥作用之后,所述方法还包括:
[0018]控制所述目标状态寄存器停止更新并获取所述PCIE设备的第三设备信息,所述第三设备信息包括:PCIE设备的拓扑结构;
[0019]根据所述PCIE设备的拓扑结构确定所述目标状态寄存器的位置信息。
[0020]可选地,所述获取所述PCIE设备的第一设备信息包括:0获取所述PCIE设备中第一寄存器的cls值和第二寄存器的标志位信息;
[0021]根据所述cls值确定所述PCIE设备的第一数据传输速率;
[0022]根据所述标志位信息确定所述DPC的状态信息。
[0023]可选地,所述通过目标注错工具在所述PCIE设备注入目标类型的错误包括:
[0024]5获取所述目标注错工具中不同类型的错误名称;
[0025]根据所述错误名称在所述PCIE设备注入目标类型的错误。
[0026]在本专利技术实施的第二方面,还提供了一种故障恢复装置,所述装置包括:
[0027]第一模块,用于清除高速串行计算机扩展总线标准PCIE设备中目标状态寄存器的各项设置并获取所述PCIE设备的第一设备信息,所述第一设备信息0包括:PCIE设备的第一数据传输速率和下行端口抑制DPC的工作状态;
[0028]第二模块,用于在检测到所述第一数据传输速率与预设速率一致且所述工作状态为启动的情况下,通过目标注错工具在所述PCIE设备注入目标类型的错误并获取所述PCIE设备的第二设备信息,所述第二设备信息包括:所述目标状态寄存器的置位信息和所述PCIE设备的第二数据传输速率;
[0029]第三模块,用于在检测到所述目标状态寄存器置位成功且所述PCIE设备的第二数据传输速率小于所述第一数据传输速率的情况下,控制操作系统清除注入的所述目标类型的错误,以使所述PCIE设备恢复正常。
[0030]在本专利技术实施的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,
用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任一由客户端执行的故障恢复方法。
[0031]在本专利技术实施的第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一由客户端执行的故障恢复方法。
[0032]在本专利技术实施的第五方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一由客户端执行的故障恢复方法。
[0033]本专利技术实施例提供的故障恢复方法,通过清除高速串行计算机扩展总线标准PCIE设备中目标状态寄存器的各项设置并获取PCIE设备的第一设备信息,第一设备信息包括:PCIE设备的第一数据传输速率和下行端口抑制DP 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障恢复方法,其特征在于,所述方法包括:清除高速串行计算机扩展总线标准PCIE设备中目标状态寄存器的各项设置并获取所述PCIE设备的第一设备信息,所述第一设备信息包括:PCIE设备的第一数据传输速率和下行端口抑制DPC的工作状态;在检测到所述第一数据传输速率与预设速率一致且所述工作状态为启动的情况下,通过目标注错工具在所述PCIE设备注入目标类型的错误并获取所述PCIE设备的第二设备信息,所述第二设备信息包括:所述目标状态寄存器的置位信息和所述PCIE设备的第二数据传输速率;在检测到所述目标状态寄存器置位成功且所述PCIE设备的第二数据传输速率小于所述第一数据传输速率的情况下,控制操作系统清除注入的所述目标类型的错误,以使所述PCIE设备恢复正常。2.根据权利要求1所述的方法,其特征在于,所述控制操作系统清除注入的所述目标类型的错误,以使所述PCIE设备恢复正常包括:控制操作系统清除注入的所述目标类型的错误且控制所述PCIE设备的当前数据传输速率恢复为所述第一数据传输速率且控制清除所述目标状态寄存器的所述置位信息,以使所述PCIE设备恢复正常。3.根据权利要求1所述的方法,其特征在于,在所述在检测到所述目标状态寄存器置位成功且所述PCIE设备的第二数据传输速率小于所述第一数据传输速率的情况下,控制操作系统清除注入的所述目标类型的错误,以使所述PCIE设备恢复正常之后,所述方法还包括:获取所述操作系统的日志信息和所述目标注错工具的脚本信息;根据所述日志信息和所述脚本信息确定所述PCIE设备恢复正常。4.根据权利要求1所述的方法,其特征在于,在所述清除PCIE设备中目标状态寄存器的各项设置并获取所述PCIE设备的第一设备信息之前,所述方法还包括:根据所述目标注错工具和所述DPC的特点配置测试环境,以使所述目标注错工具和所述DPC正常发挥作用。5.根据权利要求4所述的方法,其特征在于,在所述根据所述目标注错工具和所述DPC的特点配置测试环境,以使所述目标注错工具和所述DPC正常发挥作用之后,所述方法还包括:控制所述目标状态寄存...

【专利技术属性】
技术研发人员:韩燕燕
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1