System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机领域,尤其涉及一种故障收集方法及主机管理平台。
技术介绍
1、在主机的运行过程中,主机的硬件故障会触发主机对已发生故障的硬件的分析过程。以主机中部署有基本输入输出管理系统(basic input output system,bios)和基板管理控制器(baseboard management controller,bmc)为例,bmc和bios中维护有相同的映射表,该映射表用于指示主机中硬件和寄存器之间的对应关系。在故障收集过程中,bmc和bios分别根据本地的映射表来得到故障硬件对应的寄存器,并基于该寄存器的故障信息获取硬件的故障信息。然而,在映射表中的对应关系更新后,bios需重启才能使用更新后的映射表,使得故障收集过程会影响主机的正常运行。
技术实现思路
1、本申请提供了一种故障收集方法及主机管理平台,以解决bios需重启才能使用更新后的映射表,该重启步骤将影响主机的正常运行的问题。
2、第一方面,本申请提供了一种故障收集方法。该故障收集方法可应用于故障收集系统或应用于支持该故障收集系统实现故障收集方法的主机管理平台,该主机管理平台用于管理至少一个主机,其中,该至少一个主机中的第一主机设置有第一硬件管理平台,该第一硬件管理平台用于管理第一主机中的多个硬件。该故障收集方法包括:主机管理平台获取由管理员配置的第一故障映射规则,且向第一硬件管理平台共享第一故障映射规则,该第一故障映射规则可供第一硬件管理平台读取。该第一硬件管理平台根据该第一故障映射规则,
3、在一种可能的示例中,上述第一硬件管理平台可以是运行bios的处理器,同样的主机管理平台可以是bmc芯片。
4、在另一种可能的示例中,上述第一硬件管理平台可以是bios,同样的主机管理平台可以是bmc芯片运行的bmc固件。
5、在本申请中,相较于在主机管理平台和第一硬件管理平台上都维护有第一故障映射规则,本申请的第一故障映射规则仅由主机管理平台管理,第一硬件管理平台从主机管理平台处获取该第一故障映射规则。第一硬件管理平台根据该第一故障映射规则,得到至少一个故障硬件的故障信息并上报给主机管理平台,实现主机管理平台与第一硬件管理平台解耦。并且,由于第一故障映射规则仅由主机管理平台管理,因此,若第一故障映射规则进行更新,则第一主机仅需对主机管理平台管理的第一故障映射规则进行更新,避免了对第一硬件管理平台维护的第一故障映射规则进行更新,导致第一主机需要重启,才能利用该第一硬件管理平台中更新后的第一故障映射规则,进而故障收集过程会影响第一硬件管理平台上业务的正常执行,从而提高了第一硬件管理平台执行业务的稳定性。
6、在一种可能的实现方式中,该故障收集方法还包括:主机管理平台获取由管理员配置的第二故障映射规则,进而从多个故障映射规则中确定与第一硬件管理平台的平台信息相匹配的第一故障映射规则,从而向第一硬件管理平台共享第一故障映射规则。其中,该第二故障映射规则与第二硬件管理平台匹配,该第二硬件管理平台用于管理至少一个主机中的第二主机中的多个硬件。前述多个故障映射规则包括第一故障映射规则和第二故障映射规则。
7、示例性的,该平台信息用于指示处理器的类型信息和架构信息。
8、在本申请中,主机管理平台向第一硬件管理平台共享与硬件管理平台的平台信息匹配的第一故障映射规则,因此,第一硬件管理平台根据获取到的第一故障映射规则中寄存器信息,能在固定的物理地址空间读取到寄存器中的运行数据,避免由于故障映射规则的类型不匹配,导致在前述的物理地址空间与实际寄存器的物理地址空间不匹配,从而该物理地址空间不可读或读出的数据与实际数据不匹配的问题,提高了读取数据的准确度,进而提升故障收集的准确率。
9、在一种可能的实现方式中,主机管理平台向第一硬件管理平台共享第一故障映射规则,包括:该主机管理平台根据第一硬件管理平台发送的请求,向第一硬件管理平台发送第一故障映射规则。
10、在本申请中,第一硬件管理平台通过发送请求的方式,向主机管理平台获取第一故障映射规则,避免第一硬件管理平台维护第一故障映射规则,导致在需要对该第一故障映射规则进行更新时,需要对该第一硬件管理平台进行重启,进而影响第一硬件管理平台上业务的正常运行,提高了第一硬件管理平台上运行业务的稳定性。
11、在一种可能的实现方式中,主机管理平台向第一硬件管理平台共享第一故障映射规则,包括:该主机管理平台将第一故障映射规则写入第一主机提供的第一存储空间,该第一存储空间支持主机管理平台和第一硬件管理平台访问。
12、在本申请中,将第一主机提供的第一存储空间作为第一硬件管理平台与主机管理平台之间数据传输通道,避免第一硬件管理平台与主机管理平台之间通过请求形式进行交互,速度较慢,第一主机将该第一存储空间作为共享内存,硬件管理平台与主机管理平台都可直接对该第一存储空间,提高了硬件管理平台与主机管理平台之间数据传输的效率,进而提升了故障收集效率。
13、在一种可能的实现方式中,第一故障映射规则包括第一主机中多个硬件对应的多个寄存器信息,该寄存器信息用于指示寄存器的偏移信息、采集数据量、寄存器类型、标识符中的至少一种。
14、在一种可能的实现方式中,故障信息为第一主机中的寄存器存储的运行数据,该寄存器为由第一故障映射规则中故障硬件对应的寄存器信息确定的。
15、在本申请中,由于寄存器根据故障硬件对应的寄存器信息得到,因此,硬件管理平台可针对不同的硬件获取到不同的寄存器,进而从不同的物理地址空间中获取故障信息,实现对第一主机中的硬件进行针对性分析,提高对硬件的故障收集准确度。
16、在一种可能的实现方式中,在主机管理平台接收第一主机中的至少一个故障硬件的故障信息之后,该故障收集方法还包括:该主机管理平台根据故障信息,确定故障分析结果。
17、在本申请中,主机管理平台对故障信息进行分析,得到故障分析结果,该故障分析结果示出了故障硬件更深层次的故障原因,便于管理员准确定位故障硬件以及根据该更深层次的故障原因进行维修,可提高管理员的维修效率。
18、在一种可能的实现方式中,在主机管理平台接收第一主机中的至少一个故障硬件的故障信息之后,该故障收集方法还包括:主机管理平台将故障信息写入第二存储空间。
19、第二方面,本申请提供了一种故障收集方法。该故障收集方法可应用于故障收集系统或应用于支持该故障收集系统实现故障收集方法的计算设备,该故障收集系统包括主机管理平台,主机管理平台用于管理该故障收集系统中的至少一个主机,该至少一个主机中的第一主机设置有第一硬件管理平台,该第一硬件管理平台用于管理第一主机中的多个硬件。该故障收集方法包括:主机管理平台获取由管理员配置的第一故障映射规则,并向第一硬件管理平台共享第一故障映射规则。第一硬件管理平台获取主机管理平本文档来自技高网...
【技术保护点】
1.一种故障收集方法,其特征在于,所述方法应用于主机管理平台,所述主机管理平台用于管理至少一个主机,其中,所述至少一个主机中的第一主机设置有第一硬件管理平台,所述第一硬件管理平台用于管理所述第一主机中的多个硬件,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1或2所述的方法,其特征在于,所述主机管理平台向第一硬件管理平台共享所述第一故障映射规则,包括:
4.根据权利要求1或2所述的方法,其特征在于,所述主机管理平台向第一硬件管理平台共享所述第一故障映射规则,包括:
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一故障映射规则包括所述第一主机中多个硬件对应的多个寄存器信息,所述寄存器信息用于指示寄存器的偏移信息、采集数据量、寄存器类型、标识符中的至少一种。
6.根据权利要求5所述的方法,其特征在于,所述故障信息为所述第一主机中的寄存器存储的运行数据,所述寄存器为由所述第一故障映射规则中所述故障硬件对应的寄存器信息确定的。
7.根据权利要求1至6中任一项
8.一种故障收集方法,其特征在于,所述方法应用于故障收集系统,所述故障收集系统包括主机管理平台,所述主机管理平台用于管理所述故障收集系统中的至少一个主机,所述至少一个主机中的第一主机设置有第一硬件管理平台,所述第一硬件管理平台用于管理所述第一主机中的多个硬件;所述方法包括:
9.一种主机管理平台,其特征在于,所述主机管理平台用于管理至少一个主机,其中,所述至少一个主机中的第一主机设置有第一硬件管理平台,所述第一硬件管理平台用于管理所述第一主机中的多个硬件,所述主机管理平台包括:第一获取模块、第一共享模块和接收模块;
10.根据权利要求9所述的主机管理平台,其特征在于,所述主机管理平台还包括:第二共享模块;
11.根据权利要求9或10所述的主机管理平台,其特征在于,所述第一共享模块,具体用于根据所述第一硬件管理平台发送的请求,向所述第一硬件管理平台发送所述第一故障映射规则。
12.根据权利要求9或10所述的主机管理平台,其特征在于,所述第一共享模块,具体用于将所述第一故障映射规则写入所述第一主机提供的存储空间,所述存储空间支持所述主机管理平台和所述第一硬件管理平台访问。
13.根据权利要求9至12中任一项所述的主机管理平台,其特征在于,所述第一故障映射规则包括所述第一主机中多个硬件对应的多个寄存器信息,所述寄存器信息用于指示寄存器的偏移信息、采集数据量、寄存器类型、标识符中的至少一种。
14.根据权利要求13所述的主机管理平台,其特征在于,所述故障信息为所述第一主机中的寄存器存储的运行数据,所述寄存器为由所述第一故障映射规则中所述故障硬件对应的寄存器信息确定的。
15.根据权利要求9或14所述的主机管理平台,其特征在于,所述主机管理平台还包括:确定模块;
16.一种故障收集系统,其特征在于,所述系统包括主机管理平台,所述主机管理平台用于管理所述故障收集系统中的至少一个主机,所述至少一个主机中的第一主机设置有第一硬件管理平台,所述第一硬件管理平台用于管理所述第一主机中的多个硬件;
17.一种芯片,其特征在于,包括控制电路和接口电路,所述接口电路用于接收第一故障映射规则,所述控制电路用于根据所述第一故障映射规则执行权利要求1至7中任一项所述的方法。
18.一种计算设备集群,其特征在于,包括:至少一个计算设备,每个计算设备设置有处理器和存储器;所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群执行如权利要求1至7中任一项所述的方法。
19.一种计算机可读存储介质,其特征在于,包括计算机程序指令,当所述计算机程序指令由电子设备执行时,所述电子设备执行如权利要求1至7中任一项所述的方法。
...【技术特征摘要】
1.一种故障收集方法,其特征在于,所述方法应用于主机管理平台,所述主机管理平台用于管理至少一个主机,其中,所述至少一个主机中的第一主机设置有第一硬件管理平台,所述第一硬件管理平台用于管理所述第一主机中的多个硬件,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1或2所述的方法,其特征在于,所述主机管理平台向第一硬件管理平台共享所述第一故障映射规则,包括:
4.根据权利要求1或2所述的方法,其特征在于,所述主机管理平台向第一硬件管理平台共享所述第一故障映射规则,包括:
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一故障映射规则包括所述第一主机中多个硬件对应的多个寄存器信息,所述寄存器信息用于指示寄存器的偏移信息、采集数据量、寄存器类型、标识符中的至少一种。
6.根据权利要求5所述的方法,其特征在于,所述故障信息为所述第一主机中的寄存器存储的运行数据,所述寄存器为由所述第一故障映射规则中所述故障硬件对应的寄存器信息确定的。
7.根据权利要求1至6中任一项所述的方法,其特征在于,在所述主机管理平台接收所述第一主机中的至少一个故障硬件的故障信息之后,所述方法还包括:
8.一种故障收集方法,其特征在于,所述方法应用于故障收集系统,所述故障收集系统包括主机管理平台,所述主机管理平台用于管理所述故障收集系统中的至少一个主机,所述至少一个主机中的第一主机设置有第一硬件管理平台,所述第一硬件管理平台用于管理所述第一主机中的多个硬件;所述方法包括:
9.一种主机管理平台,其特征在于,所述主机管理平台用于管理至少一个主机,其中,所述至少一个主机中的第一主机设置有第一硬件管理平台,所述第一硬件管理平台用于管理所述第一主机中的多个硬件,所述主机管理平台包括:第一获取模块、第一共享模块和接收模块;
10.根据权利要求9所述的主机管理平台,其特征在于,所述主机管理平台还包括:第二共享模块;
【专利技术属性】
技术研发人员:丁成果,彭林,陈战,
申请(专利权)人:华为云计算技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。