System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,特别涉及一种pcie链路训练方法、电子设备、和计算机可读存储介质。
技术介绍
1、为了应对大模型ai(artificial intelligence,人工智能)计算应用,通常需要多台服务器组成ai计算集群,在不同服务器之间的gpu(graphics processing unit,图形处理器)卡的接口需要通过网卡连接在一起,则两台服务器之间的通信路径为自第一服务器的第一gpu经由第一接口、网卡、第二服务器的第二gpu的第二接口,最后到达第二服务器的第二gpu。
2、由此可见,两台服务器之间的通信路径过长,容易导致服务器之间的信号传输延迟,不同的服务器之间的信号传输的同步性差,特别是在多台服务器组成的ai计算集群的情况下,信号的延迟性会更大。
技术实现思路
1、本申请的实施例提供一种pcie链路训练方法、电子设备、和计算机可读存储介质,服务器之间通过pcie接口连接,且通过将处于循环状态的第一ltssm状态机的状态转移至初始化状态,而使得跨服务器之间能够在进入循环状态时重新执行pcie链路训练,从而以复杂度最低的方式在跨服务器之间建立pcie链路。
2、在本申请的一个实施例中,提供了一种pcie链路训练方法,第一服务器包括第一板卡,第二服务器包括第二板卡,所述第一板卡和第二板卡经由pcie接口连接;
3、所述链路训练方法包括:
4、获取所述第一服务器的第一pcie接口的第一链接状态;
5、基于所述第一链接状
6、在所述第一工作状态为循环状态的情况下,将所述第一ltssm状态机的状态转移至初始化状态,并且重启所述第一板卡和第二板卡,以使得所述第一pcie接口与所述第二pcie接口重新执行pcie链路训练。
7、在一个具体示例中,所述基于所述第一链接状态,获取第一服务器的第一ltssm状态机的第一工作状态包括:
8、在所述第一链接状态为链接失败的情况下,获取第一服务器的第一ltssm状态机的第一工作状态。
9、在一个具体示例中,所述在所述第一工作状态为循环状态的情况下,将所述第一ltssm状态机的状态转移至初始化状态包括:
10、在所述第一工作状态为查询屈从模式的情况下,将所述第一ltssm的状态从查询屈从模式转移为检测模式。
11、在一个具体示例中,所述重启第一板卡和第二板卡包括:
12、所述第一服务器重启物理层端口并且使能第一ltssm状态机;
13、热重启第二板卡。
14、在一个具体示例中,在所述重启第一板卡和第二板卡以后,进一步包括:
15、获取所述第一服务器的第一pcie接口的第一链接状态。
16、在一个具体示例中,所述重启所述第一板卡和第二板卡,以使得所述第一pcie接口与所述第二pcie接口重新执行pcie链路训练包括:
17、所述第一服务器重启物理层端口并且使能第一ltssm状态机;
18、热重启第二板卡;
19、所述第一pcie接口与所述第二pcie接口在训练时间窗口内建立链接。
20、在一个具体示例中,所述基于所述第一链接状态,获取第一服务器的第一ltssm状态机的第一工作状态包括:
21、在所述第一链接状态为链接成功的情况下,pcie链路训练结束。
22、在一个具体示例中,包括:
23、在所述第一链接状态为链接失败的情况下,获取第一服务器的第一ltssm状态机的第一工作状态;
24、在所述第一工作状态为非循环状态的情况下,热重启所述第二服务器的第二板卡,以使得所述第一pcie接口与所述第二pcie接口重新执行pcie链路训练;
25、获取所述第一服务器的第一pcie接口的第一链接状态,在所述第一链接状态为链接成功的情况下,pcie链路训练结束。
26、本专利技术的另一实施例还提供了一种电子设备,包括:
27、存储器,用于保存计算机程序;
28、处理器,用于执行所述计算机程序,以实现如上所述的pcie链路训练方法。
29、本专利技术的另一实施例还提供了一种计算机可读存储介质,用于存储计算机程序;其中计算机程序被处理器执行时实现如上所述的pcie链路训练方法。
30、基于上述的实施例,在本示例中,并不采用对两台服务器同时使能 ltssm状态机的方式来保证pcie接口的链接,而是在链接失败(link fail)的情况下,对本地的ltssm状态机进行状态转移,以使得本地的ltssm状态机转移为初始化状态,并且对本地的第一板卡和对端的第二板卡重启,从而重新进入链路训练步骤,直至pcie链接建立成功。
31、其中,对于ltssm状态机的状态转换可仅限于本地的ltssm状态机,即第一服务器的第一ltssm状态机,而不必要地同时使能两台服务器的ltssm,对于降低系统的软件复杂度具有显著的作用。进一步地,基于polling.active的时间窗口的窗口长度,可不必要地严格要求第一板卡和第二板卡重启的同步性,从而不会发生pcie 链路训练时两端错过polling.active的时间窗口而导致链接失败的情况。
本文档来自技高网...【技术保护点】
1.一种PCIe链路训练方法,其特征在于,第一服务器包括第一板卡,第二服务器包括第二板卡,所述第一板卡和第二板卡经由PCIe接口连接;
2.根据权利要求1所述的PCIe链路训练方法,其特征在于,所述基于所述第一链接状态,获取第一服务器的第一LTSSM状态机的第一工作状态包括:
3.根据权利要求1所述的PCIe链路训练方法,其特征在于,所述在所述第一工作状态为循环状态的情况下,将所述第一LTSSM状态机的状态转移至初始化状态包括:
4.根据权利要求1所述的PCIe链路训练方法,其特征在于,所述重启第一板卡和第二板卡包括:
5.根据权利要求4所述的PCIe链路训练方法,其特征在于,在所述重启第一板卡和第二板卡以后,进一步包括:
6.根据权利要求1所述的PCIe链路训练方法,其特征在于,所述重启所述第一板卡和第二板卡,以使得所述第一PCIe接口与所述第二PCIe接口重新执行PCIe链路训练包括:
7.根据权利要求1所述的PCIe链路训练方法,其特征在于,所述基于所述第一链接状态,获取第一服务器的第一LTSSM状态机
8.根据权利要求1所述的PCIe链路训练方法,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中计算机程序被处理器执行时实现如权利要求1至8中任一项所述的PCIe链路训练方法。
...【技术特征摘要】
1.一种pcie链路训练方法,其特征在于,第一服务器包括第一板卡,第二服务器包括第二板卡,所述第一板卡和第二板卡经由pcie接口连接;
2.根据权利要求1所述的pcie链路训练方法,其特征在于,所述基于所述第一链接状态,获取第一服务器的第一ltssm状态机的第一工作状态包括:
3.根据权利要求1所述的pcie链路训练方法,其特征在于,所述在所述第一工作状态为循环状态的情况下,将所述第一ltssm状态机的状态转移至初始化状态包括:
4.根据权利要求1所述的pcie链路训练方法,其特征在于,所述重启第一板卡和第二板卡包括:
5.根据权利要求4所述的pcie链路训练方法,其特征在于,在所述重启第一板卡和...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。