System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种PCIe链路训练方法、电子设备、和计算机可读存储介质技术_技高网

一种PCIe链路训练方法、电子设备、和计算机可读存储介质技术

技术编号:42622918 阅读:11 留言:0更新日期:2024-09-06 01:26
本申请涉及一种PCIe链路训练方法、电子设备、和计算机可读存储介质,包括:获取所述第一服务器的第一PCIe接口的第一链接状态;基于所述第一链接状态,获取第一服务器的第一LTSSM状态机的第一工作状态;在所述第一工作状态为循环状态的情况下,将所述第一LTSSM状态机的状态转移至初始化状态,并且重启所述第一板卡和第二板卡,以使得所述第一PCIe接口与所述第二PCIe接口重新执行PCIe链路训练。本申请的服务器之间通过PCIe接口连接,且通过将处于循环状态的第一LTSSM状态机的状态转移至初始化状态,而使得跨服务器之间能够在进入循环状态时重新执行PCIe链路训练,从而以复杂度最低的方式在跨服务器之间建立PCIe链路。

【技术实现步骤摘要】

本申请涉及计算机,特别涉及一种pcie链路训练方法、电子设备、和计算机可读存储介质。


技术介绍

1、为了应对大模型ai(artificial intelligence,人工智能)计算应用,通常需要多台服务器组成ai计算集群,在不同服务器之间的gpu(graphics processing unit,图形处理器)卡的接口需要通过网卡连接在一起,则两台服务器之间的通信路径为自第一服务器的第一gpu经由第一接口、网卡、第二服务器的第二gpu的第二接口,最后到达第二服务器的第二gpu。

2、由此可见,两台服务器之间的通信路径过长,容易导致服务器之间的信号传输延迟,不同的服务器之间的信号传输的同步性差,特别是在多台服务器组成的ai计算集群的情况下,信号的延迟性会更大。


技术实现思路

1、本申请的实施例提供一种pcie链路训练方法、电子设备、和计算机可读存储介质,服务器之间通过pcie接口连接,且通过将处于循环状态的第一ltssm状态机的状态转移至初始化状态,而使得跨服务器之间能够在进入循环状态时重新执行pcie链路训练,从而以复杂度最低的方式在跨服务器之间建立pcie链路。

2、在本申请的一个实施例中,提供了一种pcie链路训练方法,第一服务器包括第一板卡,第二服务器包括第二板卡,所述第一板卡和第二板卡经由pcie接口连接;

3、所述链路训练方法包括:

4、获取所述第一服务器的第一pcie接口的第一链接状态;

5、基于所述第一链接状态,获取第一服务器的第一ltssm状态机的第一工作状态;

6、在所述第一工作状态为循环状态的情况下,将所述第一ltssm状态机的状态转移至初始化状态,并且重启所述第一板卡和第二板卡,以使得所述第一pcie接口与所述第二pcie接口重新执行pcie链路训练。

7、在一个具体示例中,所述基于所述第一链接状态,获取第一服务器的第一ltssm状态机的第一工作状态包括:

8、在所述第一链接状态为链接失败的情况下,获取第一服务器的第一ltssm状态机的第一工作状态。

9、在一个具体示例中,所述在所述第一工作状态为循环状态的情况下,将所述第一ltssm状态机的状态转移至初始化状态包括:

10、在所述第一工作状态为查询屈从模式的情况下,将所述第一ltssm的状态从查询屈从模式转移为检测模式。

11、在一个具体示例中,所述重启第一板卡和第二板卡包括:

12、所述第一服务器重启物理层端口并且使能第一ltssm状态机;

13、热重启第二板卡。

14、在一个具体示例中,在所述重启第一板卡和第二板卡以后,进一步包括:

15、获取所述第一服务器的第一pcie接口的第一链接状态。

16、在一个具体示例中,所述重启所述第一板卡和第二板卡,以使得所述第一pcie接口与所述第二pcie接口重新执行pcie链路训练包括:

17、所述第一服务器重启物理层端口并且使能第一ltssm状态机;

18、热重启第二板卡;

19、所述第一pcie接口与所述第二pcie接口在训练时间窗口内建立链接。

20、在一个具体示例中,所述基于所述第一链接状态,获取第一服务器的第一ltssm状态机的第一工作状态包括:

21、在所述第一链接状态为链接成功的情况下,pcie链路训练结束。

22、在一个具体示例中,包括:

23、在所述第一链接状态为链接失败的情况下,获取第一服务器的第一ltssm状态机的第一工作状态;

24、在所述第一工作状态为非循环状态的情况下,热重启所述第二服务器的第二板卡,以使得所述第一pcie接口与所述第二pcie接口重新执行pcie链路训练;

25、获取所述第一服务器的第一pcie接口的第一链接状态,在所述第一链接状态为链接成功的情况下,pcie链路训练结束。

26、本专利技术的另一实施例还提供了一种电子设备,包括:

27、存储器,用于保存计算机程序;

28、处理器,用于执行所述计算机程序,以实现如上所述的pcie链路训练方法。

29、本专利技术的另一实施例还提供了一种计算机可读存储介质,用于存储计算机程序;其中计算机程序被处理器执行时实现如上所述的pcie链路训练方法。

30、基于上述的实施例,在本示例中,并不采用对两台服务器同时使能 ltssm状态机的方式来保证pcie接口的链接,而是在链接失败(link fail)的情况下,对本地的ltssm状态机进行状态转移,以使得本地的ltssm状态机转移为初始化状态,并且对本地的第一板卡和对端的第二板卡重启,从而重新进入链路训练步骤,直至pcie链接建立成功。

31、其中,对于ltssm状态机的状态转换可仅限于本地的ltssm状态机,即第一服务器的第一ltssm状态机,而不必要地同时使能两台服务器的ltssm,对于降低系统的软件复杂度具有显著的作用。进一步地,基于polling.active的时间窗口的窗口长度,可不必要地严格要求第一板卡和第二板卡重启的同步性,从而不会发生pcie 链路训练时两端错过polling.active的时间窗口而导致链接失败的情况。

本文档来自技高网...

【技术保护点】

1.一种PCIe链路训练方法,其特征在于,第一服务器包括第一板卡,第二服务器包括第二板卡,所述第一板卡和第二板卡经由PCIe接口连接;

2.根据权利要求1所述的PCIe链路训练方法,其特征在于,所述基于所述第一链接状态,获取第一服务器的第一LTSSM状态机的第一工作状态包括:

3.根据权利要求1所述的PCIe链路训练方法,其特征在于,所述在所述第一工作状态为循环状态的情况下,将所述第一LTSSM状态机的状态转移至初始化状态包括:

4.根据权利要求1所述的PCIe链路训练方法,其特征在于,所述重启第一板卡和第二板卡包括:

5.根据权利要求4所述的PCIe链路训练方法,其特征在于,在所述重启第一板卡和第二板卡以后,进一步包括:

6.根据权利要求1所述的PCIe链路训练方法,其特征在于,所述重启所述第一板卡和第二板卡,以使得所述第一PCIe接口与所述第二PCIe接口重新执行PCIe链路训练包括:

7.根据权利要求1所述的PCIe链路训练方法,其特征在于,所述基于所述第一链接状态,获取第一服务器的第一LTSSM状态机的第一工作状态包括:

8.根据权利要求1所述的PCIe链路训练方法,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中计算机程序被处理器执行时实现如权利要求1至8中任一项所述的PCIe链路训练方法。

...

【技术特征摘要】

1.一种pcie链路训练方法,其特征在于,第一服务器包括第一板卡,第二服务器包括第二板卡,所述第一板卡和第二板卡经由pcie接口连接;

2.根据权利要求1所述的pcie链路训练方法,其特征在于,所述基于所述第一链接状态,获取第一服务器的第一ltssm状态机的第一工作状态包括:

3.根据权利要求1所述的pcie链路训练方法,其特征在于,所述在所述第一工作状态为循环状态的情况下,将所述第一ltssm状态机的状态转移至初始化状态包括:

4.根据权利要求1所述的pcie链路训练方法,其特征在于,所述重启第一板卡和第二板卡包括:

5.根据权利要求4所述的pcie链路训练方法,其特征在于,在所述重启第一板卡和...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:上海壁仞科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1