System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及智算中心,特别涉及一种链路异常处理方法、装置及相关设备。
技术介绍
1、随着各种ai(artificial intelligence,人工智能)大模型的发布,智算中心的需求也快速爆发,并迅速掀起了新一轮人工智能技术的发展浪潮。业界对更大规模的ai模型训练需求日益殷切。这对支撑基础训练的数据中心网络的性能提出了新的要求。
2、相比通用计算,ai训练的流量模型特征是单流带宽大、流数量少。传统的ecmp(equal-cost multi-path,等价路由)流量均衡机制,会因为ecmp哈希机制,造成链路上流量不均,即有的链路上满吞吐,甚至拥塞丢包,有的链路上却存在空闲。从而出现网络吞吐下降、导致ai集群业务性能不高。
技术实现思路
1、本申请提供了一种链路异常处理方法、装置及相关设备。
2、第一方面,本申请提供了一种链路异常处理方法,应用于组网中用于流表转发目标流的转发路径包括的目标网络设备,所述组网包括的各网络设备基于动态路由协议将接入所述组网的算力资源的主机路由发布或传递至所述组网的其他网络设备;所述方法包括:
3、接收控制器下发的第一流表,其中,所述第一流表用于转发目标流,所述第一流表包括所述目标流的源网络地址,目的网络地址,出接口和下一跳信息;
4、监测与所述第一流表关联的链路的状态;
5、若监测到与所述第一流表关联的链路故障,则撤销所述第一流表;
6、基于所述目标流的目的网络地址和动态路由表转发所
7、可选地,所述方法还包括:
8、若确定与所述下一跳设备之间路由不可达,则向所述转发路径中的上一跳设备发送撤销用于转发所述目标流的第二流表的指示,以使得所述上一跳设备在删除所述第二流表后,基于所述目标流的目的网络地址和动态路由表转发所述目标流。
9、第二方面,本申请提供了一种链路异常处理方法,应用于控制器,所述控制器使能组网包括的各网络设备基于动态路由协议将接入所述组网的算力资源的主机路由发布或传递至所述组网的其他网络设备;所述方法包括:
10、确定待处理的目标流信息,所述目标流信息包括目标流的源网络地址和目的网络地址;
11、基于全网拓扑和各链路的质量信息,确定用于传输所述目标流的转发路径,其中,所述转发路径包括m个目标网络设备和目标网络设备组成的m-1个目标链路;
12、向各目标网络设备分别下发转发流表,以使得各目标网络设备基于所述转发流表转发所述目标流,并在确定与本地的转发流表关联的目标链路故障时,通过所述目标流的目的网络地址和动态路由表转发所述目标流,所述转发流表包括所述目标流的源网络地址,目的网络地址,出接口和下一跳设备信息。
13、可选地,确定待处理的目标流信息的步骤包括:
14、获取第一ai训练任务的互访信息,将所述第一ai训练任务的互访流量确定为待处理的目标流,其中,一个ai训练任务的互访信息包括该ai训练任务包括的源算力资源网络地址和目的算力资源网络地址信息;或者;
15、接收算力资源上报的长尾时延任务信息,并将所述长尾时延任务的互访流量确定为待处理的目标流,其中,算力资源的网卡在检测到第二ai训练任务存在长尾时延时,向所述控制器上报携带所述第二ai训练任务包括的源算力资源网络地址和目的算力资源网络地址的长尾时延任务信息。
16、第三方面,本申请提供了一种链路异常处理装置,应用于组网中采用流表转发目标流的转发路径包括的目标网络设备,所述组网包括的各网络设备基于动态路由协议将接入所述组网的算力资源的主机路由发布或传递至所述组网的其他网络设备;所述装置包括:
17、接收单元,用于接收控制器下发的第一流表,其中,所述第一流表用于转发目标流,所述第一流表包括所述目标流的源网络地址,目的网络地址,出接口和下一跳信息;
18、监测单元,用于监测与所述第一流表关联的链路的状态;
19、撤销单元,若所述监测单元监测到与所述第一流表关联的链路故障,则所述撤销单元用于,撤销所述第一流表;
20、转发单元,用于基于所述目标流的目的网络地址和动态路由表转发所述目标流。
21、可选地,所述装置还包括确定单元和发送单元:
22、若所述确定单元确定与所述下一跳设备之间路由不可达,则所述发送单元用于,向所述转发路径中的上一跳设备发送撤销用于转发所述目标流的第二流表的指示,以使得所述上一跳设备在删除所述第二流表后,基于所述目标流的目的网络地址和动态路由表转发所述目标流。
23、第四方面,本申请提供了一种链路异常处理装置,应用于控制器,所述控制器使能组网包括的各网络设备基于动态路由协议将接入所述组网的算力资源的主机路由发布或传递至所述组网的其他网络设备;所述装置包括:
24、第一确定单元,用于确定待处理的目标流信息,所述目标流信息包括目标流的源网络地址和目的网络地址;
25、第二确定单元,用于基于全网拓扑和各链路的质量信息,确定用于传输所述目标流的转发路径,其中,所述转发路径包括m个目标网络设备和目标网络设备组成的m-1个目标链路;
26、发送单元,用于向各目标网络设备分别下发转发流表,以使得各目标网络设备基于所述转发流表转发所述目标流,并在确定与本地的转发流表关联的目标链路故障时,通过所述目标流的目的网络地址和动态路由表转发所述目标流,所述转发流表包括所述目标流的源网络地址,目的网络地址,出接口和下一跳设备信息。
27、可选地,确定待处理的目标流信息时,所述第一确定单元用于:
28、获取第一ai训练任务的互访信息,将所述第一ai训练任务的互访流量确定为待处理的目标流,其中,一个ai训练任务的互访信息包括该ai训练任务包括的源算力资源网络地址和目的算力资源网络地址信息;或者;
29、接收算力资源上报的长尾时延任务信息,并将所述长尾时延任务的互访流量确定为待处理的目标流,其中,算力资源的网卡在检测到第二ai训练任务存在长尾时延时,向所述控制器上报携带所述第二ai训练任务包括的源算力资源网络地址和目的算力资源网络地址的长尾时延任务信息。
30、第五方面,本申请实施例提供一种链路异常处理装置,该链路异常处理装置包括:
31、存储器,用于存储程序指令;
32、处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如上述第一方面中任一项所述的方法的步骤。
33、第六方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如上述第一方面中任一项所述方法的步骤。
34、第七方面,本申请实施例提供一种链路异常处理装置,该链路异常处理装置包括:
35、存储器,用于存储程序指令;
36、处理器,用于调用所述存储器中本文档来自技高网...
【技术保护点】
1.一种链路异常处理方法,其特征在于,应用于组网中采用流表转发目标流的转发路径包括的目标网络设备,所述组网包括的各网络设备基于动态路由协议将接入所述组网的算力资源的主机路由发布或传递至所述组网的其他网络设备;所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
3.一种链路异常处理方法,其特征在于,应用于控制器,所述控制器使能组网包括的各网络设备基于动态路由协议将接入所述组网的算力资源的主机路由发布或传递至所述组网的其他网络设备;所述方法包括:
4.如权利要求3所述的方法,其特征在于,确定待处理的目标流信息的步骤包括:
5.一种链路异常处理装置,其特征在于,应用于组网中采用流表转发目标流的转发路径包括的目标网络设备,所述组网包括的各网络设备基于动态路由协议将接入所述组网的算力资源的主机路由发布或传递至所述组网的其他网络设备;所述装置包括:
6.如权利要求5所述的装置,其特征在于,所述装置还包括确定单元和发送单元:
7.一种链路异常处理装置,其特征在于,应用于控制器,所述控制器使能组网包括的
8.如权利要求7所述的装置,其特征在于,确定待处理的目标流信息时,所述第一确定单元用于:
9.一种链路异常处理设备,其特征在于,所述链路异常处理设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如权利要求1-2或3-4中任一项所述方法的步骤。
...【技术特征摘要】
1.一种链路异常处理方法,其特征在于,应用于组网中采用流表转发目标流的转发路径包括的目标网络设备,所述组网包括的各网络设备基于动态路由协议将接入所述组网的算力资源的主机路由发布或传递至所述组网的其他网络设备;所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
3.一种链路异常处理方法,其特征在于,应用于控制器,所述控制器使能组网包括的各网络设备基于动态路由协议将接入所述组网的算力资源的主机路由发布或传递至所述组网的其他网络设备;所述方法包括:
4.如权利要求3所述的方法,其特征在于,确定待处理的目标流信息的步骤包括:
5.一种链路异常处理装置,其特征在于,应用于组网中采用流表转发目标流的转发路径包括的目标网络设备,所述组网包括的各网络设备基于动态路由协议将接入...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。