System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据通信,具体而言,涉及一种报文发送方法、装置、spine设备、leaf设备及计算机可读存储介质。
技术介绍
1、随着人工智能技术快速发展,智算中心网络逐渐成为当下业界研究热点。ai训练由于其分布式计算、长周期运行、实时响应等特点,对网络故障极为敏感。由于智算网络通常会用到大量的光模块等易损部件,因此ai训练过程中难免发生网络故障。目前业界都非常重视提升智算中心网络中的故障收敛速度,减少网络故障对ai训练任务的影响。这就涉及到远端故障收敛,其中一种思路是故障通告结合故障切换来实现。
2、智算中心通常会采用较规则的拓扑形式组网,其中fat-tree(胖树)就是当下智算中心很常见的一种组网形式。对于智算中心的fat-tree,又分为二级组网和三级组网两种情形。典型二级fat-tree组网中,每个leaf设备一半端口接服务器/gpu(graphicsprocessing unit,图形处理器),一半端口接spine设备(脊设备)。每个spine设备所有端口都接leaf设备(叶子设备),网络所能连接的gpu极限数量受交换机端口数量限制。
3、对于64端口盒子设备的二级盒盒组网,最大支持32个spine设备和64个leaf设备,支持2048张gpu。对于128端口盒子设备的二级盒盒组网,最大支持64个spine设备,128个leaf设备,支持8192张gpu。
4、在实际组网中gpu数量会非常多,同时也会有较多的leaf设备和spine设备。leaf设备上下行带宽收敛比1:1,每一对lea
5、当前解决方案:按照标准的路由协议处理逻辑,故障收敛主要依赖设备控制面,在spine设备感知到连接的leaf设备的链路故障后,通过路由协议向其他leaf设备发送协议报文通知路由撤销,当其他leaf设备收到协议报文更新本地路由表项后业务才能恢复,典型场景收敛时间为秒级,业务丢包时间过长。
技术实现思路
1、本专利技术目的在于提供一种报文发送方法、装置、spine设备、leaf设备及计算机可读存储介质。
2、本专利技术的实施例可以这样实现:
3、第一方面,本专利技术提供一种报文发送方法,应用于智算网络中的第一spine设备的交换芯片,所述第一spine设备与多个leaf设备直接连接,所述交换芯片中设置有所述第一spine设备到达每个所述leaf设备的直连链路的备份路径组,所述方法包括:
4、接收数据报文,所述数据报文为待通过所述多个leaf设备中的目标leaf设备转发的报文;
5、当检测到与所述目标leaf设备之间的直连链路故障时,通过所述备份路径组中的第一下一跳将根据所述数据报文生成的故障通知报文发送至除所述目标leaf设备之外的其余leaf设备,并通过所述备份路径组中的第二下一跳将所述数据报文发送至中转leaf设备,以通过所述中转leaf设备到达第二spine设备,并通过所述第二spine设备将所述数据报文发送至所述目标leaf设备转发。
6、在可选的实施方式中,所述通过所述备份路径组中的第一下一跳将故障通知报文发送至除所述目标leaf设备之外的其余leaf设备的步骤包括:
7、根据所述第一下一跳,对所述数据报文进行编辑,得到携带有故障链路信息的所述故障通知报文;
8、将所述故障通知报文以预设的限速速率转发至预先创建的组播组,以被其余每一leaf设备收到;其中,所述组播组包括所述多个leaf设备中的每个leaf设备。
9、在可选的实施方式中,所述对所述数据报文进行编辑,得到携带有故障链路信息的所述故障通知报文的步骤包括:
10、修改所述数据报文的源mac地址为所述第一spine设备的mac地址,修改所述数据报文的目的mac地址为所述目标leaf设备的mac地址,修改所述数据报文的以太网类型为自定义值,以使接收到所述故障通知报文任一所述其余leaf设备根据源目的mac地址和所述以太网类型,确定所述第一spine设备与所述目标leaf设备之间的直连链路故障。
11、在可选的实施方式中,所述通过所述备份路径组中的第二下一跳将所述数据报文发送至中转leaf设备的步骤包括:
12、根据所述第二下一跳,为所述数据报文添加预设标记;
13、根据所述预设标记从所有其余leaf设备中确定中转leaf设备;
14、通过所述中转leaf设备将所述数据报文发送至所述第二spine设备,并通过所述第二spine设备将所述数据报文发送至所述目标leaf设备。
15、在可选的实施方式中,所述根据所述预设标记从所有其余leaf设备中确定中转leaf设备的步骤包括:
16、通过查找与所述预设标记匹配的访问控制列表对应的转发动作,根据预设负载分担策略从预先创建的ecmp组中可达的每一leaf设备中确定所述中转leaf设备;所述ecmp组包括所述多个leaf设备中除所述目标leaf设备外的所有其余leaf设备。
17、在可选的实施方式中,所述通过所述中转leaf设备将所述数据报文发送至所述第二spine设备,并通过所述第二spine设备将所述数据报文发送至所述目标leaf设备的步骤包括:
18、为所述数据报文封装隧道外层ip头,并将所述中转leaf设备的ip地址作为所述隧道外层ip头的目的ip地址,得到隧道封装报文;
19、将所述隧道封装报文发送至所述中转leaf设备,以使所述中转leaf设备从所述隧道封装报文中解封装出所述数据报文并通过所述第二spine设备发送至所述目标leaf设备。
20、第二方面,本专利技术提供一种报文发送方法,应用于智算网络中与第一spine设备直接连接的任一leaf设备,所述第一spine设备与多个leaf设备直接连接,所述leaf设备包括交换芯片和cpu,所述方法包括:
21、交换芯片接收所述第一spine设备发送的故障通知报文,其中,所述故障通知报文由所述第一spine设备在检测到与目标leaf设备之间的直连链路故障时发送的;
22、所述交换芯片查找与所述故障通知报文的以太网类型匹配的访问控制列表,根据所述访问控制列表对应的转发动作将所述故障通知报文上送cpu;
23、所述cpu根据所述故障通知报文的源mac地址和目的mac地址,确定所述第一spine设备与所述目标leaf设备之间的直连链路故障,通知所述交换芯片从预先创建的ecmp组中删除所述第一spine设备对应的下一跳,所述ecmp中包括本设备直接连接的所有spine设备对应的下一跳。
24、在可选的实施方式中,所述交换芯片接收所述第一spine设备通过ip隧道发送的隧道封装报文,从所述隧道封装报文中解封装出所述数据报本文档来自技高网...
【技术保护点】
1.一种报文发送方法,其特征在于,应用于智算网络中的第一Spine设备的交换芯片,所述第一Spine设备与多个Leaf设备直接连接,所述交换芯片中设置有所述第一Spine设备到达每个所述Leaf设备的直连链路的备份路径组,所述方法包括:
2.根据权利要求1所述的报文发送方法,其特征在于,所述通过所述备份路径组中的第一下一跳将故障通知报文发送至除所述目标Leaf设备之外的其余Leaf设备的步骤包括:
3.根据权利要求2所述的报文发送方法,其特征在于,所述对所述数据报文进行编辑,得到携带有故障链路信息的所述故障通知报文的步骤包括:
4.根据权利要求1所述的报文发送方法,其特征在于,所述通过所述备份路径组中的第二下一跳将所述数据报文发送至中转Leaf设备的步骤包括:
5.根据权利要求4所述的报文发送方法,其特征在于,所述根据所述预设标记从所有其余Leaf设备中确定中转Leaf设备的步骤包括:
6.根据权利要求4所述的报文发送方法,其特征在于,所述通过所述中转Leaf设备将所述数据报文发送至所述第二Spine设备,并通过所述第二
7.一种报文发送方法,其特征在于,应用于智算网络中与第一Spine设备直接连接的任一Leaf设备,所述第一Spine设备与多个Leaf设备直接连接,所述Leaf设备包括交换芯片和CPU,所述方法包括:
8.根据权利要求7所述的报文发送方法,其特征在于,所述方法还包括:
9.一种报文发送装置,其特征在于,应用于智算网络中的第一Spine设备的交换芯片,所述第一Spine设备与多个Leaf设备直接连接,所述交换芯片中设置有所述第一Spine设备到达每个所述Leaf设备的直连链路的备份路径组,所述装置包括:
10.一种Spine设备,其特征在于,包括处理器和交换芯片,所述交换芯片在所述处理器的控制下实现如权利要求1-6中任一项所述的报文发送方法。
11.一种Leaf设备,其特征在于,所述Leaf设备与第一Spine设备直接连接,所述Leaf设备包括交换芯片和CPU;
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时,实现权利要求1-6中任一项所述的报文发送方法。
...【技术特征摘要】
1.一种报文发送方法,其特征在于,应用于智算网络中的第一spine设备的交换芯片,所述第一spine设备与多个leaf设备直接连接,所述交换芯片中设置有所述第一spine设备到达每个所述leaf设备的直连链路的备份路径组,所述方法包括:
2.根据权利要求1所述的报文发送方法,其特征在于,所述通过所述备份路径组中的第一下一跳将故障通知报文发送至除所述目标leaf设备之外的其余leaf设备的步骤包括:
3.根据权利要求2所述的报文发送方法,其特征在于,所述对所述数据报文进行编辑,得到携带有故障链路信息的所述故障通知报文的步骤包括:
4.根据权利要求1所述的报文发送方法,其特征在于,所述通过所述备份路径组中的第二下一跳将所述数据报文发送至中转leaf设备的步骤包括:
5.根据权利要求4所述的报文发送方法,其特征在于,所述根据所述预设标记从所有其余leaf设备中确定中转leaf设备的步骤包括:
6.根据权利要求4所述的报文发送方法,其特征在于,所述通过所述中转leaf设备将所述数据报文发送至所述第二spine设备,并通过所述第二spine设备将所述数据报文...
【专利技术属性】
技术研发人员:孙文婷,汤伟,
申请(专利权)人:迈普通信技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。