System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,尤其涉及通信领域,具体涉及一种业务集群的处理方法、装置、设备、介质及程序产品。
技术介绍
1、业务集群是包括大量业务设备和网元设备的网络集群。随着科学技术的快速发展,任务往往需要巨大的算力支持,因此任务执行所使用的高性能网络集群往往组网规模巨大,设备和链路条数多,导致故障频率高,任务无法长时间稳定运行。
2、经实践发现,当业务集群中的任务执行发生异常时,现有主流方案是通过人工检测来定位业务集群中的异常原因,如人工采集业务集群中每个业务设备的设备日志并告警逐台设备对比分析;这导致定界或定位业务集群中的异常原因所需时间较长,业务集群在异常排查期间的等待将造成大量算力流失,降低任务执行效率。
技术实现思路
1、本申请实施例提供一种业务集群的处理方法、装置、设备、介质及程序产品,能够显著降低业务集群在异常排查期间的等待时间,从而提升任务执行效率。
2、一方面,本申请实施例提供了一种业务集群的处理方法,业务集群中包括多个业务设备和多个网元设备,任意两个业务设备之间通过至少一个网元设备进行通信连接;每个业务设备中包括至少一个gpu卡;该方法包括:
3、获取业务集群中多个业务流的第一通信元素组,业务流是指从源端的业务设备中一个gpu卡,流向目的端的业务设备中一个gpu卡的数据流;第一通信元素组包括业务流的源端对应的gpu卡的标识和目的端对应的gpu卡的标识;
4、获取业务集群中异常业务设备的第二通信元素组,第二通信元素组包括异常业
5、基于第一通信元素组与第二通信元素组,从业务集群中筛选出异常业务流;
6、根据异常业务流的源端对应的gpu卡和目的端对应的gpu卡,确定异常业务流的通信路径,通信路径中包括异常业务流依次经过的多个目标网元设备;
7、对通信路径上的各个目标网元设备进行设备分析处理,得到异常业务流的异常信息。
8、另一方面,本申请实施例提供了一种业务集群的处理装置,业务集群中包括多个业务设备和多个网元设备,任意两个业务设备之间通过至少一个网元设备进行通信连接;每个业务设备中包括至少一个gpu卡;该装置包括:
9、获取单元,用于获取业务集群中多个业务流的第一通信元素组,业务流是指从源端的业务设备中一个gpu卡,流向目的端的业务设备中一个gpu卡的数据流;第一通信元素组包括业务流的源端对应的gpu卡的标识和目的端对应的gpu卡的标识;
10、获取单元,还用于获取业务集群中异常业务设备的第二通信元素组,第二通信元素组包括异常业务设备中异常gpu卡的标识,以及与异常gpu卡进行通信的gpu卡的标识;
11、处理单元,用于基于第一通信元素组与第二通信元素组,从业务集群中筛选出异常业务流;
12、处理单元,还用于根据异常业务流的源端对应的gpu卡和目的端对应的gpu卡,确定异常业务流的通信路径,通信路径中包括异常业务流依次经过的多个目标网元设备;
13、处理单元,还用于对通信路径上的各个目标网元设备进行设备分析处理,得到异常业务流的异常信息。
14、在一种实现方式中,业务集群中包括x级组网,x级组网中包括层级分布的x层子网络,每层子网络中包括多个网元设备,x为整数且x≥2;处理单元,用于根据异常业务流的源端对应的gpu卡和目的端对应的gpu卡,确定异常业务流的通信路径时,具体用于:
15、根据异常业务流的源端对应的gpu卡,异常业务流的目的端对应的gpu卡,以及,x级组网中每层子网络中的网元设备,得到x层子网络之间的多个路径组;每个路径组中包括一个或多个等价路径,等价路径的两个路径端点分别为相邻的两层子网络中的网元设备;
16、根据多个路径组和异常业务流在x层子网络之间的流向,构建有向图;
17、对有向图进行路径搜索处理,得到异常业务流的通信路径。
18、在一种实现方式中,处理单元,用于根据异常业务流的源端对应的gpu卡,异常业务流的目的端对应的gpu卡,以及,x级组网中每层子网络中的网元设备,得到x层子网络之间的多个路径组时,具体用于:
19、根据异常业务流的源端对应的gpu卡的标识,在x级组网中的第一层子网络中确定异常业务流的起始网元设备;
20、根据异常业务流的目的端对应的gpu卡的标识,在x级组网中的第一层子网络中确定异常业务流的终点网元设备;
21、基于起始网元设备和终点网元设备,在x层子网络中进行路径连接处理,得到x层子网络之间的多个路径组。
22、在一种实现方式中,x层子网络中的任一层子网络表示为第i层子网络,i为整数且1≤i≤x;处理单元,用于基于起始网元设备和终点网元设备,在x层子网络中进行路径连接处理,得到x层子网络之间的多个路径组时,具体用于:
23、当i=1时,根据起始网元设备和第i+1层子网络,按照边界网关协议查询起始网元设备对应的多个第一路径组;每个第一路径组的对端设备为第i+1层子网络中的一个网元设备;
24、令i=i+1,若i=x,则根据每个第一路径组的对端设备和终点网元设备,按照边界网关协议查询每个第一路径组的对端设备分别对应的第x路径组;第x路径组的对端设备为终点网元设备;
25、其中,x层子网络之间的多个路径组包括:多个第一路径组,以及每个第一路径组的对端设备分别对应的第x路径组。
26、在一种实现方式中,处理单元,还用于:
27、令i=i+1,若i<x,则根据多个第i-1路径组中每个第i-1路径组的对端设备和第i+1层子网络,按照边界网关协议查询每个第i-1路径组的对端设备分别对应的多个第i路径组;
28、当i=x时,根据每个第x-1路径组的对端设备和第x-1层子网络,按照边界网关协议查询每个第x-1路径组的对端设备分别对应的多个第x路径组;
29、令i=i-1,若i>2,则根据多个第2x-i-1路径组中每个第2x-i-1路径组的对端设备和第i-1层子网络,按照边界网关协议查询每个第i+1路径组的对端设备分别对应的多个第2x-i路径组;第2x-i路径组的对端设备为第i-1层子网络中的一个网元设备;
30、当i=2时,根据每个第2x-i-1路径组的对端设备和终点网元设备,按照边界网关协议查询每个第2x-i-1路径组的对端设备分别对应的第2x-2路径组;第2x-2路径组的对端设备为终点网元设备;
31、其中,x层子网络之间的多个路径组包括:多个第一路径组、多个第i路径组、多个第2x-i路径组以及第2x-i路径组的对端设备分别对应的第2x-2路径组。
32、在一种实现方式中,处理单元,用于根据多个路径组和异常业务流在x层子网络之间的流向,构建有向图时,具体用于:
33、将多个路径组中的多个网元设备作为有向图的节点;本文档来自技高网...
【技术保护点】
1.一种业务集群的处理方法,其特征在于,所述业务集群中包括多个业务设备和多个网元设备,任意两个所述业务设备之间通过至少一个所述网元设备进行通信连接;每个所述业务设备中包括至少一个GPU卡;所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述业务集群中包括X级组网,所述X级组网中包括层级分布的X层子网络,每层子网络中包括多个网元设备,X为整数且X≥2;所述根据所述异常业务流的源端对应的所述GPU卡和目的端对应的所述GPU卡,确定所述异常业务流的通信路径,包括:
3.如权利要求2所述的方法,其特征在于,所述根据所述异常业务流的源端对应的所述GPU卡,所述异常业务流的目的端对应的所述GPU卡,以及,所述X级组网中每层子网络中的网元设备,得到所述X层子网络之间的多个路径组,包括:
4.如权利要求3所述的方法,其特征在于,所述X层子网络中的任一层子网络表示为第i层子网络,i为整数且1≤i≤X;所述基于所述起始网元设备和所述终点网元设备,在所述X层子网络中进行路径连接处理,得到所述X层子网络之间的多个路径组,包括:
5.如权利要求4所述
6.如权利要求2-5任一项所述的方法,其特征在于,所述根据所述多个路径组和所述异常业务流在所述X层子网络之间的流向,构建有向图,包括:
7.如权利要求6所述的方法,其特征在于,所述有向图中包括起始节点、终点节点和X-1个中间层,每个中间层中包括一个或多个中间节点,所述X-1个中间层中的任一个中间层表示为第j个中间层,j为整数且1≤j≤X-1;所述对所述有向图进行路径搜索处理,得到所述异常业务流的通信路径,包括:
8.如权利要求7所述的方法,其特征在于,所述方法还包括:
9.如权利要求1所述的方法,其特征在于,所述获取所述业务集群中异常业务设备的第二通信元素组,包括:
10.如权利要求1所述的方法,其特征在于,所述对所述通信路径上的各个所述目标网元设备进行设备分析处理,得到所述异常业务流的异常信息,包括:
11.如权利要求1或10所述的方法,其特征在于,所述网元设备中包括芯片;所述对所述通信路径上的各个所述目标网元设备进行设备分析处理,得到所述异常业务流的异常信息之前,还包括:
12.如权利要求1所述的方法,其特征在于,所述方法还包括:
13.如权利要求12所述的方法,其特征在于,所述根据所述异常业务流的异常信息,对所述业务集群进行集群调整处理,得到调整后的所述业务集群,包括:
14.一种业务集群的处理装置,其特征在于,所述业务集群中包括多个业务设备和多个网元设备,任意两个所述业务设备之间通过至少一个所述网元设备进行通信连接;每个所述业务设备中包括至少一个GPU卡;所述装置包括:
15.一种计算机设备,其特征在于,包括:
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-13任一项所述的业务集群的处理方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1-13任一项所述的业务集群的处理方法。
...【技术特征摘要】
1.一种业务集群的处理方法,其特征在于,所述业务集群中包括多个业务设备和多个网元设备,任意两个所述业务设备之间通过至少一个所述网元设备进行通信连接;每个所述业务设备中包括至少一个gpu卡;所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述业务集群中包括x级组网,所述x级组网中包括层级分布的x层子网络,每层子网络中包括多个网元设备,x为整数且x≥2;所述根据所述异常业务流的源端对应的所述gpu卡和目的端对应的所述gpu卡,确定所述异常业务流的通信路径,包括:
3.如权利要求2所述的方法,其特征在于,所述根据所述异常业务流的源端对应的所述gpu卡,所述异常业务流的目的端对应的所述gpu卡,以及,所述x级组网中每层子网络中的网元设备,得到所述x层子网络之间的多个路径组,包括:
4.如权利要求3所述的方法,其特征在于,所述x层子网络中的任一层子网络表示为第i层子网络,i为整数且1≤i≤x;所述基于所述起始网元设备和所述终点网元设备,在所述x层子网络中进行路径连接处理,得到所述x层子网络之间的多个路径组,包括:
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
6.如权利要求2-5任一项所述的方法,其特征在于,所述根据所述多个路径组和所述异常业务流在所述x层子网络之间的流向,构建有向图,包括:
7.如权利要求6所述的方法,其特征在于,所述有向图中包括起始节点、终点节点和x-1个中间层,每个中间层中包括一个或多个中间节点,所述x-1个中间层中的任一个中间层表示为第j个中间层,j为整数且1≤j≤x-1;所述对所述有向图进行路...
【专利技术属性】
技术研发人员:陈诏和,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。