路径创建方法、数据处理系统、控制器、存储介质技术方案

技术编号:38860772 阅读:19 留言:0更新日期:2023-09-17 10:03
本公开涉及分布式计算领域,提供一种路径创建方法、数据处理系统、控制器、存储介质,所述方法应用于控制器,控制器与多个计算节点通信,每个计算节点上包括至少一个计算设备,该方法包括:接收来自任意计算节点的路径创建请求,确定使多个计算设备可通信且满足拓扑类型的至少一条备选路径;确定每一备选路径的拥塞程度;选择拥塞程度满足第一预设条件的备选路径作为目标路径,并创建目标路径;将目标路径的相关信息输出至计算节点。根据本公开实施例的路径创建方法,控制器基于全局的拓扑结构和已创建路径信息确定目标路径,既避免了多个分布式计算任务创建的路径相同,提高资源利用效率和任务执行效率,又提高了路径创建的准确度。度。度。

【技术实现步骤摘要】
路径创建方法、数据处理系统、控制器、存储介质


[0001]本公开涉及分布式计算领域,尤其涉及一种路径创建方法、数据处理系统、控制器、存储介质。

技术介绍

[0002]分布式计算任务如分布式机器学习等,是一种使用多个独立的计算节点运行的计算任务。在计算过程中,各节点需要与集群内多个其他的节点进行数据通信。分布式计算任务所使用的通常是集群的一部分节点。典型的现有技术实现,如NVIDIA集体通信库(NVIDIA collective communication library,NCCL)等,主要是在分布式计算任务开始时,使用通信库,在分布式计算任务的各执行节点上,收集节点之间的网络拓扑信息及节点内各计算设备之间的拓扑关系;根据收集到的信息,预先计算出各节点间的通信路径,确定通信路径上的计算设备以及各计算设备之间的通信链路的类型,并创建通信路径以供分布式计算任务执行时使用。通常优先选择带宽高、时延低的最优通信路径来创建。后续分布式计算任务运行过程中,计算设备之间使用之前计算好的通信路径进行数据通信。
[0003]为提高资源利用率,一些云计算或者网格计算场景下,在一个集群中会同时运行多个分布式计算任务。由于每个分布式计算任务独立计算创建最优通信路径,可能存在多个分布式计算任务创建的路径相同的情况。当多个分布式计算任务的通信数据都从相同的通信路径转发时,可能导致路径拥塞,出现数据丢失或时延增加等问题;而次优通信路径没有被创建,造成资源浪费。

技术实现思路

[0004]有鉴于此,本公开提出了一种路径创建方法、数据处理系统、控制器、存储介质,根据本公开实施例的路径创建方法,控制器基于全局的拓扑结构和已创建路径信息确定目标路径,既避免了多个分布式计算任务创建的路径相同,提高资源利用效率和任务执行效率,又提高了路径创建的准确度。
[0005]根据本公开的一方面,提供了一种路径创建方法,所述方法应用于控制器,所述控制器与多个计算节点通信,每个计算节点上包括至少一个计算设备,所述方法包括:接收来自任意计算节点的路径创建请求,所述路径创建请求包括执行分布式计算任务使用的多个计算设备的标识、拓扑类型、第一预设条件;根据预先存储的所述多个计算节点及其包括的计算设备的拓扑结构,确定使所述多个计算设备可通信且满足所述拓扑类型的至少一条备选路径;根据预先存储的已创建路径信息,确定每一备选路径的拥塞程度;选择拥塞程度满足所述第一预设条件的备选路径作为目标路径,并创建所述目标路径;将所述目标路径的相关信息输出至发出所述路径创建请求的计算节点。
[0006]在一种可能的实现方式中,所述方法还包括:接收来自任意计算节点的路径释放请求时,释放所述路径释放请求所指示的路径,包括从所述已创建路径信息中删除所述路径释放请求所指示的路径的相关信息。
[0007]在一种可能的实现方式中,所述方法还包括:接收来自任意计算节点的拓扑信息,所述拓扑信息包括与该计算节点可通信的每个计算节点的标识,以及该计算节点上每对可通信的计算设备的标识对和通信链路的信息;根据所述拓扑信息更新预先存储的所述拓扑结构。
[0008]在一种可能的实现方式中,所述第一预设条件为所述目标路径的拥塞程度最小,所述根据预先存储的已创建路径信息,确定每一备选路径的拥塞程度,包括:根据所述已创建路径信息,确定当前时间点所述备选路径上各通信链路的平均可用带宽的最小值或加权平均值,作为指示所述备选路径的拥塞程度的第一拥塞参数;所述选择拥塞程度满足所述第一预设条件的备选路径作为目标路径,包括:从所述备选路径中选择第一拥塞参数最大的备选路径作为所述目标路径。
[0009]在一种可能的实现方式中,所述选择拥塞程度满足所述第一预设条件的备选路径作为目标路径,还包括:第一拥塞参数最大的备选路径有多个时,从第一拥塞参数最大的多个备选路径中,选择通信时延最小的备选路径作为所述目标路径。
[0010]在一种可能的实现方式中,所述第一预设条件为所述目标路径的拥塞程度最小,所述根据预先存储的已创建路径信息,确定每一备选路径的拥塞程度,包括:根据所述已创建路径信息,确定预设时间段内每一时间点所述备选路径上各通信链路的平均可用带宽的最小值或加权平均值,作为指示该时间点所述备选路径的拥塞程度的第一拥塞参数;根据所述备选路径在每一时间点的第一拥塞参数的最大值,确定指示所述备选路径的拥塞程度的第二拥塞参数;所述选择拥塞程度满足所述第一预设条件的备选路径作为目标路径,包括:从所述备选路径中选择第二拥塞参数最大的备选路径作为所述目标路径。
[0011]在一种可能的实现方式中,所述选择拥塞程度满足所述第一预设条件的备选路径作为目标路径,还包括:第二拥塞参数最大的备选路径有多个时,从第二拥塞参数最大的多个备选路径中,选择通信时延最小的备选路径作为所述目标路径。
[0012]在一种可能的实现方式中,所述已创建路径信息包括已创建且未释放的路径的标识、该路径所包括的计算设备的标识以及该路径上的通信链路的信息,所述创建所述目标路径包括:将所述目标路径的标识、所述目标路径所包括的计算设备的标识以及所述目标路径上的通信链路的信息加入所述已创建路径信息。
[0013]在一种可能的实现方式中,所述路径创建请求还包括分布式计算任务的预期执行时长,所述已创建路径信息包括已创建且未释放的路径的标识、该路径所包括的计算设备的标识以及该路径上的通信链路的信息、该路径的预期创建时间和预期释放时间,所述创建所述目标路径包括:根据所述目标路径的第二拥塞参数对应的时间点,确定所述目标路径的预期创建时间;根据所述目标路径的预期创建时间和所述预期执行时长,确定所述目标路径的预期释放时间;将所述目标路径的标识、所述目标路径所包括的计算设备的标识以及所述目标路径上的通信链路的信息、所述目标路径的预期创建时间和预期释放时间加入所述已创建路径信息。
[0014]在一种可能的实现方式中,在到达所述目标路径的预期释放时间后、接收到指示所述目标路径的路径释放请求前的任意时间点时,所述方法还包括:查找所述已创建路径信息,确定是否存在预期创建时间与所述目标路径的预期释放时间相关联的已创建且未释放的路径;根据当前时间点修改所述已创建路径信息中的所述目标路径的预期释放时间;
在查找到至少一条路径时,根据当前时间点修改所述至少一条路径的预期创建时间和预期释放时间,或者,在查找到至少一条路径时,释放查找到的路径,并根据该路径包括的多个计算设备的标识,重新执行根据预先存储的所述多个计算节点及其包括的计算设备的拓扑结构,确定使所述多个计算设备可通信且满足所述拓扑类型的至少一条备选路径及之后的步骤。
[0015]在一种可能的实现方式中,所述通信链路包括点对点通信类型、无限带宽类型、基于融合以太网的远程直接数据存取类型、以太网类型中的一种或多种。
[0016]根据本公开的另一方面,提供了一种路径创建方法,所述方法应用于数据处理系统,所述数据处理系统包括控制器和多个计算节点,所述控制器与所述多个计算节点通信,每个计算节点上包括至少本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种路径创建方法,其特征在于,所述方法应用于控制器,所述控制器与多个计算节点通信,每个计算节点上包括至少一个计算设备,所述方法包括:接收来自任意计算节点的路径创建请求,所述路径创建请求包括执行分布式计算任务使用的多个计算设备的标识、拓扑类型、第一预设条件;根据预先存储的所述多个计算节点及其包括的计算设备的拓扑结构,确定使所述多个计算设备可通信且满足所述拓扑类型的至少一条备选路径;根据预先存储的已创建路径信息,确定每一备选路径的拥塞程度;选择拥塞程度满足所述第一预设条件的备选路径作为目标路径,并创建所述目标路径;将所述目标路径的相关信息输出至发出所述路径创建请求的计算节点。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:接收来自任意计算节点的路径释放请求时,释放所述路径释放请求所指示的路径,包括从所述已创建路径信息中删除所述路径释放请求所指示的路径的相关信息。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:接收来自任意计算节点的拓扑信息,所述拓扑信息包括与该计算节点可通信的每个计算节点的标识,以及该计算节点上每对可通信的计算设备的标识对和通信链路的信息;根据所述拓扑信息更新预先存储的所述拓扑结构。4.根据权利要求3所述的方法,其特征在于,所述第一预设条件为所述目标路径的拥塞程度最小,所述根据预先存储的已创建路径信息,确定每一备选路径的拥塞程度,包括:根据所述已创建路径信息,确定当前时间点所述备选路径上各通信链路的平均可用带宽的最小值或加权平均值,作为指示所述备选路径的拥塞程度的第一拥塞参数;所述选择拥塞程度满足所述第一预设条件的备选路径作为目标路径,包括:从所述备选路径中选择第一拥塞参数最大的备选路径作为所述目标路径。5.根据权利要求4所述的方法,其特征在于,所述选择拥塞程度满足所述第一预设条件的备选路径作为目标路径,还包括:第一拥塞参数最大的备选路径有多个时,从第一拥塞参数最大的多个备选路径中,选择通信时延最小的备选路径作为所述目标路径。6.根据权利要求3所述的方法,其特征在于,所述第一预设条件为所述目标路径的拥塞程度最小,所述根据预先存储的已创建路径信息,确定每一备选路径的拥塞程度,包括:根据所述已创建路径信息,确定预设时间段内每一时间点所述备选路径上各通信链路的平均可用带宽的最小值或加权平均值,作为指示该时间点所述备选路径的拥塞程度的第一拥塞参数;根据所述备选路径在每一时间点的第一拥塞参数的最大值,确定指示所述备选路径的拥塞程度的第二拥塞参数;所述选择拥塞程度满足所述第一预设条件的备选路径作为目标路径,包括:从所述备选路径中选择第二拥塞参数最大的备选路径作为所述目标路径。7.根据权利要求6所述的方法,其特征在于,所述选择拥塞程度满足所述第一预设条件
的备选路径作为目标路径,还包括:第二拥塞参数最大的备选路径有多个时,从第二拥塞参数最大的多个备选路径中,选择通信时延最小的备选路径作为所述目标路径。8.根据权利要求4所述的方法,其特征在于,所述已创建路径信息包括已创建且未释放的路径的标识、该路径所包括的计算设备的标识以及该路径上的通信链路的信息,所述创建所述目标路径包括:将所述目标路径的标识、所述目标路径所包括的计算设备的标识以及所述目标路径上的通信链路的信息加入所述已创建路径信息。9.根据权利要求6所述的方法,其特征在于,所述路径创建请求还包括分布式计算任务的预期执行时长,所述已创建路径信息包括已创建且未释放的路径的标识、该路径所包括的计算设备的标识以及该路径上的通信链路的信息、该路径的预期创建时间和预期释放时间,所述创建所述目标路径包括:根据所述目标路径的第二拥塞参数对应的时间点,确定所述目标路径的预期创建时间;根据所述目标路径的预期创建时间和所述预期执行时长,确定所述目标路径的预期释放时间;将所述目标路径的标识、所述目标路径所包括的计算设备的标识...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:摩尔线程智能科技北京有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1