路径创建方法、数据处理系统、控制器、存储介质技术方案

技术编号：38860772 阅读：19 留言：0更新日期：2023-09-17 10:03

本公开涉及分布式计算领域，提供一种路径创建方法、数据处理系统、控制器、存储介质，所述方法应用于控制器，控制器与多个计算节点通信，每个计算节点上包括至少一个计算设备，该方法包括：接收来自任意计算节点的路径创建请求，确定使多个计算设备可通信且满足拓扑类型的至少一条备选路径；确定每一备选路径的拥塞程度；选择拥塞程度满足第一预设条件的备选路径作为目标路径，并创建目标路径；将目标路径的相关信息输出至计算节点。根据本公开实施例的路径创建方法，控制器基于全局的拓扑结构和已创建路径信息确定目标路径，既避免了多个分布式计算任务创建的路径相同，提高资源利用效率和任务执行效率，又提高了路径创建的准确度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
路径创建方法、数据处理系统、控制器、存储介质

[0001]本公开涉及分布式计算领域，尤其涉及一种路径创建方法、数据处理系统、控制器、存储介质。

技术介绍

[0002]分布式计算任务如分布式机器学习等，是一种使用多个独立的计算节点运行的计算任务。在计算过程中，各节点需要与集群内多个其他的节点进行数据通信。分布式计算任务所使用的通常是集群的一部分节点。典型的现有技术实现，如NVIDIA集体通信库（NVIDIA collective communication library，NCCL）等，主要是在分布式计算任务开始时，使用通信库，在分布式计算任务的各执行节点上，收集节点之间的网络拓扑信息及节点内各计算设备之间的拓扑关系；根据收集到的信息，预先计算出各节点间的通信路径，确定通信路径上的计算设备以及各计算设备之间的通信链路的类型，并创建通信路径以供分布式计算任务执行时使用。通常优先选择带宽高、时延低的最优通信路径来创建。后续分布式计算任务运行过程中，计算设备之间使用之前计算好的通信路径进行数据通信。
[0003]为提高资源利用率，一些云计算或者网格计算场景下，在一个集群中会同时运行多个分布式计算任务。由于每个分布式计算任务独立计算创建最优通信路径，可能存在多个分布式计算任务创建的路径相同的情况。当多个分布式计算任务的通信数据都从相同的通信路径转发时，可能导致路径拥塞，出现数据丢失或时延增加等问题；而次优通信路径没有被创建，造成资源浪费。

技术实现思路

[0004]有鉴于此，本公开提出了一种路径创建方法...

【技术保护点】

【技术特征摘要】
1.一种路径创建方法，其特征在于，所述方法应用于控制器，所述控制器与多个计算节点通信，每个计算节点上包括至少一个计算设备，所述方法包括：接收来自任意计算节点的路径创建请求，所述路径创建请求包括执行分布式计算任务使用的多个计算设备的标识、拓扑类型、第一预设条件；根据预先存储的所述多个计算节点及其包括的计算设备的拓扑结构，确定使所述多个计算设备可通信且满足所述拓扑类型的至少一条备选路径；根据预先存储的已创建路径信息，确定每一备选路径的拥塞程度；选择拥塞程度满足所述第一预设条件的备选路径作为目标路径，并创建所述目标路径；将所述目标路径的相关信息输出至发出所述路径创建请求的计算节点。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：接收来自任意计算节点的路径释放请求时，释放所述路径释放请求所指示的路径，包括从所述已创建路径信息中删除所述路径释放请求所指示的路径的相关信息。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：接收来自任意计算节点的拓扑信息，所述拓扑信息包括与该计算节点可通信的每个计算节点的标识，以及该计算节点上每对可通信的计算设备的标识对和通信链路的信息；根据所述拓扑信息更新预先存储的所述拓扑结构。4.根据权利要求3所述的方法，其特征在于，所述第一预设条件为所述目标路径的拥塞程度最小，所述根据预先存储的已创建路径信息，确定每一备选路径的拥塞程度，包括：根据所述已创建路径信息，确定当前时间点所述备选路径上各通信链路的平均可用带宽的最小值或加权平均值，作为指示所述备选路径的拥塞程度的第一拥塞参数；所述选择拥塞程度满足所述第一预设条件的备选路径作为目标路径，包括：从所述备选路径中选择第一拥塞参数最大的备选路径作为所述目标路径。5.根据权利要求4所述的方法，其特征在于，所述选择拥塞程度满足所述第一预设条件的备选路径作为目标路径，还包括：第一拥塞参数最大的备选路径有多个时，从第一拥塞参数最大的多个备选路径中，选择通信时延最小的备选路径作为所述目标路径。6.根据权利要求3所述的方法，其特征在于，所述第一预设条件为所述目标路径的拥塞程度最小，所述根据预先存储的已创建路径信息，确定每一备选路径的拥塞程度，包括：根据所述已创建路径信息，确定预设时间段内每一时间点所述备选路径上各通信链路的平均可用带宽的最小值或加权平均值，作为指示该时间点所述备选路径的拥塞程度的第一拥塞参数；根据所述备选路径在每一时间点的第一拥塞参数的最大值，确定指示所述备选路径的拥塞程度的第二拥塞参数；所述选择拥塞程度满足所述第一预设条件的备选路径作为目标路径，包括：从所述备选路径中选择第二拥塞参数最大的备选路径作为所述目标路径。7.根据权利要求6所述的方法，其特征在于，所述选择拥塞程度满足所述第一预设条件
的备选路径作为目标路径，还包括：第二拥塞参数最大的备选路径有多个时，从第二拥塞参数最大的多个备选路径中，选择通信时延最小的备选路径作为所述目标路径。8.根据权利要求4所述的方法，其特征在于，所述已创建路径信息包括已创建且未释放的路径的标识、该路径所包括的计算设备的标识以及该路径上的通信链路的信息，所述创建所述目标路径包括：将所述目标路径的标识、所述目标路径所包括的计算设备的标识以及所述目标路径上的通信链路的信息加入所述已创建路径信息。9.根据权利要求6所述的方法，其特征在于，所述路径创建请求还包括分布式计算任务的预期执行时长，所述已创建路径信息包括已创建且未释放的路径的标识、该路径所包括的计算设备的标识以及该路径上的通信链路的信息、该路径的预期创建时间和预期释放时间，所述创建所述目标路径包括：根据所述目标路径的第二拥塞参数对应的时间点，确定所述目标路径的预期创建时间；根据所述目标路径的预期创建时间和所述预期执行时长，确定所述目标路径的预期释放时间；将所述目标路径的标识、所述目标路径所包括的计算设备的标识...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：摩尔线程智能科技北京有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人