System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于网络遥测的大规模分布式训练系统路由调度方法技术方案_技高网

一种基于网络遥测的大规模分布式训练系统路由调度方法技术方案

技术编号:43484525 阅读:17 留言:0更新日期:2024-11-29 16:56
一种基于网络遥测的大规模分布式训练系统路由调度方法,属于数据中心路由调度策略技术领域,主要包括以下步骤:将节点和网络设备连接,通过网络设备将ECMP的哈希函数上传到节点;网络设备使能INT携带信息;主机端侧收集网络链路指标信息,并根据网络链路指标信息进行周期分析和预测;基于时间属性表征的路径质量执行选路算法,计算任务流的最优路径;对于分配了训练任务的节点,选择具有最小EFCT即最高时间质量的最优路径后,将强制流量定向通过该最优路径进行发送。本发明专利技术基于INT的监控信息来进行路径时序属性预测,提高了传输性能,增加了网络并发最大容量,优化了训练效率,同时降低了数据中心网络的部署成本。

【技术实现步骤摘要】

本专利技术属于数据中心路由调度策略,具体涉及一种基于网络遥测的大规模分布式训练系统路由调度方法


技术介绍

1、为了更好地支持当今大型人工智能模型的高效训练,高性能集群在设计时通常会考虑到足够的互联带宽,因此任何两台主机之间都存在多条端到端路径。在这样的集群中,人工智能模型训练任务可以选择更好的路径进行参数传输和模型同步。在现行数据中心的架构中,普遍采用以五元组哈希为依据的等价多路径路由(equal-cost multi-path,ecmp)算法在多条等价可用路径上随机转发流量,通常而言,该算法保证了流量被正常转发到多条并行链路上。然而当网络规模变大、流量数量变多时,ecmp很难实现完全的负载均衡。

2、进一步而言,现有的部署协议ecmp和近期的相关工作都无法充分利用超额配置的网络带宽。由于主机端和交换机端的周期性流量模式,静态的路由策略远远不能满足人工智能工作负载路由的要求。因为任何静态网络中表现良好的路径都可能在后续的训练任务迭代中表现不佳,导致整体训练效率低下。

3、因此,针对现代大规模机器学习网络数据中心,现有研究提出了一种主机侧实现的人工智能工作负载感知和自适应负载均衡解决方案,即通过带内网络遥测(inbandnetwork telemetry,int)来持续性捕获路径的关键属性,然后基于路径时间质量的新指标,来量化一条路径能否在训练工作负载的整个生命周期内提供高质量的服务,并将流量定向至该路径。这种新型传输策略的优势在于:(1)能感知路径的时间序列指标,从而能够更好衡量流量进入路径的性能优劣;(2)根据路径的时间质量为每个训练任务选择最合适的路径,提高整体任务的流量传输效率;(3)以最小的开销执行路径选择,能够有效地大规模无损部署到数据中心。但这种新型的传输策略也引发了新的挑战:(1)这个过程不仅需要测量路径的时间属性,还需要预测未来属性,以便推测新任务加入传输路径的性能表现,从而对流量进行路由。(2)路径的感知指标需要包含各种因素(如pfc(priority-based flowcontrol)等隐藏因素)来量化路径的时间质量,但这些因素在传统的测量方式下很难量化。(3)节点的流量定向方式需要易于部署、开销低,并且与现行的交换机路由策略兼容。传统的定向流量方式开销过大,难以进行大规模部署到生产环境中。

4、综上,虽然通过ecmp方式本身具有一定的均衡能力,但在流量持续时间长且容易重叠的模型训练场景中,容易引入长时的流量冲突,这为模型提升训练效率带来了阻碍。并且,现有的流量均衡方法普遍不是为训练流量设计的,且多数需要对网络进行比较大的修改,或者在交换机中实现定制化功能,在实际部署方面具有局限性,只能小范围地在测试机器中尝试效果,难以实际真正部署到生产集群中。


技术实现思路

1、本专利技术的目的是提供一种基于网络遥测的大规模分布式训练系统路由调度方法。本专利技术解决了分布式深度学习模型训练时存在的现有负载均衡实现方式对网络上模型具体的流量传输分布效果不佳、数据中心对流量路径感知能力差的问题。本专利技术是对现有网络的增量式方法设计,仅在节点进行部署,对现有的网络环境并没有修改。从节点角度看,本专利技术可以提升传输率,更快的在不同节点间交换数据以进行模型训练;从网络角度看,本专利技术可以提高链路的负载利用率,节约了网络设备成本,这为进一步的模型调优、网络运维提供了便利。

2、本专利技术为解决技术问题所采用的技术方案如下:

3、本专利技术提供的一种基于网络遥测的大规模分布式训练系统路由调度方法,包括以下步骤:

4、步骤s1:将节点和网络设备连接,通过网络设备将ecmp的哈希函数上传到节点;网络设备使能int携带信息;主机端侧收集网络链路指标信息,并根据网络链路指标信息进行周期分析和预测;

5、步骤s2:基于时间属性表征的路径质量执行选路算法,计算任务流的最优路径;

6、步骤s3:对于分配了训练任务的节点,选择具有最小efct即最高时间质量的最优路径后,将强制流量定向通过该最优路径进行发送。

7、进一步的,所述网络设备使能int携带信息时,当收到节点发出的int报文后,网络设备将自身的链路利用率和处理延迟编码进数据包的int包头,并转发给下一跳。

8、进一步的,所述主机端侧收集网络链路指标信息时,每台服务器运行int来收集网络状况,任一台服务器单独选择每个机架中的一台服务器作为目的服务器,并检测到该目的服务器的k条随机路径;源服务器向目的服务器发送int数据包;目的服务器接收int报文并提取对应的int包头;目的服务器返回信息携带ack报文;源节点主机提取并存储ack报文携带的int信息。

9、进一步的,步骤s2中,首先进行指标时间序列的周期分析和预测,其具体操作流程如下:

10、通过基于int的监控,每台服务器能够收集对于任一目的节点的k条链路从过去到当前的一段时间的利用率和链路时延;令观测到的时间序列为x,即xi(0≤i<n),则预测后续信号需要推断xn、xn+1、...;其中,观测到的时间序列由k个周期性子序列组成,每个子序列都有自己的周期t(j),即:

11、

12、使用自相关函数来找到时间序列x的周期;对于一个时间序列x,它在周期t处的自相关函数定义为时间序列x与时间序列x在t时间滞后的皮尔逊相关系数,即:

13、

14、然后从n/2到2枚举t,并返回具有最大自相关值的t作为时间序列x的周期。

15、进一步的,步骤s2中,计算任务流的最优路径的具体操作流程如下:

16、使用期望流完成时间度量路径的时间质量;时间质量衡量了一条路径在一段时间内为任务流量传输的适合程度;假设流量f有n次迭代通信阶段,每个通信阶段需要传输s体积的数据,计算阶段的持续时间是toff;若用ti表示第i个通信阶段传输的完成时间,则表示在路径p上t时刻分配的带宽;通过以下公式计算出流量f在路径p上的完成时间,记为tn:

17、

18、因此对于每个流量f,得到其在k个潜在路径p={p1,p2,...pk}上的理论完成时间;

19、进一步的,定义延迟阈值dlow来指示路径是否为pfc路径,延迟阈值dlow设置为单向基础延迟的20%~40%;对于具有高可用带宽和长延迟的路径被标记为pfc路径,其他路径被标记为非pfc路径,流量f和路径p之间的整体适应性通过以下公式更新:

20、

21、对于每个任务,将所有观测的源服务器和目的服务器的路径作为候选路径集合,计算每条候选路径的efct,并选择具有最小efct的那条路径。

22、进一步的,每隔几个训练周期就重新计算一次路径的efct,如果发现一条路径的efct变小,就切换到该路径;只有当新路径的efct比旧路径的efct小于阈值时且节点处于计算阶段,才切换路径。

23、进一步的,步骤s3中,首先选择合适的源端口,对于任务的本文档来自技高网...

【技术保护点】

1.一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,所述网络设备使能INT携带信息时,当收到节点发出的INT报文后,网络设备将自身的链路利用率和处理延迟编码进数据包的INT包头,并转发给下一跳。

3.根据权利要求1所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,所述主机端侧收集网络链路指标信息时,每台服务器运行INT来收集网络状况,任一台服务器单独选择每个机架中的一台服务器作为目的服务器,并检测到该目的服务器的k条随机路径;源服务器向目的服务器发送INT数据包;目的服务器接收INT报文并提取对应的INT包头;目的服务器返回信息携带ACK报文;源节点主机提取并存储ACK报文携带的INT信息。

4.根据权利要求1所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,步骤S2中,首先进行指标时间序列的周期分析和预测,其具体操作流程如下:

5.根据权利要求1所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,步骤S2中,计算任务流的最优路径的具体操作流程如下:

6.根据权利要求5所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,定义延迟阈值dlow来指示路径是否为PFC路径,延迟阈值dlow设置为单向基础延迟的20%~40%;对于具有高可用带宽和长延迟的路径被标记为PFC路径,其他路径被标记为非PFC路径,流量f和路径p之间的整体适应性通过以下公式更新:

7.根据权利要求5所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,每隔几个训练周期就重新计算一次路径的EFCT,如果发现一条路径的EFCT变小,就切换到该路径;只有当新路径的EFCT比旧路径的EFCT小于阈值时且节点处于计算阶段,才切换路径。

8.根据权利要求1所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,步骤S3中,首先选择合适的源端口,对于任务的每对通信组,将枚举所有可能的源端口和目标路径的组合,并计算每个组合在每一跳的下一跳;如果一个组合的下一跳序列就是目标路径,就将该源端口分配给该通信对;如果没有一个组合与目标路径匹配,则返回一个与最短路径匹配的源端口。

9.根据权利要求1所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,步骤S3中,ECMP在交换机上使用一个哈希函数来选择下一跳。

10.根据权利要求1所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,步骤S3中,通过操纵源端口控制流量经过特定的下一跳,得到遵循ECMP协议的流量路由路径。

...

【技术特征摘要】

1.一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,所述网络设备使能int携带信息时,当收到节点发出的int报文后,网络设备将自身的链路利用率和处理延迟编码进数据包的int包头,并转发给下一跳。

3.根据权利要求1所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,所述主机端侧收集网络链路指标信息时,每台服务器运行int来收集网络状况,任一台服务器单独选择每个机架中的一台服务器作为目的服务器,并检测到该目的服务器的k条随机路径;源服务器向目的服务器发送int数据包;目的服务器接收int报文并提取对应的int包头;目的服务器返回信息携带ack报文;源节点主机提取并存储ack报文携带的int信息。

4.根据权利要求1所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,步骤s2中,首先进行指标时间序列的周期分析和预测,其具体操作流程如下:

5.根据权利要求1所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,步骤s2中,计算任务流的最优路径的具体操作流程如下:

6.根据权利要求5所述的一种基于网络遥测的大规模分布式训练系统路由调度方法,其特征在于,定义延迟阈值dlo...

【专利技术属性】
技术研发人员:张宇超郑陈粤江卓王磊吴文斐
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1