System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及机器学习,尤其涉及一种设备通信方法、设备及介质。
技术介绍
1、随着人工智能技术的迅猛发展,尤其是大模型的兴起,对计算资源的需求呈现出爆炸性增长。这些模型的规模、训练数据的规模以及所需的图形处理器(gpu,graphicsprocessing unit)资源数量都以指数级的速度增长。在某些情况下,为了满足训练需求,甚至需要动用数千甚至数万个gpu。然而,在当前的gpu云服务和资源使用环境中,这些成千上万个gpu可能来自不同制造商或者属于同一制造商的不同产品型号,具有不同的硬件架构,即,是异构的。
2、在这种异构环境中,现有分布式机器学习框架面临巨大的挑战。传统的分布式协同训练方法往往依赖于同构的硬件和网络环境,其通信方案主要针对性能一致的 gpu 和统一的网络拓扑进行优化。当设备的性能、架构或制造商不同,或者网络的拓扑和带宽不一致时,现有通信方案的效率会显著下降,甚至可能无法正常工作。尤其是在需要跨设备进行梯度聚合、模型参数同步等高频通信时,这种差异性会导致性能瓶颈,严重制约了分布式协同训练的规模和效率。此外,不同性能和配置的设备难以协同工作,导致集群中的部分资源被孤立使用,异构gpu之间的互联互通难以实现,形成所谓的“算力孤岛”。这不仅浪费了宝贵的硬件资源,还增加了训练的成本和复杂性。
技术实现思路
1、本专利技术提供一种设备通信方法、设备及介质,用以解决相关技术中异构设备间通信效率低的缺陷。
2、本专利技术提供一种设备通信方法,包括如下步骤
3、基于多个设备之间的拓扑连接信息,确定多种第一通信策略;
4、对各种所述第一通信策略分别进行通信性能评估,得到各种所述第一通信策略的通信性能,并基于各种所述第一通信策略的通信性能,从所述多种第一通信策略中选取第二通信策略;
5、基于所述第二通信策略,控制所述多个设备进行通信。
6、根据本专利技术提供的一种设备通信方法,所述拓扑连接信息包括设备连接关系和设备通信带宽。
7、根据本专利技术提供的一种设备通信方法,所述基于多个设备之间的拓扑连接信息,确定多种第一通信策略,包括:
8、基于所述多个设备之间的设备连接关系和设备通信带宽,以及所述设备连接关系中的网卡,确定各个所述设备的绑定网卡;
9、基于各个所述设备的绑定网卡,确定多种第一通信策略。
10、根据本专利技术提供的一种设备通信方法,所述第一通信策略包括顺序执行的多个通信子图,所述通信子图包括所述多个设备之间的通信关系。
11、根据本专利技术提供的一种设备通信方法,所述对各种所述第一通信策略进行通信性能评估,得到各种所述第一通信策略的通信性能,包括:
12、针对各种所述第一通信策略,基于所述第一通信策略中每个所述通信子图中通信关系对应的设备通信带宽,确定每个所述通信子图的通信耗时,并基于每个所述通信子图的通信耗时,确定所述第一通信策略的通信耗时作为所述通信性能。
13、根据本专利技术提供的一种设备通信方法,在所述多个设备用于执行多种聚合通信原语的情况下,每种所述聚合通信原语分别对应多种所述第一通信策略,且每种所述聚合通信原语分别对应一种所述第二通信策略。
14、根据本专利技术提供的一种设备通信方法,所述多个设备中存在至少两种类型的设备。
15、本专利技术还提供一种设备通信装置,包括如下模块:
16、第一通信策略确定单元,用于基于多个设备之间的拓扑连接信息,确定多种第一通信策略;
17、第二通信策略确定单元,用于对各种所述第一通信策略分别进行通信性能评估,得到各种所述第一通信策略的通信性能,并基于各种所述第一通信策略的通信性能,从所述多种第一通信策略中选取第二通信策略;
18、通信单元,用于基于所述第二通信策略,控制所述多个设备进行通信。
19、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述设备通信方法。
20、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述设备通信方法。
21、本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述设备通信方法。
22、本专利技术提供的设备通信方法、设备及介质,通过分析异构设备之间的拓扑连接信息,生成多种第一通信策略,并通过通信性能评估动态选择最优的第二通信策略,以适应异构设备的特性和网络条件。在通信执行过程中,严格按照选定的第二通信策略进行操作,不仅有效提升了通信效率,还优化了设备间资源的协调分配,避免因设备性能差异或网络瓶颈造成的效率损失。该方法显著提升了异构设备环境下的通信适配能力和资源利用效率,为分布式计算任务在复杂异构系统中的高效执行提供了有力保障。
本文档来自技高网...【技术保护点】
1.一种设备通信方法,其特征在于,包括:
2.根据权利要求1所述的设备通信方法,其特征在于,所述拓扑连接信息包括设备连接关系和设备通信带宽。
3.根据权利要求2所述的设备通信方法,其特征在于,所述基于多个设备之间的拓扑连接信息,确定多种第一通信策略,包括:
4.根据权利要求1所述的设备通信方法,其特征在于,所述第一通信策略包括顺序执行的多个通信子图,所述通信子图包括所述多个设备之间的通信关系。
5.根据权利要求4所述的设备通信方法,其特征在于,所述对各种所述第一通信策略进行通信性能评估,得到各种所述第一通信策略的通信性能,包括:
6.根据权利要求1至5中任一项所述的设备通信方法,其特征在于,在所述多个设备用于执行多种聚合通信原语的情况下,每种所述聚合通信原语分别对应多种所述第一通信策略,且每种所述聚合通信原语分别对应一种所述第二通信策略。
7.根据权利要求1至5中任一项所述的设备通信方法,其特征在于,所述多个设备中存在至少两种类型的设备。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述设备通信方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述设备通信方法。
...【技术特征摘要】
1.一种设备通信方法,其特征在于,包括:
2.根据权利要求1所述的设备通信方法,其特征在于,所述拓扑连接信息包括设备连接关系和设备通信带宽。
3.根据权利要求2所述的设备通信方法,其特征在于,所述基于多个设备之间的拓扑连接信息,确定多种第一通信策略,包括:
4.根据权利要求1所述的设备通信方法,其特征在于,所述第一通信策略包括顺序执行的多个通信子图,所述通信子图包括所述多个设备之间的通信关系。
5.根据权利要求4所述的设备通信方法,其特征在于,所述对各种所述第一通信策略进行通信性能评估,得到各种所述第一通信策略的通信性能,包括:
6.根据权利要求1至5中任一项所述的设备通信方法,其特征在于,在所述多个设备用于执行多种聚合通信原语的情况下...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。