System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 实现GPU之间数据交换的方法、系统以及协议转换芯片技术方案_技高网

实现GPU之间数据交换的方法、系统以及协议转换芯片技术方案

技术编号:40953032 阅读:7 留言:0更新日期:2024-04-18 20:28
本发明专利技术公开了一种实现GPU之间数据交换的方法、系统以及协议转换芯片,用于实现GPU之间数据交换,系统包含接口模块,数据交换模块,协议转换模块和管理模块,实现解析、处理并转换输入数据的协议,数据管理和协同计算;协议转换芯片将GPU的数据封装成以太网的数据包,并对进出GPU的数据进行管理、数据协同处理。基于以太网的架构,实现GPU之间直接数据交换,实现高性能、低延迟、高速高效的GPU数据互联,可应用现有的高容量以太网交换机,使得该数据交换系统可以被市场上多数GPU厂商采用,协议转换芯片可用于构建高性能计算、数据中心和人工智能计算等GPU集群架构方案,相较于龙头公司把控的现有技术,具有低门槛,高通用的特点。

【技术实现步骤摘要】

本专利技术涉及数据互联,特别涉及一种实现gpu之间数据交换的方法、系统以及协议转换芯片。


技术介绍

1、gpu(graphics processing unit)即图形处理器,最初设计用于图像和图形相关的计算任务,如3d图形渲染和游戏图像处理。由于其高度并行计算能力和处理大规模数据的能力,gpu已经在许多领域扮演着重要的角色,例如在大数据、深度学习和人工智能领域,gpu已经成为加速计算的关键技术。通过将并行计算任务分配给多个gpu核心,可以显著提高计算性能和效率,随着深度学习和人工智能模型的复杂性提升,需要更多的计算能力来训练和推断这些模型,如大规模的深度学习模型gpt(generative pre-trainedtransformer),就需要庞大的计算资源来处理训练数据,这就需要使用大量的gpu,并且它们之间的数据传输和互联成为影响性能的关键因素。

2、传统的数据中心,众多的cpu之间通过网络互联,而gpu之间并不直接互联。pcie(peripheral component interconnect express)是一种计算机总线标准,通常也用作称呼该标准下的串行总线架构或计算机总线接口,cpu和gpu之间通过pcie互联,cpu和nic(network interface controller)即网络适配器之间也通过pcie互联。如图1所示,如果gpu之间需要交互数据,则需要先通过pcie将数据传输给cpu,然后cpu再通过nic将数据打包成以太网数据,然后通过以太网网络进行数据交换,进而将数据传输到对应gpu的那个cpu上,最后该cpu再通过pcie将数据传输到gpu中;但传统架构更多的是为云计算和虚拟化任务优化的,对于以cpu为核心的高性能计算或人工智能计算的任务来说,主要的缺陷在于:性能差,延迟大,效率低,因此,本领域技术人员需要新的互联架构来解决这些问题。

3、以nvidia为首的半导体龙头企业在此基础上提出了一些改进方案,如图2所示,大体来说就是增加每个server即服务器上的gpu的数量,同时增加gpu和gpu之间互联,从而server内的gpu能实现低延迟、高带宽的数据交换。每个server内的gpu和gpu之间互联主要由两种实现方式,一种是硬线连接,通常组成一个小的网格拓扑网络;优点是设计简单,但缺点是连接固定且不支持更改,带宽比较小,规模也较小。这种硬连接设计也可以支持server之间的互联,不过非常有限。另一种是通过专用交换机,比如nvlink switch,nvlinkswitch是nvidia公司开发的一种用于连接多个gpu设备的特殊类型的交换机,优点是性能高,灵活性好,缺点是需要额外设计switch芯片,nvlink switch是nvidia独有的技术和产品,只有像nvidia量级的公司在资源、资金、技术实力和市场影响力等方面具备优势才有这个能力,其他中小型gpu厂商很难复制或跟进,无法像nvidia一样提供类似的特殊互联解决方案。

4、此外,nvidia也在推进更新一代的gpu互联方案,如图3所示,在最新的gracehopper超级芯片架构中,dpu(data processing unit)是nic的升级,主要增加了更多的数据处理和智能化功能。ib交换网络和以太网互联网络类似,实现了所有cpu和gpu之间的数据互联。grace hopper架构最主要的变化,在于增加的nvlink compute-to-compute互联网络,可用于完成高达256个gpu和gpu之间的直接高性能数据交换。因此,对于同一个group内的256个gpu之间的数据交换,数据可以不通过cpu和dpu转发,而是直接通过nvswitch进行交换;对于不同group之间的gpu的数据交换,则还是需要经过cpu和dpu,然后通过ib的数据交换网络完成交换。grace hopper的主要缺陷在于nvlink是nvidia私有的互联协议,因此其他市场上的gpu厂商无法广泛的使用该解决方案。另外一个缺陷是nvlink现在只能支持高达256个gpu互联,进一步限制了其规模。


技术实现思路

1、根据本专利技术实施例,为解决现有技术上述不足,提供了一种实现gpu之间数据交换的方法,包含如下步骤:

2、接收gpu的输入数据;

3、转换输入数据为符合以太网协议的数据包格式并封装;

4、决策发送路由;

5、传输封装的数据包。

6、通过本专利技术第一实施例方法的步骤,实现了从gpu数据到以太网数据的转换和交换,进一步可采用以太网或者兼容以太网的多层交换架构,该方法确保了基于以太网架构下的高性能、低延迟的gpu数据互联,打破了传统的gpu的直接数据交换,需要gpu现私有的交换报文协议的现状。

7、根据本专利技术第二实施例,提供了一种数据交换系统,用于实现gpu之间数据交换,包含:接口模块,数据交换模块,协议转换模块和管理模块,接口模块包含若干接口,实现与外部的数据交互;数据交换模块实现接口以及内部各模块之间数据交换,协议转换模块解析、处理并转换输入数据的协议,管理模块实现数据管理和协同计算。

8、优选地,接口模块包含若干主机接口、从设备接口和网络接口。

9、优选地,数据交换模块、接口模块均通过pcie协议实现数据交换。

10、优选地,接口模块的从设备接口、网络接口均混合pcie接口和私有协议接口。

11、优选地,接口模块包含2个主机接口和8个从设备接口。

12、优选地,接口模块包含若干从设备接口和网络接口。

13、根据本专利技术第二实施例的数据交换系统,通过设计基于以太网的架构,实现gpu之间直接数据交换,实现高性能、低延迟,高速高效的gpu数据互联,可应用现有的高容量以太网交换机,使得该数据交换系统可以被市场上多数gpu厂商采用,协议转换芯片可用于构建高性能计算、数据中心和人工智能计算等gpu集群架构方案,相较于龙头公司把控的现有技术,具有低门槛,高通用的特点。

14、与此同时,本实施例的数据交换既可以使用现有的以太网交换机,也可以使用私有的交换报文和协议来实现,在技术成熟后,进一步设计出高容量低延迟的私有交换机,可以进行迭代,从而可以实现比grace hopper方案更灵活广泛的应用。

15、根据本专利技术第三实施例的协议转换芯片,包括第二实施例的数据交换系统。

16、优选地,协议转换芯片通过pcie和外部cpu、若干gpu分别连接,协议转换芯片包含以太网接口,协议转换芯片融合nic芯片。

17、对于传统的gpu的直接数据交换,需要gpu实现私有的交换报文和协议,需要设计私有协议报文交换机,由于gpu的数据交换容量很大,其芯片的设计成本和技术风险不可控。而基于第一、第二实施例的协议转换芯片,能够融合传统的pcie switch和nic功能,进一步复用cpu和gpu的带宽资源,能够有效的降低自身硬件以及服务器的成本,提高整本文档来自技高网...

【技术保护点】

1.一种实现GPU之间数据交换的方法,其特征在于,包含如下步骤:

2.一种实现权利要求1所述方法的数据交换系统,其特征在于,包含:

3.如权利要求2所述的数据交换系统,其特征在于,所述接口模块包含若干主机接口、若干从设备接口和若干网络接口。

4.如权利要求3所述的数据交换系统,其特征在于,所述数据交换模块、接口模块均通过PCIe协议实现数据交换。

5.如权利要求3所述的数据交换系统,其特征在于,所述接口模块的从设备接口、网络接口均混合PCIe接口和私有协议接口。

6.如权利要求3~5任一项所述的数据交换系统,其特征在于,所述接口模块包含2个主机接口和8个从设备接口。

7.如权利要求2所述的数据交换系统,其特征在于,所述接口模块包含若干从设备接口和网络接口。

8.一种协议转换芯片,其特征在于,包括权利要求2~7任一项所述的数据交换系统。

9.如权利要求8所述的协议转换芯片,其特征在于,所述协议转换芯片通过PCIe和外部CPU、若干GPU分别连接,所述协议转换芯片包含以太网接口,所述协议转换芯片融合NIC芯片。

10.一种电子设备,其特征在于,包括权利要求8所述的协议转换芯片,所述电子设备中协议转换芯片的个数等于外部GPU高速数据接口的个数。

...

【技术特征摘要】

1.一种实现gpu之间数据交换的方法,其特征在于,包含如下步骤:

2.一种实现权利要求1所述方法的数据交换系统,其特征在于,包含:

3.如权利要求2所述的数据交换系统,其特征在于,所述接口模块包含若干主机接口、若干从设备接口和若干网络接口。

4.如权利要求3所述的数据交换系统,其特征在于,所述数据交换模块、接口模块均通过pcie协议实现数据交换。

5.如权利要求3所述的数据交换系统,其特征在于,所述接口模块的从设备接口、网络接口均混合pcie接口和私有协议接口。

6.如权利要求3~5任一项所述的数据交换系统,其特征在...

【专利技术属性】
技术研发人员:舒伟峰蔡烽孟昭华陈清华
申请(专利权)人:云合智网上海技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1