基于LSF的单主机多GPU分布式pytorch并行计算方法技术

技术编号：36882842 阅读：28 留言：0更新日期：2023-03-15 21:18

本发明专利技术涉及一种基于LSF的单主机多GPU分布式pytorch并行计算方法，属于计算机领域。该方法包括两个部分：第一部分：资源申请及调度；第二部分：使用资源进行深度学习模型的训练。使用一个进程来计算模型参数，然后在每个批处理期间将分发到每个GPU，每个GPU计算各自的梯度，汇总到GPU0中进行求平均，由GPU0进行反向传播更新参数，再把模型的参数由GPU0传播给其他的GPU。GPU利用率通常很低。nn.DataParallel要求所有的GPU都在同一个节点上，而且不能使用Apex进行混合精度训练。相较于现有的dataparrell方式，速度更快，效率高，GPU占用更高。高。高。

全部详细技术资料下载

【技术实现步骤摘要】
基于LSF的单主机多GPU分布式pytorch并行计算方法

[0001]本专利技术属于计算机领域，涉及基于LSF的单主机多GPU分布式pytorch并行计算方法。

技术介绍

[0002]近些年来，深度学习技术在图像和自然语言处理等方向发展迅速。为了使模型具有更高的精度和更强的泛化能力，在设计时模型结构往往更深更复杂，训练用的数据也更庞大。其中模型迭代时的前向传播与反向传播步骤伴随着大量计算，是典型的计算密集型任务。尽管硬件上GPU(Graphics Processing Unit
‑
图形处理器)可以提供更强的算力，模型本身可以通过算法进行优化，加快收敛速度，但单机能提供的资源依旧无法满足大规模的训练任务。分布式计算通过将训练任务切分并使用多节点并行执行可以有效缓解了这一问题。
[0003]PyTorch是一个开源的Python机器学习库，基于Torch，用于自然语言处理等应用程序。2017年1月，由Facebook人工智能研究院(FAIR)基于Torch推出了PyTorch。它是一个基于Python的可续计算包，提供两个高级功能：
[0004]1、具有强大的GPU加速的张量计算(如NumPy)。
[0005]2、包含自动求导系统的深度神经网络。
[0006]LSF(load sharing facility)是IBM旗下一个工业导向，商业级的软件。它强大的资源调度管理能力，使其能以更快的速度，更均衡的负载，更可靠的表现及更低的成本去分配多种IT资源执行分布式任务。对于...

【技术保护点】

【技术特征摘要】
1.基于LSF的单主机多GPU分布式pytorch并行计算方法，其特征在于：该方法包括两个部分：第一部分：资源申请及调度；第二部分：使用资源进行深度学习模型的训练。2.根据权利要求1所述的基于LSF的单主机多GPU分布式pytorch并行计算方法，其特征在于：所述第一部分在LSF集群下完成；通过LSF的指令申请计算资源，包括：要创建的作业总数，其值等于申请的GPU总数；单台主机的GPU个数。3.根据权利要求2所述的基于LSF的单主机多GPU分布式pytorch并行计算方法，其特征在于：所述第二部分在程序内部实现；首先每个LSF作业独占一个进程和GPU，深度学习模型基于pytorch框架；第一步，每个作业从环境中读取'LSF_PM_TASKID'作为每个任务的rank；第二步，使用torch.distributed库初始化分布式进程组，参数包括rank,world_size,init_method,backend；rank用来指代每一个进程，world_size是进程总数，init_method用于表明从何处及如何发现其他进程，backend用于指明使用的后端通信方法，该发明中使用nccl作为通信后端；NCCL是NVIDIA公司为GPU并行计算开发的通信后端；第三步，读取训练用数据集；数据集采用pytorch中的torch.utils.data.distribu...

【专利技术属性】
技术研发人员：蒋鹏飞，单晓冬，徐恩格，王小龙，鲍复劼，
申请(专利权)人：苏州国科综合数据中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人