一种用于分布式环境下多深度学习任务的异构GPU分配系统和方法技术方案

技术编号：34330351 阅读：78 留言：0更新日期：2022-07-31 01:57

本发明专利技术属于人工智能下的深度学习领域，公开了一种用于分布式环境下多深度学习任务的异构GPU分配系统和方法，所述系统包括GPU Profile模块、任务信息采集模块、GPU选择模块和深度学习训练模块；本发明专利技术的一种用于分布式环境下多深度学习任务的异构GPU分配方法可以通过将不同计算能力的GPU分配给对应需求的任务，将模型层次复杂且批次数据量大的任务适配到性能最佳的GPU且显存足够存储的节点上运行，加快需要更长时间做深度学习训练的任务，从而明显提高异构环境下的多任务执行效率；而且当多深度学习任务并发执行，多深度学习能够整体更快地完成，可以节约程序员或用户等待结果的时间。果的时间。果的时间。

A heterogeneous GPU allocation system and method for multi depth learning tasks in distributed environment

全部详细技术资料下载

【技术实现步骤摘要】
一种用于分布式环境下多深度学习任务的异构GPU分配系统和方法

[0001]本专利技术属于人工智能下的深度学习领域，尤其涉及一种用于分布式环境下多深度学习任务的异构GPU分配系统和方法。

技术介绍

[0002]如今，深度神经网络借助大规模数据的训练取得很精确的模型，从而促使深度神经网络在图像分类、语音识别、无人驾驶等领域不断应用。这些趋势导致深度神经网络模型变得越来越复杂，也促使加速深度神经网络训练的设备不断出现，如GPU、FPGA、TPU等。因此如何更高效利用分布式环境中的异构加速设备逐渐成为重要的热点问题。
[0003]多任务在分布式异构GPU环境下并发做深度学习训练逐渐成为普遍现象，其中一种场景是分布式环境下的多深度学习任务进行协同训练，且每个任务需要完成一项训练指标，面对这种场景，如何设计高效的GPU分配方案来提高多深度学习训练任务的整体执行效率成为重要研究领域。
[0004]目前深度学习训练框架传统的GPU分配方法一般是在分布式环境启动多任务时候，静态指定GPU参数，由深度学习训练框架提供的GPU选择参数，来调度不同需求的任务到对应的GPU上做深度学习训练；深度学习训练框架还提供使用所有可用的GPU分配方法，这使得每个任务的批次数据分摊到所有GPU做深度学习训练，由于计算能力强的GPU很快训练完均摊的小批次数据，这种GPU分配方案造成计算能力强的GPU会处于较长时间的空闲，所带来的影响是计算能力强的GPU利用率不高。
[0005]由于分布式环境下传统的多深度学习任务的GPU分配方案没有...

【技术保护点】

【技术特征摘要】
1.一种用于分布式环境下多深度学习任务的异构GPU分配系统，其特征在于，包括GPU Profile模块、任务信息采集模块、GPU选择模块和深度学习训练模块；所述GPU Profile模块：负责检测异构环境下的机器是否含有GPU、GPU性能强弱、GPU显存大小；所述任务信息采集模块：负责采集每个任务的训练模型、数据批次大小以及每个任务的批次数据的训练时间；所述GPU选择模块：负责目标GPU选择，以及任务批次数据从内存缓存空间分发到GPU上；所述深度学习训练模块：负责将GPU选择模块所下发的决策GPU信息运用到该模块，并获取任务模型信息和数据批次大小信息，从而在该GPU执行对应的网络层次深度学习训练计算。2.一种利用如权利要求1所述的用于分布式环境下多深度学习任务的异构GPU分配系统进行异构GPU分配的方法，其特征在于，包括如下步骤：S1，多深度学习训练任务初始化；S2，多深度学习训练任务冷启动；S3，多深度学习训练任务GPU方案动态调整；S4，多深度学习训练任务循环迭代。3.根据权利要求2所述的用于分布式环境下多深度学习任务的异构GPU分配方法，其特征在于，所述S1在每个深度学习训练任务初始化时，GPU Profile模块采集异构环境下各个GPU特征信息，并记录任务启动自带参数信息，这些信息是GPU选择模块的参考因素。4.根据权利要求2所述的用于分布式环境下多深度学习任务的异构GPU分配方法，其特征在于，所述S2在多任务的深度学习训练第一个Epoch启动时，GPU选择模块给出一个多任务深度学习训练冷启动的GPU分配方案。5.根据权利要求4所述的用于分布式环境下多深度学习任务的异构GPU分配方法，其特征在于，所述S2包括如下具体步骤：S21，根据任务的模型类型作为第一优先级排序因素，对所有任务按任务的深度学习训练网络层次大小进行排序；S22，根据任务的批次数据大小作为第二优先级排序因素，对所有任务按任务深度学习训练的数据批次大小再进行排序；S23，根据GPU的计算能力作为第一优先级排序因素，对所有GPU按GPU计算能力强弱进行排序；S24，根据GPU的显存大小作为第二优先级排序因素，对所有GPU按GPU显存大小再进行排序；S25，然后根据S22，S24步骤排好的顺序，从第一个到最后一个GPU依次按照该顺序分配给排好序第一个到最后一个任务，一一映射的信息记录在全局GPU分配表中，作为冷启动的分配方案。6.根据权利要求2所述的用于分布式环境下多深度学习任务的异构GPU分配方法，其特征在于，所述S3根据冷启动方案，启动多深度学习任务的第一个Epoc...

【专利技术属性】
技术研发人员：周方，何水兵，秦亦，朱春节，方启明，曾令仿，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人