一种视觉大模型分布式训练方法及系统技术方案

技术编号:31080798 阅读:19 留言:0更新日期:2021-12-01 11:56
本发明专利技术公开了一种视觉大模型分布式训练方法及系统,所述方法包括:构建分布式训练系统,包括主控服务器、多个GPU服务器、分布式存储服务器和存储网络交换机;根据视觉大模型训练所用数据集的大小,确定数据加载方式;根据所述视觉大模型的结构特点,对所述视觉大模型中不同类型的网络层组的参数量和计算量进行评估,结合GPU的算力和缓存能力对所述视觉大模型进行分解,确定所述视觉大模型的并行训练方案;采用混合并行模式进行模型训练,基于所述主控服务器进行模型聚合、全局模型更新和模型分发,在训练过程中每隔若干周期利用训练集和验证集对所述视觉大模型进行测评,当所述视觉大模型收敛后停止训练;本发明专利技术实现了视觉大模型的高效训练。模型的高效训练。模型的高效训练。

【技术实现步骤摘要】
一种视觉大模型分布式训练方法及系统


[0001]本专利技术涉及计算机应用
,尤其涉及一种视觉大模型分布式训练方法及系统。

技术介绍

[0002]随着计算机视觉、人工智能、通信技术、处理器硬件等应用技术的飞速发展,视频监控设备以其蕴含信息丰富、支撑任务类型多、成本低等巨大优势,在生产、生活及城市管理等诸多方面都发挥着日益重要的作用。目前,各类视频设备的部署与应用日益广泛,视觉数据的数据量也急剧增加,如何有效和充分地使用和处理视觉大数据是关系各应用领域发展的重要课题。
[0003]在基于人工智能的视觉应用领域,针对具体任务的有标签训练数据的规模也大幅增长,例如:对于图像分类任务,ImageNet(用于视觉对象识别软件研究的大型可视化数据库)数据集包含超过1400万张图片,覆盖2万多个类别;对于行为识别任务,Kinetics

700数据集包含大约65万段视频,覆盖700个动作类。显而易见地,这些数据集的规模还在不断增长中,尤其是视频数据集所占用的存储空间会远远超过同等数量的图片数据,而这对于日益增多的视频类应用是不可或缺的,能够提高算法模型的性能和普适性。同时,大规模数据集使得大规模模型的训练成为可能,基于大模型强大的表达能力,能够更好地解决视觉应用中的人工智能算法学习问题,这些性能先进的视觉大模型能够为安防、交通、警务等行业的应用带来极大的便利。
[0004]然而,这将给训练过程带来大数据和大模型的双重挑战,一般的单机训练方法在计算速度和存储能力上都无法满足要求,采用多机分布式训练和大容量存储设施是应对该挑战的主流对策,考虑到目前单块GPU已经具备了很强的运算能力,多机分布式训练时长主要受限于较长的通信时延。
[0005]现有的方法没有考虑模型较大,例如亿级甚至十亿级参数量的模型训练问题,对模型划分方法、大规模数据的存储和加载方法也没有高效的解决方案,难以解决利用视觉大数据对大模型进行高效训练的问题。
[0006]因此,现有技术还有待于改进和发展。

技术实现思路

[0007]本专利技术的主要目的在于提供一种视觉大模型分布式训练方法及系统,旨在解决现有技术中受数据传输速率制约,难以利用视觉大数据对视觉大模型进行高效训练的问题。
[0008]为实现上述目的,本专利技术提供一种视觉大模型分布式训练方法,所述视觉大模型分布式训练方法包括如下步骤:
[0009]构建分布式训练系统,所述分布式训练系统包括主控服务器、多个GPU服务器、分布式存储服务器和存储网络交换机;
[0010]根据视觉大模型训练所用数据集的大小,确定数据加载方式,所述数据加载方式
包括内存加载或者分布式存储系统加载;
[0011]根据所述视觉大模型的结构特点,对所述视觉大模型中不同类型的网络层组的参数量和计算量进行评估,结合GPU的算力和缓存能力对所述视觉大模型进行分解,确定所述视觉大模型的并行训练方案;
[0012]采用混合并行模式进行模型训练,基于所述主控服务器进行模型聚合、全局模型更新和模型分发,在训练过程中每隔若干周期利用训练集和验证集对所述视觉大模型进行测评,当所述视觉大模型收敛后停止训练。
[0013]可选地,所述的视觉大模型分布式训练方法,其中,所述构建分布式训练系统,所述分布式训练系统包括主控服务器、多个GPU服务器、分布式存储服务器和存储网络交换机,具体包括:
[0014]所述主控服务器用于对GPU服务器集群的管理与配置、训练过程协同、模型聚合与更新、以及全局模型的存储;
[0015]所述GPU服务器用于从本地内存或者通过所述存储网络交换机从所述分布式存储服务器获取训练和验证数据,完成具体的模型训练任务;
[0016]所述分布式存储服务器用于超大规模数据集的存取和备份,为所述GPU服务器提供高速数据读取服务;
[0017]所述存储网络交换机用于连接多个所述GPU服务器和所述分布式存储服务器,为数据访问提供直接的地址映射和高速数据传输通道。
[0018]可选地,所述的视觉大模型分布式训练方法,其中,所述GPU服务器集群包括多个GPU服务器;
[0019]所述分布式存储服务器包括一系列具有独立控制器的存储服务器集群,存储介质采用全SSD阵列或者SSD与HDD混合阵列构成,对于SSD与HDD混合阵列,将SSD配置为缓存空间;前端接口使用IB接口或FC接口。
[0020]可选地,所述的视觉大模型分布式训练方法,其中,所述存储网络交换机为FC

NVMe交换机、IB交换机、FC交换机或者万兆交换机中的任意一种。
[0021]可选地,所述的视觉大模型分布式训练方法,其中,所述存储网络交换机和所述分布式存储服务器共同构成所述分布式存储系统。
[0022]可选地,所述的视觉大模型分布式训练方法,其中,所述根据视觉大模型训练所用数据集的大小,确定数据加载方式,所述数据加载方式包括内存加载或者分布式存储系统加载,具体包括:
[0023]获取所述GPU服务器的硬件资源信息,所述硬件资源信息包括内存大小、显存大小、算力大小以及硬盘容量;
[0024]获取所述视觉大模型训练所用数据集占用的存储空间大小;
[0025]将所述数据集占用存储空间与所述GPU服务器内存进行比较,当所述数据集占用存储空间与所述GPU服务器内存之比小于预设阈值时,从所述GPU服务器内存中划分出一块空间专门用于存储数据集,在训练开始前事先将全部数据集加载至该内存专用存储空间中供训练时直接读取;
[0026]若所述数据集的大小超过预设等级时,将所述数据集存储在所述分布式存储系统中,对于训练过程的每个迭代周期,多个所述GPU服务器通过所述存储网络交换机从所述分
布式存储服务器中并发地读取对应批量的数据,暂存至多个所述GPU服务器各自的内存中以供训练使用。
[0027]可选地,所述的视觉大模型分布式训练方法,其中,所述根据所述视觉大模型的结构特点,对所述视觉大模型中不同类型的网络层组的参数量和计算量进行评估,结合GPU的算力和缓存能力对所述视觉大模型进行分解,确定所述视觉大模型的并行训练方案,具体包括:
[0028]当所述视觉大模型为三维卷积神经网络时,根据所述三维卷积神经网络中不同类型网络层的特点,将所述三维卷积神经网络按照网络结构进行分组,得到若干卷积层组和全连接层组;
[0029]其中,卷积层参数量小计算量大,全连接层参数量大计算量小;
[0030]计算每个卷积层组和每个全连接层组的参数量及对应的一次训练过程所需占用的显存大小,评估一次训练过程所需的理论计算量,并与GPU板卡的算力和显存资源进行比对;
[0031]根据各个GPU板卡负载均衡原则对所述视觉大模型进行拆分,得到若干子模型,所述子模型包含一至多个网络层分组;
[0032]将主要由卷积层组成的子模型部署于多个GPU板卡上,用于数据并行训练,将主要由全连接层组成的子模型部署于其他若干本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉大模型分布式训练方法,其特征在于,所述视觉大模型分布式训练方法包括:构建分布式训练系统,所述分布式训练系统包括主控服务器、多个GPU服务器、分布式存储服务器和存储网络交换机;根据视觉大模型训练所用数据集的大小,确定数据加载方式,所述数据加载方式包括内存加载或者分布式存储系统加载;根据所述视觉大模型的结构特点,对所述视觉大模型中不同类型的网络层组的参数量和计算量进行评估,结合GPU的算力和缓存能力对所述视觉大模型进行分解,确定所述视觉大模型的并行训练方案;采用混合并行模式进行模型训练,基于所述主控服务器进行模型聚合、全局模型更新和模型分发,在训练过程中每隔若干周期利用训练集和验证集对所述视觉大模型进行测评,当所述视觉大模型收敛后停止训练。2.根据权利要求1所述的视觉大模型分布式训练方法,其特征在于,所述构建分布式训练系统,所述分布式训练系统包括主控服务器、多个GPU服务器、分布式存储服务器和存储网络交换机,具体包括:所述主控服务器用于对GPU服务器集群的管理与配置、训练过程协同、模型聚合与更新、以及全局模型的存储;所述GPU服务器用于从本地内存或者通过所述存储网络交换机从所述分布式存储服务器获取训练和验证数据,完成具体的模型训练任务;所述分布式存储服务器用于超大规模数据集的存取和备份,为所述GPU服务器提供高速数据读取服务;所述存储网络交换机用于连接多个所述GPU服务器和所述分布式存储服务器,为数据访问提供直接的地址映射和高速数据传输通道。3.根据权利要求2所述的视觉大模型分布式训练方法,其特征在于,所述GPU服务器集群包括多个GPU服务器;所述分布式存储服务器包括一系列具有独立控制器的存储服务器集群,存储介质采用全SSD阵列或者SSD与HDD混合阵列构成,对于SSD与HDD混合阵列,将SSD配置为缓存空间;前端接口使用IB接口或FC接口。4.根据权利要求2所述的视觉大模型分布式训练方法,其特征在于,所述存储网络交换机为FC

NVMe交换机、IB交换机、FC交换机或者万兆交换机中的任意一种。5.根据权利要求2所述的视觉大模型分布式训练方法,其特征在于,所述存储网络交换机和所述分布式存储服务器共同构成所述分布式存储系统。6.根据权利要求5所述的视觉大模型分布式训练方法,其特征在于,所述根据视觉大模型训练所用数据集的大小,确定数据加载方式,所述数据加载方式包括内存加载或者分布式存储系统加载,具体包括:获取所述GPU服务器的硬件资源信息,所述硬件资源信息包括内存大小、显存大小、算力大小以及硬盘容量;获取所述视觉大模型训练所用数据集占用的存储空间大小;将所述数据集占用存储空间与所述GPU服务器内存进行比较,当所述数据集占用存储
空间与所述GPU服务器内存之比小于预设阈值时,从所述GPU服务器内存中划分出一块空间专门用于存储数据集,在训练开始前事先将全部数据集加载至该内存专用存储空间中供训练时直接读取;若所述数据集的大小超过预设等级时,将所述数据集存储在所述分布式存储系统中,对于训练过程的每个迭代周期,多个所述GPU服务器通过所述存储网络交换机从所述分布式存储服务器中并发地读取对应批量的数据,暂存至多个所述GPU服务器各自的内存中以供训练使用。7.根据权利要求6所述的视觉大模型分布式训练方法,其特征在于,所述根据所述视觉大模型的结构特点,对所述视觉大模型中不同类型的网络层组的参数量和计算量进行评估,结合GPU的算力和缓存能力对所述视觉大模型进行...

【专利技术属性】
技术研发人员:白鑫贝李革王耀威纪雯
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1