一种视觉大模型分布式训练方法及系统技术方案

技术编号：31080798 阅读：19 留言：0更新日期：2021-12-01 11:56

本发明专利技术公开了一种视觉大模型分布式训练方法及系统，所述方法包括：构建分布式训练系统，包括主控服务器、多个GPU服务器、分布式存储服务器和存储网络交换机；根据视觉大模型训练所用数据集的大小，确定数据加载方式；根据所述视觉大模型的结构特点，对所述视觉大模型中不同类型的网络层组的参数量和计算量进行评估，结合GPU的算力和缓存能力对所述视觉大模型进行分解，确定所述视觉大模型的并行训练方案；采用混合并行模式进行模型训练，基于所述主控服务器进行模型聚合、全局模型更新和模型分发，在训练过程中每隔若干周期利用训练集和验证集对所述视觉大模型进行测评，当所述视觉大模型收敛后停止训练；本发明专利技术实现了视觉大模型的高效训练。模型的高效训练。模型的高效训练。

全部详细技术资料下载

【技术实现步骤摘要】
一种视觉大模型分布式训练方法及系统

[0001]本专利技术涉及计算机应用
，尤其涉及一种视觉大模型分布式训练方法及系统。

技术介绍

[0002]随着计算机视觉、人工智能、通信技术、处理器硬件等应用技术的飞速发展，视频监控设备以其蕴含信息丰富、支撑任务类型多、成本低等巨大优势，在生产、生活及城市管理等诸多方面都发挥着日益重要的作用。目前，各类视频设备的部署与应用日益广泛，视觉数据的数据量也急剧增加，如何有效和充分地使用和处理视觉大数据是关系各应用领域发展的重要课题。
[0003]在基于人工智能的视觉应用领域，针对具体任务的有标签训练数据的规模也大幅增长，例如：对于图像分类任务，ImageNet(用于视觉对象识别软件研究的大型可视化数据库)数据集包含超过1400万张图片，覆盖2万多个类别；对于行为识别任务，Kinetics
‑
700数据集包含大约65万段视频，覆盖700个动作类。显而易见地，这些数据集的规模还在不断增长中，尤其是视频数据集所占用的存储空间会远远超过同等数量的图片数据，而这对于日益增多的视频类应用是不可或缺的，能够提高算法模型的性能和普适性。同时，大规模数据集使得大规模模型的训练成为可能，基于大模型强大的表达能力，能够更好地解决视觉应用中的人工智能算法学习问题，这些性能先进的视觉大模型能够为安防、交通、警务等行业的应用带来极大的便利。
[0004]然而，这将给训练过程带来大数据和大模型的双重挑战，一般的单机训练方法在计算速度和存储能力上都无法满足要求，采用多机分布式训...

【技术保护点】

【技术特征摘要】
1.一种视觉大模型分布式训练方法，其特征在于，所述视觉大模型分布式训练方法包括：构建分布式训练系统，所述分布式训练系统包括主控服务器、多个GPU服务器、分布式存储服务器和存储网络交换机；根据视觉大模型训练所用数据集的大小，确定数据加载方式，所述数据加载方式包括内存加载或者分布式存储系统加载；根据所述视觉大模型的结构特点，对所述视觉大模型中不同类型的网络层组的参数量和计算量进行评估，结合GPU的算力和缓存能力对所述视觉大模型进行分解，确定所述视觉大模型的并行训练方案；采用混合并行模式进行模型训练，基于所述主控服务器进行模型聚合、全局模型更新和模型分发，在训练过程中每隔若干周期利用训练集和验证集对所述视觉大模型进行测评，当所述视觉大模型收敛后停止训练。2.根据权利要求1所述的视觉大模型分布式训练方法，其特征在于，所述构建分布式训练系统，所述分布式训练系统包括主控服务器、多个GPU服务器、分布式存储服务器和存储网络交换机，具体包括：所述主控服务器用于对GPU服务器集群的管理与配置、训练过程协同、模型聚合与更新、以及全局模型的存储；所述GPU服务器用于从本地内存或者通过所述存储网络交换机从所述分布式存储服务器获取训练和验证数据，完成具体的模型训练任务；所述分布式存储服务器用于超大规模数据集的存取和备份，为所述GPU服务器提供高速数据读取服务；所述存储网络交换机用于连接多个所述GPU服务器和所述分布式存储服务器，为数据访问提供直接的地址映射和高速数据传输通道。3.根据权利要求2所述的视觉大模型分布式训练方法，其特征在于，所述GPU服务器集群包括多个GPU服务器；所述分布式存储服务器包括一系列具有独立控制器的存储服务器集群，存储介质采用全SSD阵列或者SSD与HDD混合阵列构成，对于SSD与HDD混合阵列，将SSD配置为缓存空间；前端接口使用IB接口或FC接口。4.根据权利要求2所述的视觉大模型分布式训练方法，其特征在于，所述存储网络交换机为FC
‑
NVMe交换机、IB交换机、FC交换机或者万兆交换机中的任意一种。5.根据权利要求2所述的视觉大模型分布式训练方法，其特征在于，所述存储网络交换机和所述分布式存储服务器共同构成所述分布式存储系统。6.根据权利要求5所述的视觉大模型分布式训练方法，其特征在于，所述根据视觉大模型训练所用数据集的大小，确定数据加载方式，所述数据加载方式包括内存加载或者分布式存储系统加载，具体包括：获取所述GPU服务器的硬件资源信息，所述硬件资源信息包括内存大小、显存大小、算力大小以及硬盘容量；获取所述视觉大模型训练所用数据集占用的存储空间大小；将所述数据集占用存储空间与所述GPU服务器内存进行比较，当所述数据集占用存储
空间与所述GPU服务器内存之比小于预设阈值时，从所述GPU服务器内存中划分出一块空间专门用于存储数据集，在训练开始前事先将全部数据集加载至该内存专用存储空间中供训练时直接读取；若所述数据集的大小超过预设等级时，将所述数据集存储在所述分布式存储系统中，对于训练过程的每个迭代周期，多个所述GPU服务器通过所述存储网络交换机从所述分布式存储服务器中并发地读取对应批量的数据，暂存至多个所述GPU服务器各自的内存中以供训练使用。7.根据权利要求6所述的视觉大模型分布式训练方法，其特征在于，所述根据所述视觉大模型的结构特点，对所述视觉大模型中不同类型的网络层组的参数量和计算量进行评估，结合GPU的算力和缓存能力对所述视觉大模型进行...

【专利技术属性】
技术研发人员：白鑫贝，李革，王耀威，纪雯，
申请(专利权)人：北京大学深圳研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人