本发明专利技术公开了基于混合流水线并行的边缘端协同深度神经网络训练方法及系统,该方法包括:获取深度神经网络模型配置参数、各终端设备本地计算能力参数和各终端设备点对点通信带宽参数;结合深度神经网络模型配置参数、各终端设备本地计算能力参数和终端设备点对点通信带宽参数对深度神经网络模型协同训练过程进行吞吐量优化建模;通过两阶段负载分配方案对混合流水线并行架构的模型的配制参数进行调整优化;通过基于混合流水线并行架构的优化模型加载训练数据,得到协同训练结果。通过使用本发明专利技术,突破了单个边缘设备的资源池,实现了在多边缘智能设备上进行深度神经网络模型资源高效的协同训练。本发明专利技术可广泛应用于神经网络技术领域。经网络技术领域。经网络技术领域。
【技术实现步骤摘要】
基于混合流水线并行的边缘端协同深度神经网络训练方法
[0001]本专利技术涉及神经网络
,尤其涉及基于混合流水线并行的边缘端协同深度神经网络训练方法。
技术介绍
[0002]近年来,深度神经网络模型的发展促进了大规模智能应用和服务的出现,并融入到了人们的日常生活中。目前,深度神经网络模型的训练需要模型服务提供商收集大量的用户隐私数据进行学习。然而,用户对于数据隐私安全问题的担忧和数据隐私保护相关法律的产生需要我们寻求新的方法,以在保护用户数据隐私的前提下进行深度神经网络模型的训练。
[0003]在端训练是一种新型深度神经网络模型训练模式,它在产生数据的用户端边缘智能设备上进行模型训练,例如移动设备、智能网关和智能家居,避免了将敏感的用户隐私数据泄露给模型服务提供商。然而,模型训练需要大量的计算资源和资源需求,而边缘智能设备的计算资源有限,这对端训练提出了严峻的挑战。已有的一些技术方案,如模型剪枝、结构化搜索、量化和知识蒸馏等,通过对深度神经网络模型进行裁剪和压缩来减少计算时间和计算资源的需求。另外,一些技术通过资源调度优化和异构计算单元并行来充分挖掘单个边缘智能设备的计算资源和算力潜力。然而这些方法都存在缺陷,对深度神经网络模型进行裁剪和压缩,虽然减少了深度神经网络模型训练所需的计算量和计算资源,但同时会影响模型的推理精度和计算性能,对用户服务质量产生严重影响。另外一些技术通过资源调度优化和异构计算单元并行来充分发掘单个边缘智能设备的计算潜力,但这始终无法突破单个边缘智能设备的计算资源的瓶颈。数据并行、流水线并行和混合流水线并行架构是最普适的深度神经网络分布式与并行训练范式。然而,已有的方法都是针对于云数据中心中算力和通信资源充足的同构加速器集群设计的。在边缘场景中,智能设备有着计算和通信资源受限,设备计算速度异构的特点。为云数据中心设计的数据并行和流水线并行,无法直接有效的应用于边缘场景中。因此,仍然无法解决边缘智能设备的计算资源瓶颈,实现多个边缘智能设备的协同训练。
技术实现思路
[0004]为了解决上述技术问题,本专利技术的目标是提供基于混合流水线并行的边缘端协同深度神经网络训练方法,通过混合流水线并行规划,突破了单个边缘设备的资源池,实现了在多边缘智能设备上进行深度神经网络模型资源高效的协同训练。
[0005]本专利技术所采用的第一技术方案是:基于混合流水线并行的边缘端协同深度神经网络训练方法,包括以下步骤:
[0006]对各终端设备进行深度神经网络模型的安装训练,得到深度神经网络模型配置参数和各终端设备本地计算能力参数;
[0007]对各终端设备之间进行模拟数据传输,得到各终端设备点对点通信带宽参数;
[0008]结合深度神经网络模型配置参数、各终端设备本地计算能力参数和终端设备点对点通信带宽参数对深度神经网络模型协同训练过程进行吞吐量优化建模,得到基于混合流水线并行架构的模型;
[0009]通过两阶段负载分配方案对混合流水线并行架构的模型的配制参数进行调整,得到基于混合流水线并行架构的优化模型;
[0010]通过基于混合流水线并行架构的优化模型加载训练数据,得到协同训练结果。
[0011]进一步,所述对各终端设备进行深度神经网络模型的安装训练,得到深度神经网络模型配置参数和各终端设备本地计算能力参数这一步骤,其具体包括:
[0012]在各终端设备将深度神经网络模型安装至本地计算环境;
[0013]获取本地历史输入样例并执行离线执行深度神经网络训练任务,得到深度神经网络模型每一层的参数和相邻层之间的中间特征所占用内存空间大小;
[0014]对各终端设备训练过程的时间进行记录,得到深度神经网络模型每一层前向和后向传播所需执行时间。
[0015]通过该优选步骤,获取深度神经网络模型中间特征的内存占有情况和深度神经网络模型各层的执行时间,为基于混合流水线并行架构的模型构建提供数据准备。
[0016]进一步,所述结合深度神经网络模型配置参数、各终端设备本地计算能力参数和终端设备点对点通信带宽参数对深度神经网络模型协同训练过程进行吞吐量优化建模,得到基于混合流水线并行架构的模型这一步骤,其具体包括:
[0017]对深度神经网络模型的所有网络层进行划分,得到基于多个串联的层子集的阶段模型;
[0018]对各个终端设备进行集合分配,得到基于设备组串联的混合流水线并行架构;
[0019]基于深度神经网络模型配置参数对阶段模型进行内存分配,得到阶段模型的内存开销;
[0020]对基于混合流水线并行架构的阶段模型训练的时间过程进行划分,得到等待阶段、执行阶段和同步阶段;
[0021]基于深度神经网络模型配置参数、各终端设备本地计算能力参数和终端设备点对点通信带宽参数对等待阶段、执行阶段和同步阶段进行分段建模,得到基于混合流水线并行架构的模型。
[0022]通过该优选步骤,初步建立了基于混合流水线并行架构的模型,设置了阶段模型参数、设备参数、时间参数和内存参数,其中混合流水线并行架构模型训练一次小批量数据所需总时间是评价模型性能的重要参数。
[0023]进一步,所述基于混合流水线并行架构的模型,其表达式如下:
[0024][0025][0026][0027][0028]其中,HPP
‑
Round Latency表示对混合流水线并行架构模型训练一次小批量数据所需总时间,s表示混合流水线架构中总的步骤数,表示等待阶段所需时间,表示执行阶段所需时间,表示同步阶段所需时间,表示完成步骤i前向执行所需要的时间,表示完成步骤i反向执行所需要的时间,G
s
表示执行步骤关联的设备组,D
s
表示执行步骤关联的阶段模型,w
l
表示第l层深度神经网络模型参数占用内存空间大小,B
d,f
′
表示设备f和设备d
′
之间点对点的通信带宽,M表示小批量数据被拆分微批量数据的个数,dm表示混合流水线中执行阶段中空闲时间最少的步骤,表示完成步骤dm前向执行所需要的时间,表示完成步骤dm反向执行所需要的时间。
[0029]进一步,所述通过两阶段负载分配方案对混合流水线并行架构的模型的配制参数进行调整,得到基于混合流水线并行架构的优化模型这一步骤,其具体包括:
[0030]通过负载分配算法对训练负载进行均衡分配,得到混合流水线并行架构各设备组的执行负载;
[0031]通过动态规划算法对混合流水线并行架构进行空间搜索,得到设备组最大执行时间最小化的混合流水线并行架构配置参数;
[0032]基于混合流水线并行架构配置参数对混合流水线并行架构的模型进行配置,得到基于混合流水线并行架构的优化模型。
[0033]通过该优选步骤,将当前执行时间最慢的设备的部分负载转移到还有空闲内存的执行时间最快的设备上,使设备组中的设备的最大执行时间最小化,得到近似最优的负载划分和设备编排方案。<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于混合流水线并行的边缘端协同深度神经网络训练方法,其特征在于,包括以下步骤:对各终端设备进行深度神经网络模型的安装训练,得到深度神经网络模型配置参数和各终端设备本地计算能力参数;对各终端设备之间进行模拟数据传输,得到各终端设备点对点通信带宽参数;结合深度神经网络模型配置参数、各终端设备本地计算能力参数和终端设备点对点通信带宽参数对深度神经网络模型协同训练过程进行吞吐量优化建模,得到基于混合流水线并行架构的模型;通过两阶段负载分配方案对混合流水线并行架构的模型的配制参数进行调整,得到基于混合流水线并行架构的优化模型;通过基于混合流水线并行架构的优化模型加载训练数据,得到协同训练结果。2.根据权利要求1所述基于混合流水线并行的边缘端协同深度神经网络训练方法,其特征在于,所述对各终端设备进行深度神经网络模型的安装测量,得到深度神经网络模型配置参数和各终端设备本地计算能力参数这一步骤,其具体包括:在各终端设备将深度神经网络模型安装至本地计算环境;获取本地历史输入样例并执行离线执行深度神经网络训练任务,得到深度神经网络模型每一层的参数和相邻层之间的中间特征所占用内存空间大小;对各终端设备训练过程的时间进行记录,得到深度神经网络模型每一层前向和后向传播所需执行时间。3.根据权利要求1所述基于混合流水线并行的边缘端协同深度神经网络训练方法,其特征在于,所述结合深度神经网络模型配置参数、各终端设备本地计算能力参数和终端设备点对点通信带宽参数对深度神经网络模型协同训练过程进行吞吐量优化建模,得到基于混合流水线并行架构的模型这一步骤,其具体包括:对深度神经网络模型的所有网络层进行划分,得到基于多个串联的层子集的阶段模型;对各个终端设备进行集合分配,得到基于设备组串联的混合流水线并行架构;基于深度神经网络模型配置参数对阶段模型进行内存分配,得到阶段模型的内存开销;对基于混合流水线并行架构的阶段模型训练的时间过程进行划分,得到等待阶段、执行阶段和同步阶段;基于深度神经网络模型配置参数、各终端设备本地计算能力参数和终端设备点对点通信带宽参数对等待阶段、执行阶段和同步阶段进行分段建模,得到基于混合流水线并行架构的模型。4.根据权利要求3所述基于混合流水线并行的边缘端协同深度神经网络训练方法,其特征在于,所述基于混合流水线并行架构的模型,其表达式如下:
其中,HPP
‑
Round Latency表示对混合流水线并行架构模型训练一次小批量数据所需总时间,s表示混合流水线架构中总的步骤数,表示等待阶段所需时间,表示执行阶段所需时间,表示同步阶段所需时间,表示完成步骤i前向执行所需要的时间,表示完成步骤i反向执行所需要的时间,G
s
表示执行步骤关联的设备组,D
s
表示执行步骤关联的阶段模型,w
l
表示第l层深度神经网络模型参数占用内存空间大小,B
d,d
′
表示设备d和设备d
′
之间点对点的通信带宽,M表示小批量数据被拆分微批量数据的个数,dm表示混合流水线中执行阶段中空闲时间最少的步骤,表示完成步骤dm前向执行所需要的时间,表示完成步骤dm反向执行所需要的时间。5.根...
【专利技术属性】
技术研发人员:叶盛源,曾烈康,陈旭,
申请(专利权)人:中山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。