【技术实现步骤摘要】
一种机器节点并行处理方法、装置、计算机设备及存储介质
本专利技术涉及人工智能领域,尤其涉及一种机器节点并行处理方法、装置、计算机设备及存储介质。
技术介绍
目前,深度神经网络模型已成为当前人工智能领域的基石,但当前绝大多数模型都依赖海量数据支撑的监督学习模式,随之而来的是模型的容量越来越大(以自然语言处理领域模型GPT3为例,模型参数达到1750亿),从而带来了训练模型的巨大挑战;具体体现在:单张显卡的显存已不能容纳整个模型进行训练,需要在多张显卡上进行分布式训练;用于训练的样本数据量往往达到TB级别,从而需要将数据分发到不同显卡上进行机器节点并行处理方法。现有技术中的分布式训练方法总体分为数据并行与模型并行;但现有方法还存在以下问题:(1)数据并行中一直存在梯度过期问题,不管是同步更新还是异步更新中都存在;(2)控制梯度更新的参数服务器在网络通信高峰时段往往成为瓶颈,容易出现宕机获负载过重的情形,从而加剧梯度过期问题的影响;(3)模型并行需要对模型的内在网络结构有着深刻认识,设计的难度很高,设计不好会导致不能减少训练的开销(包括时间和存储空间)。
技术实现思路
本专利技术的目的是提供一种多机器节点并行处理方法、装置、计算机设备及存储介质,旨在解决现有分布式训练方法存在的梯度过期、网络通信负载过重等问题。第一方面,本专利技术实施例提供了一种多机器节点并行处理方法,其包括:预先设置参与神经网络模型训练的多个机器节点,选择每一所述机器节点的物理特征指标并 ...
【技术保护点】
1.一种多机器节点并行处理方法,其特征在于,包括:/n预先设置参与神经网络模型训练的多个机器节点,选择每一所述机器节点的物理特征指标并进行预处理,得到每一所述机器节点对应的多维度向量;/n根据每一所述机器节点对应的多维度向量,将各个所述机器节点划分至不同的节点簇;/n从每一所述节点簇中选出一个机器节点作为自身节点簇的参数同步临时服务器,并在每一梯度交换周期内接收自身节点簇中的其他机器节点发送的当前梯度信息,并计算自身节点簇所有机器节点的当前簇内平均梯度;/n在当前梯度交换周期后,自身节点簇与其他节点簇的参数同步临时服务器之间交换各自的当前簇内平均梯度,并计算之前的所有梯度交换周期中其他节点簇发送的簇内平均梯度对自身节点簇的总贡献度,并根据总贡献度和其他节点簇发送的当前簇内平均梯度计算得到自身节点簇的待更新簇内平均梯度,并根据自身节点簇的待更新簇内平均梯度对自身节点簇进行模型参数更新;/n在预设次数的梯度交换周期后,重新选择每一所述节点簇中的参数同步临时服务器,并继续神经网络模型训练,直至训练结束。/n
【技术特征摘要】
1.一种多机器节点并行处理方法,其特征在于,包括:
预先设置参与神经网络模型训练的多个机器节点,选择每一所述机器节点的物理特征指标并进行预处理,得到每一所述机器节点对应的多维度向量;
根据每一所述机器节点对应的多维度向量,将各个所述机器节点划分至不同的节点簇;
从每一所述节点簇中选出一个机器节点作为自身节点簇的参数同步临时服务器,并在每一梯度交换周期内接收自身节点簇中的其他机器节点发送的当前梯度信息,并计算自身节点簇所有机器节点的当前簇内平均梯度;
在当前梯度交换周期后,自身节点簇与其他节点簇的参数同步临时服务器之间交换各自的当前簇内平均梯度,并计算之前的所有梯度交换周期中其他节点簇发送的簇内平均梯度对自身节点簇的总贡献度,并根据总贡献度和其他节点簇发送的当前簇内平均梯度计算得到自身节点簇的待更新簇内平均梯度,并根据自身节点簇的待更新簇内平均梯度对自身节点簇进行模型参数更新;
在预设次数的梯度交换周期后,重新选择每一所述节点簇中的参数同步临时服务器,并继续神经网络模型训练,直至训练结束。
2.根据权利要求1所述的机器节点并行处理方法,其特征在于,所述预先设置参与神经网络模型训练的多个机器节点,选择每一所述机器节点的物理特征指标并进行预处理,得到每一所述机器节点对应的多维度向量,包括:
预先设置参与神经网络模型训练的多个机器节点;
选择每一所述机器节点的物理特征指标并进行预处理,并对每一所述机器节点的物理特征指标进行归一化处理,其中,所述每一所述机器节点的物理特征指标包括节点的CPU运算频率、内存容量、GPU运算频率、GPU显存容量、硬盘I/O吞吐率、上行网络带宽中的任意几种;
对归一化处理处理后的每一所述机器节点的物理特征指标赋予不同权重,得到每一所述机器节点对应的多维度向量。
3.根据权利要求2所述的机器节点并行处理方法,其特征在于,所述对每一所述机器节点的物理特征指标进行归一化处理,包括:
统计历史梯度交换周期内的每一机器节点的物理特征指标的数值,获取物理特征指标的最高值xmax、平均值xave、最小值xmin;
按如下公式进行归一化处理:
4.根据权利要求1所述的机器节点并行处理方法,其特征在于,所述从每一所述节点簇中选出一个机器节点作为自身节点簇的参数同步临时服务器,并在每一梯度交换周期内接收自身节点簇中的其他机器节点发送的当前梯度信息,并计算自身节点簇所有机器节点的当前簇内平均梯度,包括:
从每一所述节点簇中随机选出一个机器节点并作为自身节点簇的参数同步临时服务器;
在每一梯度交换周期内,自身节点簇中的所有节点在每训练完一个批次的样本后,向所述参数同步临时服务器发送一次当前梯度信息,并计算当前批次的梯度平均值;
取每一梯度交换周期内最后一次计算得到的梯度平均...
【专利技术属性】
技术研发人员:王伟,于翠翠,黄勇其,
申请(专利权)人:润联软件系统深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。