The present disclosure embodiment discloses a model generation method and device. Specific embodiments of the method include: sending a subset of training samples from a training sample set to a processor in at least two processors, in which the processor is used to determine the actual output of the training model forward propagation based on the training model to be trained and the received training sample subset; and obtaining the training samples determined by the processor in at least two processors. The actual output of the model; based on the actual output obtained, back propagation is carried out to determine the first gradient corresponding to the first network parameter pre-specified in the training model; according to the first gradient, the first network parameter is updated. The embodiment provides a new model generation method.
【技术实现步骤摘要】
模型生成方法和装置
本公开实施例涉及计算机
,具体涉及模型生成方法和装置。
技术介绍
随着人工智能的发展,基于神经网络的模型在越来越多的场景中发挥作用。神经网络可以指人工神经网络(ArtificialNeuralNetwork,ANN)。神经网络通常是一种运算模型,由大量的节点(或称神经元)之间相互连接构成。每个节点可以代表一种特定的输出函数,称为激励函数(activationfunction)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。
技术实现思路
本公开实施例提出了模型生成方法和装置。第一方面,本公开实施例提供了一种模型生成方法,该方法包括:向至少两个处理器中的处理器,发送训练样本集中的训练样本子集,其中,处理器用于:基于待训练模型和接收到的训练样本子集,前向传播确定待训练模型的实际输出;对于该至少两个处理器中的处理器,获取该处理器确定的待训练模型的实际输出;基于所获取的实际输出,进行反向传播,确定待训练模型中预先指定的第一网络参数对应的第一梯度;根据该第一梯度,更新该第一网络参数。在一些实施例中,该第一网络参数包括批量归一化层中的网络参数。在一些实施例中,该至少两个处理器中的处理器还用于:基于该处理器确定的实际输出,进行误差反向传播,确定待训练模型中预先指定的第二网络参数对应的第二梯度。在一些实施例中,该方法还包括:对于该至少两个处理器中的处理器,获取该处理器确定的第二梯度;根据所获取的第二梯度,更新该第二网络参数。在一些实施例中,处理器还用于:采用第一精度类型的数据进行前向传播计算;采用第二 ...
【技术保护点】
1.一种模型生成方法,包括:向至少两个处理器中的处理器,发送训练样本集中的训练样本子集,其中,处理器用于:基于待训练模型和接收到的训练样本子集,前向传播确定待训练模型的实际输出;对于所述至少两个处理器中的处理器,获取该处理器确定的待训练模型的实际输出;基于所获取的实际输出,进行反向传播,确定待训练模型中预先指定的第一网络参数对应的第一梯度;根据所述第一梯度,更新所述第一网络参数。
【技术特征摘要】
1.一种模型生成方法,包括:向至少两个处理器中的处理器,发送训练样本集中的训练样本子集,其中,处理器用于:基于待训练模型和接收到的训练样本子集,前向传播确定待训练模型的实际输出;对于所述至少两个处理器中的处理器,获取该处理器确定的待训练模型的实际输出;基于所获取的实际输出,进行反向传播,确定待训练模型中预先指定的第一网络参数对应的第一梯度;根据所述第一梯度,更新所述第一网络参数。2.根据权利要求1所述的方法,其中,所述第一网络参数包括批量归一化层中的网络参数。3.根据权利要求1所述的方法,其中,所述至少两个处理器中的处理器还用于:基于该处理器确定的实际输出,进行误差反向传播,确定待训练模型中预先指定的第二网络参数对应的第二梯度。4.根据权利要求3所述的方法,其中,所述方法还包括:对于所述至少两个处理器中的处理器,获取该处理器确定的第二梯度;根据所获取的第二梯度,更新所述第二网络参数。5.根据权利要求1-4中任一项所述的方法,其中,处理器还用于:采用第一精度类型的数据进行前向传播计算;采用第二精度类型的数据进行反向传播计算,其中,上述第一精度类型和上述第二精度类型不同。6.根据权利要求5所述的方法,其中,所述第一精度类型或者第二精度类型为半精度类型。7.根据权利要求5所述的方法,其中,所述根据所述第一梯度,更新所述第一网络参数,包括:采用第二精度类型的数据进行反向传播,确定待训练模型中预先指定的第一网络参数对应的第一梯度。8.一种模型生成装置,包括:发送单元,被配置成向至少两个处理器中的处理器,发送训练样本集中的训练样本子集,其中,处理器用于:基于待训练模型和接收到的训练样本子集,前向传播确定待训练模型的实际输出;第一获取单元,被配...
【专利技术属性】
技术研发人员:胡耀全,
申请(专利权)人:北京字节跳动网络技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。