模型生成方法和装置制造方法及图纸

技术编号:20945048 阅读:22 留言:0更新日期:2019-04-24 02:37
本公开实施例公开了模型生成方法和装置。该方法的具体实施方式包括:向至少两个处理器中的处理器,发送训练样本集中的训练样本子集,其中,处理器用于:基于待训练模型和接收到的训练样本子集,前向传播确定待训练模型的实际输出;对于该至少两个处理器中的处理器,获取该处理器确定的待训练模型的实际输出;基于所获取的实际输出,进行反向传播,确定待训练模型中预先指定的第一网络参数对应的第一梯度;根据该第一梯度,更新该第一网络参数。该实施方式提供了新的模型生成方式。

Model Generation Method and Device

The present disclosure embodiment discloses a model generation method and device. Specific embodiments of the method include: sending a subset of training samples from a training sample set to a processor in at least two processors, in which the processor is used to determine the actual output of the training model forward propagation based on the training model to be trained and the received training sample subset; and obtaining the training samples determined by the processor in at least two processors. The actual output of the model; based on the actual output obtained, back propagation is carried out to determine the first gradient corresponding to the first network parameter pre-specified in the training model; according to the first gradient, the first network parameter is updated. The embodiment provides a new model generation method.

【技术实现步骤摘要】
模型生成方法和装置
本公开实施例涉及计算机
,具体涉及模型生成方法和装置。
技术介绍
随着人工智能的发展,基于神经网络的模型在越来越多的场景中发挥作用。神经网络可以指人工神经网络(ArtificialNeuralNetwork,ANN)。神经网络通常是一种运算模型,由大量的节点(或称神经元)之间相互连接构成。每个节点可以代表一种特定的输出函数,称为激励函数(activationfunction)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。
技术实现思路
本公开实施例提出了模型生成方法和装置。第一方面,本公开实施例提供了一种模型生成方法,该方法包括:向至少两个处理器中的处理器,发送训练样本集中的训练样本子集,其中,处理器用于:基于待训练模型和接收到的训练样本子集,前向传播确定待训练模型的实际输出;对于该至少两个处理器中的处理器,获取该处理器确定的待训练模型的实际输出;基于所获取的实际输出,进行反向传播,确定待训练模型中预先指定的第一网络参数对应的第一梯度;根据该第一梯度,更新该第一网络参数。在一些实施例中,该第一网络参数包括批量归一化层中的网络参数。在一些实施例中,该至少两个处理器中的处理器还用于:基于该处理器确定的实际输出,进行误差反向传播,确定待训练模型中预先指定的第二网络参数对应的第二梯度。在一些实施例中,该方法还包括:对于该至少两个处理器中的处理器,获取该处理器确定的第二梯度;根据所获取的第二梯度,更新该第二网络参数。在一些实施例中,处理器还用于:采用第一精度类型的数据进行前向传播计算;采用第二精度类型的数据进行反向传播计算,其中,上述第一精度类型和上述第二精度类型不同。在一些实施例中,该第一精度类型或者第二精度类型为半精度类型。在一些实施例中,该根据该第一梯度,更新该第一网络参数,包括:采用第二精度类型的数据进行反向传播,确定待训练模型中预先指定的第一网络参数对应的第一梯度。第二方面,本公开实施例提供了一种模型生成装置,该装置包括:发送单元,被配置成向至少两个处理器中的处理器,发送训练样本集中的训练样本子集,其中,处理器用于:基于待训练模型和接收到的训练样本子集,前向传播确定待训练模型的实际输出;第一获取单元,被配置成对于该至少两个处理器中的处理器,获取该处理器确定的待训练模型的实际输出;确定单元,被配置成基于所获取的实际输出,进行反向传播,确定待训练模型中预先指定的第一网络参数对应的第一梯度;第一更新单元,被配置成根据该第一梯度,更新该第一网络参数。在一些实施例中,该第一网络参数包括批量归一化层中的网络参数。在一些实施例中,该至少两个处理器中的处理器还用于:基于该处理器确定的实际输出,进行误差反向传播,确定待训练模型中预先指定的第二网络参数对应的第二梯度。在一些实施例中,该装置还包括:第二获取单元,被配置成对于该至少两个处理器中的处理器,获取该处理器确定的第二梯度;第二更新单元,被配置成根据所获取的第二梯度,更新该第二网络参数。在一些实施例中,处理器还用于:采用第一精度类型的数据进行前向传播计算;采用第二精度类型的数据进行反向传播计算,其中,上述第一精度类型和上述第二精度类型不同。在一些实施例中,该第一精度类型或者第二精度类型为半精度类型。在一些实施例中,该第一确定单元还被配置成包括:采用第二精度类型的数据进行反向传播,确定待训练模型中预先指定的第一网络参数对应的第一梯度。第三方面,本公开实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本公开实施例提供的模型生成方法和装置,通过上述执行主体向至少两个处理器发送训练样本子集,处理器基于待训练模型和接收到的训练样本子集,前向传播确定待训练模型的实际输出;然后,上述执行主体基于所获取的实际输出,进行反向传播,确定预先指定的第一网络参数对应的第一梯度,最后根据该第一梯度更新该第一网络参数,从而,可以更新待训练模型的网络参数,以生成新的模型,技术效果至少可以包括:提供了一种新的模型生成方式。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:图1是本公开的一些实施例可以应用于其中的示例性系统架构图;图2是根据本公开的模型生成方法的一个实施例的流程图;图3是根据本公开的模型生成方法的一个应用场景的示意图;图4是根据本公开的模型生成方法的再一个实施例的流程图;图5是根据本公开的模型生成装置的一个实施例的结构示意图;图6是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。图1示出了可以应用本公开的模型生成方法或模型生成装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104可以是用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如模型生成类应用、通话类应用、直播类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有通信功能的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。可选的,终端设备101、102、103可以包括一个或多个处理器。服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上的模型生成类应用支持的后台服务器。服务器105可以将模型生成的一些参数(例如待训练模型的网络参数和训练样本数据等)发送给终端设备101、102、103。终端设备101、102、1本文档来自技高网...

【技术保护点】
1.一种模型生成方法,包括:向至少两个处理器中的处理器,发送训练样本集中的训练样本子集,其中,处理器用于:基于待训练模型和接收到的训练样本子集,前向传播确定待训练模型的实际输出;对于所述至少两个处理器中的处理器,获取该处理器确定的待训练模型的实际输出;基于所获取的实际输出,进行反向传播,确定待训练模型中预先指定的第一网络参数对应的第一梯度;根据所述第一梯度,更新所述第一网络参数。

【技术特征摘要】
1.一种模型生成方法,包括:向至少两个处理器中的处理器,发送训练样本集中的训练样本子集,其中,处理器用于:基于待训练模型和接收到的训练样本子集,前向传播确定待训练模型的实际输出;对于所述至少两个处理器中的处理器,获取该处理器确定的待训练模型的实际输出;基于所获取的实际输出,进行反向传播,确定待训练模型中预先指定的第一网络参数对应的第一梯度;根据所述第一梯度,更新所述第一网络参数。2.根据权利要求1所述的方法,其中,所述第一网络参数包括批量归一化层中的网络参数。3.根据权利要求1所述的方法,其中,所述至少两个处理器中的处理器还用于:基于该处理器确定的实际输出,进行误差反向传播,确定待训练模型中预先指定的第二网络参数对应的第二梯度。4.根据权利要求3所述的方法,其中,所述方法还包括:对于所述至少两个处理器中的处理器,获取该处理器确定的第二梯度;根据所获取的第二梯度,更新所述第二网络参数。5.根据权利要求1-4中任一项所述的方法,其中,处理器还用于:采用第一精度类型的数据进行前向传播计算;采用第二精度类型的数据进行反向传播计算,其中,上述第一精度类型和上述第二精度类型不同。6.根据权利要求5所述的方法,其中,所述第一精度类型或者第二精度类型为半精度类型。7.根据权利要求5所述的方法,其中,所述根据所述第一梯度,更新所述第一网络参数,包括:采用第二精度类型的数据进行反向传播,确定待训练模型中预先指定的第一网络参数对应的第一梯度。8.一种模型生成装置,包括:发送单元,被配置成向至少两个处理器中的处理器,发送训练样本集中的训练样本子集,其中,处理器用于:基于待训练模型和接收到的训练样本子集,前向传播确定待训练模型的实际输出;第一获取单元,被配...

【专利技术属性】
技术研发人员:胡耀全
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1