模型训练方法及装置制造方法及图纸

技术编号：28376580 阅读：86 留言：0更新日期：2021-05-08 00:04

本公开示出了一种模型训练方法及装置，其中，模型训练方法包括：获取初始模型和训练样本集，训练样本集包括基于多媒体数据生成的多个训练样本；并行执行模型训练任务和模型融合任务；判断第一训练节点的本地模型是否满足训练终止条件，若满足，则停止训练，否则重复并行执行模型训练任务和模型融合任务的步骤，直到满足训练终止条件。由于模型训练任务和模型融合任务并行执行，各个训练节点不断地对本地模型进行训练更新，同时与其它训练节点的本地模型进行融合，使得每个训练节点都可以全速地进行模型训练，各个训练节点之间在进行模型融合时不存在等待关系，从而可以提高模型训练速度；另外，本方案无需设置参数节点，从而可以节省计算资源。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法及装置
本公开涉及计算机
，尤其涉及一种模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
技术介绍
随着神经网络与深度学习技术的不断发展，工业界越来越倾向于使用深度网络模型来进行各种数据的处理。在对深度网络模型训练的过程中，由于模型的计算量和数据量都在不断增加，普通的单卡训练已经很难满足实际的效率需要，多卡、多机多卡的训练方式成为实际训练中重要的加速手段。然而，在公司或云端的生产环境中，训练集群往往由多种不同型号的机器组成，不同机器的计算速度以及网络带宽等参数可能都不相同，采用相关技术中的同步训练方式，训练过程中的每一步都需要等待最慢的训练机器完成训练，这样的训练过程造成大量资源浪费，并拖慢训练速度。
技术实现思路
本公开提供一种模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，以至少解决相关技术中模型训练的过程造成大量资源浪费且训练速度慢的问题。本公开的技术方案如下：根据本公开的第一方面，提供一种模型训练方法，应用于训练网络中的第一训练节点，所述训练网络包括多个训练节点，所述第一训练节点为所述多个训练节点中的任意一个，所述方法包括：获取初始模型和训练样本集，所述训练样本集包括基于多媒体数据生成的多个训练样本；并行执行模型训练任务和模型融合任务，所述模型融合任务包括：从所述训练网络中选取第二训练节点，获取所述第二训练节点的本地模型，并对所述第一训练节点的本地模型和所述第二训练节点的本地模型进行融合，获得所述融合模型...

【技术保护点】
1.一种模型训练方法，其特征在于，应用于训练网络中的第一训练节点，所述训练网络包括多个训练节点，所述第一训练节点为所述多个训练节点中的任意一个，所述方法包括：/n获取初始模型和训练样本集，所述训练样本集包括基于多媒体数据生成的多个训练样本；/n并行执行模型训练任务和模型融合任务，所述模型融合任务包括：从所述训练网络中选取第二训练节点，获取所述第二训练节点的本地模型，并对所述第一训练节点的本地模型和所述第二训练节点的本地模型进行融合，获得所述融合模型，并用所述融合模型替换所述第一训练节点的本地模型；在执行所述模型训练任务的过程中，所述第一训练节点的本地模型用于对所述训练样本中的多媒体数据进行属性预测，以根据所述属性预测结果更新所述第一训练节点的本地模型，在执行当次所述模型训练任务之前，所述第一训练节点的本地模型为以下之一：所述初始模型，前一次所述模型训练任务获得的模型和所述模型融合任务获得的融合模型；/n判断所述第一训练节点的本地模型是否满足预设的训练终止条件，若满足，则停止执行所述模型训练任务和所述模型融合任务，若不满足，则重复所述并行执行模型训练任务和模型融合任务的步骤，直到满足预设的训练终止条件。/n...

【技术特征摘要】
1.一种模型训练方法，其特征在于，应用于训练网络中的第一训练节点，所述训练网络包括多个训练节点，所述第一训练节点为所述多个训练节点中的任意一个，所述方法包括：
获取初始模型和训练样本集，所述训练样本集包括基于多媒体数据生成的多个训练样本；
并行执行模型训练任务和模型融合任务，所述模型融合任务包括：从所述训练网络中选取第二训练节点，获取所述第二训练节点的本地模型，并对所述第一训练节点的本地模型和所述第二训练节点的本地模型进行融合，获得所述融合模型，并用所述融合模型替换所述第一训练节点的本地模型；在执行所述模型训练任务的过程中，所述第一训练节点的本地模型用于对所述训练样本中的多媒体数据进行属性预测，以根据所述属性预测结果更新所述第一训练节点的本地模型，在执行当次所述模型训练任务之前，所述第一训练节点的本地模型为以下之一：所述初始模型，前一次所述模型训练任务获得的模型和所述模型融合任务获得的融合模型；
判断所述第一训练节点的本地模型是否满足预设的训练终止条件，若满足，则停止执行所述模型训练任务和所述模型融合任务，若不满足，则重复所述并行执行模型训练任务和模型融合任务的步骤，直到满足预设的训练终止条件。

2.根据权利要求1所述的模型训练方法，其特征在于，所述模型融合任务还包括：
将所述第一训练节点的本地模型发送至所述第二训练节点，以使所述第二训练节点对所述第一训练节点的本地模型和所述第二训练节点的本地模型进行融合，并用融合后的模型替换所述第二训练节点的本地模型。

3.根据权利要求1所述的模型训练方法，其特征在于，所述对所述第一训练节点的本地模型和所述第二训练节点的本地模型进行融合，获得所述融合模型的步骤，包括：
计算所述第一训练节点的本地模型的参数和所述第二训练节点的本地模型的参数的加权平均值；
将所述加权平均值确定为所述融合模型的参数，获得所述融合模型。

4.根据权利要求1所述的模型训练方法，其特征在于，执行所述模型融合任务的步骤，包括：
以预设时间间隔，执行所述模型融合任务，其中，所述预设时间间隔大于或等于对所述第一训练节点的本地模型进行单次训练的时长。

5.根据权利要求1所述的模型训练方法，其特征在于，所述训练样本集还包括与所述训练样本中的多媒体数据对应的标注数据，所述模型训练任务包括：
基于所述第一训练节点的本地模型，对所述训练样本中的多媒...

【专利技术属性】
技术研发人员：廉相如，刘霁，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人