一种模型训练方法技术

技术编号：39735004 阅读：10 留言：0更新日期：2023-12-17 23:37

本说明书公开了一种模型训练方法

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练方法、装置、存储介质及电子设备

[0001]本说明书涉及计算机
和人工智能领域，尤其涉及一种模型训练方法
、
装置
、
存储介质及电子设备
。

技术介绍

[0002]人工智能（
Artificial Intelligence
，
AI
）在近些年得到了大力的发展，而在
AI
技术发展中的关键因素是
AI
模型的训练效率，高能效的
AI
模型训练方法，不仅可以缩短训练时间，还可以节约硬件资源，从而大幅度降低训练大模型需要的能耗和成本
。
[0003]目前，在
AI
模型训练过程中，训练数据和模型参数通常存储在存储节点，而模型需要在计算节点中进行训练，在进行模型训练过程中，需要进行跨节点的数据访问，来获得训练模型所需要的数据
。
[0004]但是，当存储区中存储的数据过多时，执行模型训练的节点就需要等待（如：等待存储空间的满足要求
、
等待数据传输完成）若干个周期来获得所需要的数据，再使用获取到的数据进行模型训练，现有技术低效的数据访问及数据传输严重影响了训练数据的迁移和处理效率，造成
AI
模型训练效率低的问题
。

技术实现思路

[0005]本说明书实施例提供一种模型训练方法
、
装置
、
存储介质及电子设备，以部分解决上述现有技术存在的问题
>。
[0006]本说明书实施例采用下述技术方案：本说明书提供的一种模型训练方法，包括：接收训练指令；根据所述训练指令，确定待使用的训练数据的数据标识；判断所述高速缓存区中是否缓存有所述数据标识对应的训练数据；若否，则将所述数据标识输入到预先训练的所述数据生成模型中，以通过所述数据生成模型，生成所述数据标识对应的训练数据，作为生成数据；将所述生成数据发送给部署在所述计算区中的待训练模型，以通过所述生成数据，对所述待训练模型进行训练
。
[0007]可选地，所述方法还包括：从预设的存储区中查询出所述数据标识对应的训练数据，作为真实数据；以最小化所述真实数据与所述生成数据之间的偏差为优化目标，对所述数据生成模型进行再训练
。
[0008]可选地，通过所述生成数据，对所述待训练模型进行训练，具体包括：确定对待训练模型进行训练时所使用的数据，作为目标数据，所述目标数据包括所述生成数据以及所述待训练模型中包含的各网络层的网络参数；根据所述高速缓存区的剩余存储空间，判断所述高速缓存区是否能够存储所述目
标数据；若是，将所述目标数据存储在所述高速缓存区中，以在所述待训练模型的模型训练过程中，通过调用所述高速缓存区中缓存的所述目标数据，对所述待训练模型进行训练；若否，则将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分目标数据存储在所述高速缓存区中，以通过调用所述高速缓存区中缓存的所述至少部分目标数据，对所述待训练模型进行训练
。
[0009]可选地，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中，具体包括：确定所述目标数据对应的需求顺序信息，所述需求顺序信息用于表示所述目标数据中包含的各项数据在所述待训练模型的训练过程中被使用的先后顺序；根据所述需求顺序信息，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中
。
[0010]可选地，所述需求顺序信息中包含有所述待训练模型在训练过程中所使用的各项数据的使用顺序；根据所述需求顺序信息，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中，具体包括：根据所述需求顺序信息中包含的所述待训练模型在训练过程中所使用的各项数据的使用顺序，将所述高速缓存区中在堆栈内存储至少部分数据清除，并根据所述至少部分目标数据中包含的各项数据以及所述堆栈内已存储的数据在使用顺序上的先后，其中，将所述至少部分目标数据存储在所述堆栈中
。
[0011]可选地，根据所述需求顺序信息，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中，具体包括：在将所述至少部分目标数据存储在所述高速缓存区的过程中，确定所述高速缓存区的剩余缓存空间；当确定所述高速缓存区存储所述至少部分目标数据后的剩余缓存空间不符合预设缓存条件，停止从所述存储区中获取剩余的目标数据，并通过已缓存在所述高速缓存区中的部分目标数据，对所述待训练模型进行训练；当确定所述部分目标数据已在所述待训练模型的模型训练过程中被使用后，从所述高速缓存区中确定待释放数据，并将所述待释放数据从所述高速缓存区中释放，以继续从所述存储区中获取剩余的目标数据
。
[0012]可选地，所述方法还包括：若所述待释放数据从所述高速缓存区中被释放后所述剩余的目标数据未在预设时间内未缓存到所述高速缓存区中，则通过预设的高速通道，将从所述存储区中获取到所述剩余的目标数据发送给所述计算区中的所述待训练模型，以对所述待训练模型进行训练
。
[0013]本说明书提供的一种模型训练装置，待训练模型部署在所述装置的计算区，所述装置部署有高速缓存区，所述计算区中还部署有数据生成模型，包括：接收模块，用于接收训练指令；确定模块，用于根据所述训练指令，确定待使用的训练数据的数据标识；
判断模块，用于判断所述高速缓存区中是否缓存有所述数据标识对应的训练数据；生成模块，用于若否，则将所述数据标识输入到预先训练的所述数据生成模型中，以通过所述数据生成模型，生成所述数据标识对应的训练数据，作为生成数据；应用模块，用于将所述生成数据发送给部署在所述计算区中的待训练模型，以通过所述生成数据，对所述待训练模型进行训练
。
[0014]本说明书提供的一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种模型训练方法
。
[0015]本说明书提供的一种电子设备，包括存储器
、
处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的一种模型训练方法
。
[0016]本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：本说明书实施例中将待训练模型部署在本地节点的计算区中，并在计算区中部署数据生成模型以及在本地节点中部署有高速缓存区，在进行模型训练的同时，将训练所需的目标数据缓存在高速缓存区中，以使计算区可以根据训练数据对应的数据标识，从高速缓存层读取训练数据给到待训练模型，来进行模型训练，若计算区在读取过程中，没有获取到所需训练数据，则将数据标识发送给数据生成模型，数据生成模型根据数据标识生成所需训练数据，来给到待训练模型，依照生成数据来进行模型训练
。
[0017]在此方法中本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种模型训练方法，其特征在于，待训练模型部署在本地节点的计算区，所述本地节点部署有高速缓存区，所述计算区中还部署有数据生成模型，包括：接收训练指令；根据所述训练指令，确定待使用的训练数据的数据标识；判断所述高速缓存区中是否缓存有所述数据标识对应的训练数据；若否，则将所述数据标识输入到预先训练的所述数据生成模型中，以通过所述数据生成模型，生成所述数据标识对应的训练数据，作为生成数据；将所述生成数据发送给部署在所述计算区中的待训练模型，以通过所述生成数据，对所述待训练模型进行训练
。2.
如权利要求1所述的方法，其特征在于，所述方法还包括：从预设的存储区中查询出所述数据标识对应的训练数据，作为真实数据；以最小化所述真实数据与所述生成数据之间的偏差为优化目标，对所述数据生成模型进行再训练
。3.
如权利要求1所述的方法，其特征在于，通过所述生成数据，对所述待训练模型进行训练，具体包括：确定对待训练模型进行训练时所使用的数据，作为目标数据，所述目标数据包括所述生成数据以及所述待训练模型中包含的各网络层的网络参数；根据所述高速缓存区的剩余存储空间，判断所述高速缓存区是否能够存储所述目标数据；若是，将所述目标数据存储在所述高速缓存区中，以在所述待训练模型的模型训练过程中，通过调用所述高速缓存区中缓存的所述目标数据，对所述待训练模型进行训练；若否，则将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分目标数据存储在所述高速缓存区中，以通过调用所述高速缓存区中缓存的所述至少部分目标数据，对所述待训练模型进行训练
。4.
如权利要求3所述的方法，其特征在于，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中，具体包括：确定所述目标数据对应的需求顺序信息，所述需求顺序信息用于表示所述目标数据中包含的各项数据在所述待训练模型的训练过程中被使用的先后顺序；根据所述需求顺序信息，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中
。5.
如权利要求4所述的方法，其特征在于，所述需求顺序信息中包含有所述待训练模型在训练过程中所使用的各项数据的使用顺序；根据所述需求顺序信息，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中，具体包括：根据所述需求顺序信息中包含的所述待训练模型在训练过程中所使用的各项数据的使...

【专利技术属性】
技术研发人员：程稳，曾令仿，李勇，侯瑞峥，刘懿，滕会刚，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人