自动模型训练框架、设备、存储介质制造技术

技术编号:31305942 阅读:26 留言:0更新日期:2021-12-12 21:21
一种自动模型训练框架、设备、存储介质,其包括模型定义模块、模型训练流水线控制模块、数据标注任务管理模块、服务训练集群控制模块、模型集群训练模块、模型部署模块以及模型监控模块;将模型训练的整个过程整体串联,从而实现了模型训练过程的自动化管理,提高了模型训练过程的效率;且对模型训练的质量进行了有效监控,提高模型训练质量,保证部署产品集群的新模型优于旧模型。群的新模型优于旧模型。群的新模型优于旧模型。

【技术实现步骤摘要】
自动模型训练框架、设备、存储介质


[0001]本专利技术涉及人工智能
,具体涉及一种自动训练模型框架、设备、存储介质。

技术介绍

[0002]如图1所示,为现有的模型训练框架,其进行模型训练任务的具体步骤如下:
[0003]1、应用科学家编写模型代码;
[0004]2、开发人员收集模型训练数据;
[0005]3、数据工程师整理模型训练数据,从而获得准确的模型训练数据;
[0006]4、数据工程师需要对数据进行人工标注操作,从而获得训练数据的标注结果;
[0007]5、模型训练数据标注结束后,相关负责人需要抽查数据标注结果,以保证标注结果准确性;
[0008]6、与此同时,科学家用模型训练框架对问题建模,以将问题数字化;
[0009]7、科学家拿到标注好的模型训练数据后,需要准备用于模型训练的机器集群,机器集群是一组高运算能力的主机,科学家将标注好的模型训练数据和模型训练代码输入机器集群进行训练;模型训练过程是随机选择模型训练数据中的数据,通过运行模型后获得结果,将获得的结果与该数据的标注结果进行比较,获得偏差,再进行反向传播调整模型参数,重复上述过程,从而逐步获得最小的偏差;
[0010]8、科学家监控模型训练过程,并对训练结果进行评估;模型训练的过程中会产生偏差并根据偏差自动调整参数,训练的过程是非常缓慢的,需要进行数以万计的迭代过程,只有执行大量的训练迭代才能获得较小的训练偏差;而在这个漫长的过程中,科学家需要监控训练过程是否顺利执行,并且查看训练偏差是否收敛;当训练结束后,需要通过对训练结果的评估才可以了解训练是否成功,训练结果评估是指使用单独的验证集的数据(验证集的数据用来验证模型在实际使用中的效果,不用于模型的训练过程)对训练结果进行比对,之所以需要单独的验证集的数据是为了保证模型的训练结果对于训练集(用于模型训练的数据集)以外的数据依然可信;
[0011]9、科学家将训练好的模型部署至产品集群中,而且部署过程不能影响产品集群的正常运行。
[0012]10、科学家根据产品集群中收集的数据对模型进行改进,重复步骤1-9。
[0013]现有的模型训练框架存在以下显著的问题:
[0014]1、所有步骤均需要人工协调干预完成;
[0015]2、通过抽查的方法对数据标注结果进行检查,一则效率低,二来无法保证数据标注准确性;
[0016]3、用于模型训练的机器集群无法被重复利用和/或用于模型训练的机器集群的计算能力超过了模型训练的实际需求,从而造成资源浪费;
[0017]4、改进前后的模型在产品集群上的运行效果没有自动的比较手段,判断效率低。

技术实现思路

[0018]本专利技术的目的在于克服现有技术的缺陷,提供一种自动模型训练框架、设备和存储介质,实现了模型训练过程的自动化管理,提高和保证了模型训练质量。
[0019]为实现上述目的,本专利技术采用了如下技术方案:
[0020]一种自动模型训练框架,其包括模型定义模块、模型训练流水线控制模块、数据标注任务管理模块、服务训练集群控制模块、模型集群训练模块、模型部署模块以及模型监控模块;
[0021]所述自动模型训练框架执行以下操作步骤:
[0022]步骤1a,所述模型定义模块获取待训练模型的模型训练数据和模型训练代码,并传输给模型训练流水线控制模块;
[0023]步骤2,所述模型训练流水线控制模块将模型训练数据生成数据标注任务并传输给数据标注任务管理模块,数据标注任务管理模块将模型训练数据正规化为可标注数据,并将数据标注任务拆分为多个可标注任务并分发给多位标注人员,标注人员完成可标注任务并向数据标注任务管理模块返回已标注数据;
[0024]步骤3,所述模型训练流水线控制模块将模型训练代码以及已标注数据传输给服务训练集群控制模块,服务训练集群控制模块试运行模型训练代码并得出待训练模型进行模型训练所需的硬件配置参数,依据硬件配置参数为待训练模型分配模型训练服务器;
[0025]步骤4,所述模型集群训练模块下载模型训练环境、模型训练代码和已标注数据至模型训练服务器;
[0026]步骤5,所述模型训练流水线控制模块启动模型训练服务器内的模型训练过程;所述模型集群训练模块监控模型训练过程,实时将模型训练过程的进度和偏差传输给模型训练流水线控制模块,模型集群训练模块实时依据F1 score指标和Accuracy指标对模型训练过程进行评估,若F1 score>n1,0.95≤n1≤1,Accuracy>n2,0.95≤n2≤1,则结束模型训练过程,模型集群训练模块将已训练模型文件和最终偏差传输给模型训练流水线控制模块;
[0027]步骤6,所述模型训练流水线控制模块将已训练模型文件和最终偏差传输给模型定义模块,模型部署模块依据已训练模型文件和最终偏差,更新模型定义模块内存储的模型数据信息并将已训练模型文件部署至与产品集群配置相同的影子集群中;
[0028]步骤7,所述模型监控模块实时监控影子集群上的已训练模型文件和产品集群上的当前模型文件的运行过程,若已训练模型文件相对于当前模型文件的改进结果数据符合结果预期,则将已训练模型文件部署至产品集群的部分产品中,已训练模型文件和当前模型文件同步在产品集群中运行;若改进结果数据不符合结果预期,则依据改进结果数据修改已训练模型文件的代码,并重复步骤4-步骤7;
[0029]步骤8,所述模型监控模块实时监控已训练模型文件和当前模型文件在产品集群中的运行过程,若已训练模型文件相对于当前模型文件的改进结果数据符合结果预期,则将已训练模型文件部署至产品集群的全部产品中;若改进结果数据不符合结果预期,则依据改进结果数据修改已训练模型文件的代码,并重复步骤4-步骤8。
[0030]进一步的,所述自动模型训练框架还包括模型训练触发器;在步骤1a和步骤2之间,所述自动模型训练框架还执行以下操作步骤:步骤1b,模型训练流水线控制模块接收模
型训练触发器输出的触发信号后,启动模型训练任务。
[0031]进一步的,所述模型训练触发器能通过以下两种方式向模型训练流水线控制模块输出触发信号:
[0032]方式一,主动定时触发方式,模型训练触发器可以设定触发时间,到达触发时间后,自动向模型训练流水线控制模块输出触发信号;
[0033]方式二,被动提交触发方式,用户向模型训练触发器提交触发申请,然后模型训练触发器向模型训练流水线控制模块输出触发信号。
[0034]进一步的,在步骤1a中,用户通过模型定义模块的第一用户接口上传模型训练数据和模型训练代码;所述模型定义模块还存储有静态数据,包括模型名称、模型训练代码存储位置、模型训练数据存储位置。
[0035]进一步的,在步骤2中,每件可标注任务均包括N0条待标注数据,N0为≥2的整数;每条待标注数据在至少N1件可标注任务中出现,N1为≥2的整数,每件可标注任务被分配至N2个标注人员,N2为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动模型训练框架,其特征在于,其包括模型定义模块、模型训练流水线控制模块、数据标注任务管理模块、服务训练集群控制模块、模型集群训练模块、模型部署模块以及模型监控模块;所述自动模型训练框架执行以下操作步骤:步骤1a,所述模型定义模块获取待训练模型的模型训练数据和模型训练代码,并传输给模型训练流水线控制模块;步骤2,所述模型训练流水线控制模块将模型训练数据生成数据标注任务并传输给数据标注任务管理模块,数据标注任务管理模块将模型训练数据正规化为可标注数据,并将数据标注任务拆分为多个可标注任务并分发给多位标注人员,标注人员完成可标注任务并向数据标注任务管理模块返回已标注数据;步骤3,所述模型训练流水线控制模块将模型训练代码以及已标注数据传输给服务训练集群控制模块,服务训练集群控制模块试运行模型训练代码并得出待训练模型进行模型训练所需的硬件配置参数,依据硬件配置参数为待训练模型分配模型训练服务器;步骤4,所述模型集群训练模块下载模型训练环境、模型训练代码和已标注数据至模型训练服务器;步骤5,所述模型训练流水线控制模块启动模型训练服务器内的模型训练过程;所述模型集群训练模块监控模型训练过程,实时将模型训练过程的进度和偏差传输给模型训练流水线控制模块,模型集群训练模块实时依据F1 score指标和Accuracy指标对模型训练过程进行评估,若F1 score>n1,0.95≤n1≤1,Accuracy>n2,0.95≤n2≤1,则结束模型训练过程,模型集群训练模块将已训练模型文件和最终偏差传输给模型训练流水线控制模块;步骤6,所述模型训练流水线控制模块将已训练模型文件和最终偏差传输给模型定义模块,模型部署模块依据已训练模型文件和最终偏差,更新模型定义模块内存储的模型数据信息并将已训练模型文件部署至与产品集群配置相同的影子集群中;步骤7,所述模型监控模块实时监控影子集群上的已训练模型文件和产品集群上的当前模型文件的运行过程,若已训练模型文件相对于当前模型文件的改进结果数据符合结果预期,则将已训练模型文件部署至产品集群的部分产品中,已训练模型文件和当前模型文件同步在产品集群中运行;若改进结果数据不符合结果预期,则依据改进结果数据修改已训练模型文件的代码,并重复步骤4-步骤7;步骤8,所述模型监控模块实时监控已训练模型文件和当前模型文件在产品集群中的运行过程,若已训练模型文件相对于当前模型文件的改进结果数据符合结果预期,则将已训练模型文件部署至产品集群的全部产品中;若改进结果数据不符合结果预期,则依据改进结果数据修改已训练模型文件的代码,并重复步骤4-步骤8。2.根据权利要求1所述的自动模型训练框架,其特征在于:所述自动模型训练框架还包括模型训练触发器;在步骤1a和步骤2之间,所述自动模型训练框架还执行以下操作步骤:步骤1b,模型训练流水线控制模块接收模型训练触发器输出的触发信号后,启动模型训练任务。3.根据权利要求2所述的自动模型训练框架,其特征在于:所述模型训练触发器能通过以下两种方式向模型训练流水线控制模块输出触发信号:方式一,主动定时触发方式,模型训练触发器可以设定触发时间,到达触发时间后,自
动向模型训练流水线控制模块输出触发信号;方式二,被动提交触发方式,用户向模型训练触发器提交触发申请,然后模型训练触发器向模型训练流水线控制模块输出触发信号。4.根据权利要求1所述的自动模型训练框架,其特征在于:在步骤2中,每件可标注任务均包括N0条待标注数据,N0为≥2的整数;每条待标注数据在至少N1件可标注任务中出现,N1为≥2的整数,每件可标注任务被分配至N2个标注人员,N2为≥1的整数;当不同标注人员对于同一条待标注数据的标注结果不同时,通过权重投票方式确定该条待标注数据的标准结果。5.根据权利要求1所述的自动模型训练框架,其特征在于:在步骤5中,所述模型集群训练模块在模型训练过程中,依据F1 score和Accuracy指标对训练中的模型进行评估,当F1 score>0.99且Accuracy>0.99时,结束模型训练过程;score>0.99且Accuracy>0.99时,结束模型训练过程;score>0.99且Accuracy>0.99时,结束模型训练过程;score>0.99且Accuracy>0.99时,结束模型训练过程;其中,precision代表准确率,recall代表召回率;F1 scor...

【专利技术属性】
技术研发人员:顾夏辉安涛
申请(专利权)人:子长科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1