System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种模型训练方法、装置、计算机设备及可读存储介质制造方法及图纸_技高网

一种模型训练方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:41508132 阅读:3 留言:0更新日期:2024-05-30 14:48
本申请提供了一种模型训练方法、装置、计算机设备及可读存储介质,其中,搭建Kubernetes集群,其中,Kubernetes集群中包括至少一个节点;将模型代码和依赖项打包为Docker镜像,并将Docker镜像上传至Harbor镜像仓库;基于Kubernetes集群和Harbor镜像仓库构建模型训练任务,其中,Kubernetes集群为模型训练任务的容器资源,Harbor镜像仓库为模型训练任务的训练镜像;响应用户输入的模型训练指令,通过模型训练指令所指示的各目标节点执行模型训练任务。采用上述方法,以确保正常进行模型训练,同时减少模型训练时长,提高模型训练的速度。

【技术实现步骤摘要】

本专利技术涉及计算机,具体而言,涉及一种模型训练方法、装置、计算机设备及可读存储介质


技术介绍

1、随着计算机技术的发展,利用机器学习进行数据处理变得越来越普遍。机器学习的过程,通常是指计算机设备构建初始模型,将样本数据输入至初始模型中,通过一系列算法对输入的样本数据进行分析,并通过迭代训练来更新初始模型的模型参数,得到最终合适的模型。

2、现有技术中,通常由单个设备或者计算机设备利用训练样本集等模型训练数据对需要训练的模型进行训练,以进行模型训练任务。但是在研究中发现,随着数据处理对模型准确性的要求越来越高,训练样本的数量也越来越大,若仅采用单个计算机执行模型训练任务,很可能会由于单一计算资源的不足导致模型训练需要耗费较长时间;甚至于当计算压力过大时,很可能还会造成计算机处理器崩溃,发生宕机等情况发生,从而导致无法正常进行模型训练。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种模型训练方法、装置、计算机设备及可读存储介质,以确保正常进行模型训练,同时减少模型训练时长,提高模型训练的速度。

2、第一方面,本申请实施例提供了一种模型训练方法,所述方法包括:

3、搭建kubernetes集群,其中,所述kubernetes集群中包括至少一个节点;

4、将模型代码和依赖项打包为docker镜像,并将所述docker镜像上传至harbor镜像仓库;

5、基于所述kubernetes集群和所述harbor镜像仓库构建模型训练任务,其中,所述kubernetes集群为所述模型训练任务的容器资源,所述harbor镜像仓库为所述模型训练任务的训练镜像;

6、响应用户输入的模型训练指令,通过所述模型训练指令所指示的各目标节点执行所述模型训练任务。

7、可选地,所述模型训练任务包括单节点训练任务和分布式训练任务,当所述模型训练任务为所述单节点训练任务时,所述目标节点的数量为一个,当所述模型训练任务为所述分布式训练任务时,所述目标节点的数量为多个。

8、可选地,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务前,所述方法还包括:

9、创建minio对象存储服务器和pvc持久化存储卷声明;

10、将所述minio对象存储服务器和pvc持久化存储卷声明进行连接;

11、将所述pvc挂载至所述kubernetes集群中;

12、在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

13、通过所述pvc将所述kubernetes集群中各目标节点执行所述模型训练任务时所产生的模型训练数据存储至所述minio。

14、可选地,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

15、采集各节点的系统信息,其中,所述系统信息包括cpu使用率、内存使用率和磁盘使用率;

16、根据各节点的系统信息和预先配置的告警规则确定出各节点的告警策略;

17、基于各节点的告警策略进行告警。

18、可选地,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

19、采集各目标节点执行所述模型训练任务时所产生的日志数据。

20、可选地,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

21、每隔预设时长将从各目标节点执行所述模型训练任务时所产生的日志数据中筛选出error级别的异常日志数据;

22、将所述异常日志数据发送至目标邮箱。

23、可选地,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

24、每隔预设时长将从所述kubernetes集群中清理处于失败状态且超时的资源,其中,所述资源包括pod容器组。

25、第二方面,本申请实施例提供了一种模型训练装置,所述方法包括:

26、集群搭建模块,用于搭建kubernetes集群,其中,所述kubernetes集群中包括至少一个节点;

27、镜像上传模块,用于将模型代码和依赖项打包为docker镜像,并将所述docker镜像上传至harbor镜像仓库;

28、任务构建模块,用于基于所述kubernetes集群和所述harbor镜像仓库构建模型训练任务,其中,所述kubernetes集群为所述模型训练任务的容器资源,所述harbor镜像仓库为所述模型训练任务的训练镜像;

29、任务执行模块,用于响应用户输入的模型训练指令,通过所述模型训练指令所指示的各目标节点执行所述模型训练任务。

30、可选地,所述模型训练任务包括单节点训练任务和分布式训练任务,当所述模型训练任务为所述单节点训练任务时,所述目标节点的数量为一个,当所述模型训练任务为所述分布式训练任务时,所述目标节点的数量为多个。

31、可选地,所述任务执行模块还用于:

32、在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务前,创建minio对象存储服务器和pvc持久化存储卷声明;

33、将所述minio对象存储服务器和pvc持久化存储卷声明进行连接;

34、将所述pvc挂载至所述kubernetes集群中;

35、所述任务执行模块还用于:在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,通过所述pvc将所述kubernetes集群中各目标节点执行所述模型训练任务时所产生的模型训练数据存储至所述minio。

36、可选地,所述任务执行模块还用于:

37、在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,采集各节点的系统信息,其中,所述系统信息包括cpu使用率、内存使用率和磁盘使用率;

38、根据各节点的系统信息和预先配置的告警规则确定出各节点的告警策略;

39、基于各节点的告警策略进行告警。

40、可选地,所述任务执行模块还用于:

41、在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,采集各目标节点执行所述模型训练任务时所产生的日志数据。

42、可选地,所述任务执行模块还用于:

43、在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,每隔预设时长将从各目标节点执行所述模型训练任务时所产生的日志数据中筛选出error级别的异常日志数据;

44、将所述异常日志数据发送至目标邮箱。

45、可选地,所述任务执行模块还用于:

46、在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,每隔预设时长将从所述kubernetes集群中清理处于失败状态且超时的资源,其中,所述资源包括pod容器组。本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述模型训练任务包括单节点训练任务和分布式训练任务,当所述模型训练任务为所述单节点训练任务时,所述目标节点的数量为一个,当所述模型训练任务为所述分布式训练任务时,所述目标节点的数量为多个。

3.根据权利要求1所述的方法,其特征在于,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务前,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

7.根据权利要求5所述的方法,其特征在于,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

8.一种模型训练装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7中任一所述的模型训练方法的步骤。

10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7中任意一项所述的模型训练方法的步骤。

...

【技术特征摘要】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述模型训练任务包括单节点训练任务和分布式训练任务,当所述模型训练任务为所述单节点训练任务时,所述目标节点的数量为一个,当所述模型训练任务为所述分布式训练任务时,所述目标节点的数量为多个。

3.根据权利要求1所述的方法,其特征在于,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务前,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

6.根据权利要求5所述的方...

【专利技术属性】
技术研发人员:马海龙张继超刘俊章峰胡家豪
申请(专利权)人:暗物智能科技广州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1