一种深度学习系统的部署方法和装置制造方法及图纸

技术编号:29672433 阅读:33 留言:0更新日期:2021-08-13 21:53
本发明专利技术公开了一种深度学习系统的部署方法和装置,方法包括:定义第一节点组和第二节点组的节点组模板,节点组模板包括指示第一节点组所安装的组件和第二节点组所安装的组件;基于节点组模板定义设备组的集群模板,集群模板包括指示设备组中按照第一节点组来安装组件的第一节点的数量和按照第二节点组来安装组件的第二节点的数量;校验集群模板的配置合理性,并基于集群模板与多个第一节点和多个第二节点相对应地创建分别具有人工智能框架的多个虚拟机;为多个虚拟机配置通信基准,并分别向多个虚拟机的人工智能框架中导入深度学习镜像。本发明专利技术能够自动执行集群的部署工作,提升集群的可用性和易用性。

【技术实现步骤摘要】
一种深度学习系统的部署方法和装置
本专利技术涉及人工智能领域,更具体地,特别是指一种深度学习系统的部署方法和装置。
技术介绍
人工智能,英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。现有技术中AIStation面向深度学习计算集群提供从数据上传、模型开发、模型训练、训练可视化的全流程训练服务。AIStation支持多种深度学习系统,能够快速部署深度学习训练环境,全面管理深度学习训练任务,为深度学习用户提供高效易用的平台;对计算集群的CPU(中央处理单元)及GPU(图形处理单元)资源进行统一的管理、调度及监控,有效的提高计算资源的利用率和生产率。但现有技术中部署AIStation集群过于复杂和难以实现。首先需要准备集群,并为所有节点安装操作系统;然后在管理节点上传安装包,并修改配置文件;再执行一步一步的安装脚本。安装操作系统是非常耗时的操作,尤其是当集群节点数量多时,光是安装操作系统就需要耗费非常多的人力,而修改配置和执行安装也是稍有不慎就会造成失败。针对现有技术中AIStation集群难以部署的问题,目前尚无有效的解决方案。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提出一种深度学习系统的部署方法和装置,能够自动执行AIStation集群的部署工作,提升AIStation集群的可用性和易用性。基于上述目的,本专利技术实施例的第一方面提供了一种深度学习系统的部署方法,包括执行以下步骤:定义第一节点组和第二节点组的节点组模板,其中节点组模板包括指示第一节点组所安装的组件和第二节点组所安装的组件;基于节点组模板定义设备组的集群模板,其中集群模板包括指示设备组中按照第一节点组来安装组件的第一节点的数量和按照第二节点组来安装组件的第二节点的数量;校验集群模板的配置合理性,并响应于集群模板的配置合理而基于集群模板与多个第一节点和多个第二节点相对应地创建分别具有人工智能框架的多个虚拟机;为多个虚拟机配置通信基准,并基于通信基准分别向多个虚拟机的人工智能框架中导入深度学习镜像。在一些实施方式中,方法还包括:在定义第一节点组和第二节点组的节点组模板之前先创建包括通用模块的人工智能插件,通用模块用于定义深度学习系统调用的所有组件;定义第一节点组和第二节点组的节点组模板包括:从通用模块获取所有组件,并在由所有组件限定的范围内定义第一节点组和第二节点组的节点组模板。在一些实施方式中,方法还包括:在定义第一节点组和第二节点组的节点组模板之前先创建包括验证模块的人工智能插件;多个组件包括控制组件和高可用组件;校验集群模板的配置合理性包括:使用验证模块检查集群模板中多个第一节点和多个第二节点上分别将安装的控制组件数量是否均为奇数、和/或将安装的高可用组件是否均配置了宕机状态检测功能。在一些实施方式中,响应于集群模板的配置合理而基于集群模板与多个第一节点和多个第二节点相对应地创建分别具有人工智能框架的多个虚拟机包括:响应于集群模板中多个第一节点和多个第二节点上分别将安装的控制组件数量均为奇数、和/或将安装的高可用组件均配置了宕机状态检测功能,而判定集群模板的配置合理;响应于集群模板的配置合理而由验证模块基于集群模板使用编排技术创建多个虚拟机,并向多个虚拟机中分别部署人工智能安装包镜像。在一些实施方式中,方法还包括:在定义第一节点组和第二节点组的节点组模板之前先创建包括部署模块的人工智能插件;为多个虚拟机配置通信基准包括:由部署模块向多个虚拟机分别部署同一时钟和免密通信。在一些实施方式中,部署模块中存储有网络时间协议安装脚本和网络文件系统安装脚本;为多个虚拟机配置通信基准还包括:由部署模块基于集群模板而在多个虚拟机上选择性地执行网络时间协议安装脚本和网络文件系统安装脚本。在一些实施方式中,部署模块中还存储有图形处理单元驱动安装脚本;为多个虚拟机配置通信基准还包括:响应于检测到存在虚拟机所对应的第一节点或第二节点配置有直接连接的图形处理单元,而额外地针对虚拟机执行图形处理单元驱动安装脚本。在一些实施方式中,所述为多个虚拟机配置通信基准还包括:响应于检测到存在虚拟机所对应的第一节点或第二节点将安装的组件数量超过阈值,而向虚拟机安装额外的高可用组件。在一些实施方式中,方法还包括:在定义第一节点组和第二节点组的节点组模板之前先创建包括客户端模块的人工智能插件;在为多个虚拟机配置通信基准之后,还由客户端模块检查配置是否成功。本专利技术实施例的第二方面提供了一种装置,包括:处理器;控制器,存储有处理器可运行的程序代码,处理器在运行程序代码时执行以下步骤:定义第一节点组和第二节点组的节点组模板,其中节点组模板包括指示第一节点组所安装的组件和第二节点组所安装的组件;基于节点组模板定义设备组的集群模板,其中集群模板包括指示设备组中按照第一节点组来安装组件的第一节点的数量和按照第二节点组来安装组件的第二节点的数量;校验集群模板的配置合理性,并响应于集群模板的配置合理而基于集群模板与多个第一节点和多个第二节点相对应地创建分别具有人工智能框架的多个虚拟机;为多个虚拟机配置通信基准,并基于通信基准分别向多个虚拟机的人工智能框架中导入深度学习镜像。本专利技术具有以下有益技术效果:本专利技术实施例提供的深度学习系统的部署方法和装置,通过定义第一节点组和第二节点组的节点组模板,其中节点组模板包括指示第一节点组所安装的组件和第二节点组所安装的组件;基于节点组模板定义设备组的集群模板,其中集群模板包括指示设备组中按照第一节点组来安装组件的第一节点的数量和按照第二节点组来安装组件的第二节点的数量;校验集群模板的配置合理性,并响应于集群模板的配置合理而基于集群模板与多个第一节点和多个第二节点相对应地创建分别具有人工智能框架的多个虚拟机;为多个虚拟机配置通信基准,并基于通信基准分别向多个虚拟机的人工智能框架中导入深度学习镜像的技术方案,能够自动执行AIStation集群的部署工作,提升AIStation集群的可用性和易用性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的深度学习系统的部署方法的流程示意图;图2为本专利技术提供的深度学习系统的部署方法的详细流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术实施例进一步详细说明。需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发本文档来自技高网...

【技术保护点】
1.一种深度学习系统的部署方法,其特征在于,包括执行以下步骤:/n创建包括部署模块的人工智能插件,定义第一节点组和第二节点组的节点组模板,其中所述节点组模板包括指示第一节点组所安装的组件和第二节点组所安装的组件,并且部署模块中存储有外壳脚本,所述外壳脚本包括网络时间协议安装脚本和网络文件系统安装脚本;/n基于所述节点组模板定义设备组的集群模板,其中所述集群模板包括指示设备组中按照所述第一节点组来安装组件的第一节点的数量和按照所述第二节点组来安装组件的第二节点的数量;/n校验所述集群模板的配置合理性,并响应于所述集群模板的配置合理而基于所述集群模板与多个所述第一节点和多个所述第二节点相对应地创建分别具有人工智能框架的多个虚拟机;/n由所述部署模块向多个所述虚拟机分别部署同一时钟和免密通信,基于所述集群模板而在多个所述虚拟机上选择性地执行所述网络时间协议安装脚本和所述网络文件系统安装脚本,并由所述人工智能插件基于通信基准通过套接字命令使用所述外壳脚本分别向在所述集群模板中被指定的多个所述虚拟机的所述人工智能框架中导入深度学习镜像。/n

【技术特征摘要】
1.一种深度学习系统的部署方法,其特征在于,包括执行以下步骤:
创建包括部署模块的人工智能插件,定义第一节点组和第二节点组的节点组模板,其中所述节点组模板包括指示第一节点组所安装的组件和第二节点组所安装的组件,并且部署模块中存储有外壳脚本,所述外壳脚本包括网络时间协议安装脚本和网络文件系统安装脚本;
基于所述节点组模板定义设备组的集群模板,其中所述集群模板包括指示设备组中按照所述第一节点组来安装组件的第一节点的数量和按照所述第二节点组来安装组件的第二节点的数量;
校验所述集群模板的配置合理性,并响应于所述集群模板的配置合理而基于所述集群模板与多个所述第一节点和多个所述第二节点相对应地创建分别具有人工智能框架的多个虚拟机;
由所述部署模块向多个所述虚拟机分别部署同一时钟和免密通信,基于所述集群模板而在多个所述虚拟机上选择性地执行所述网络时间协议安装脚本和所述网络文件系统安装脚本,并由所述人工智能插件基于通信基准通过套接字命令使用所述外壳脚本分别向在所述集群模板中被指定的多个所述虚拟机的所述人工智能框架中导入深度学习镜像。


2.根据权利要求1所述的方法,其特征在于,还包括:在定义第一节点组和第二节点组的节点组模板之前先创建包括通用模块的人工智能插件,所述通用模块用于定义深度学习系统调用的所有组件;
定义第一节点组和第二节点组的节点组模板包括:从所述通用模块获取所有组件,并在由所有组件限定的范围内定义所述第一节点组和所述第二节点组的所述节点组模板。


3.根据权利要求1所述的方法,其特征在于,还包括:在定义第一节点组和第二节点组的节点组模板之前先创建包括验证模块的人工智能插件;
多个组件包括控制组件和高可用组件;
校验所述集群模板的配置合理性包括:使用所述验证模块检查所述集群模板中多个所述第一节点和多个所述第二节点上分别将安装的所述控制组件数量是否均为奇数、和/或将安装的所述高可用组件是否均配置了宕机状态检测功能。


4.根据权利要求3所述的方法,其特征在于,响应于所述集群模板的配置合理而基于所述集群模板与多个所述第一节点和多个所述第二节点相对应地创建分别具有人工智能框架的多个虚拟机包括:
响应于所述集群模板中多个所述第一节点和多个所述第二节点上分别将安装的所述控制组件数量均为奇数、和/或将安装的所述高可...

【专利技术属性】
技术研发人员:芮法玲
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1