【技术实现步骤摘要】
一种深度学习系统的部署方法和装置
本专利技术涉及人工智能领域,更具体地,特别是指一种深度学习系统的部署方法和装置。
技术介绍
人工智能,英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。现有技术中AIStation面向深度学习计算集群提供从数据上传、模型开发、模型训练、训练可视化的全流程训练服务。AIStation支持多种深度学习系统,能够快速部署深度学习训练环境,全面管理深度学习训练任务,为深度学习用户提供高效易用的平台;对计算集群的CPU(中央处理单元)及GPU(图形处理单元)资源进行统一的管理、调度及监控,有效的提高计算资源的利用率和生产率。但现有技术中部署AIStation集群过于复杂和难以实现。首先需要准备集群,并为所有节点安装操作系统;然后在管理节点上传安装包,并修改配置文件;再执行一步一步的安装脚本。安装操作系统是非常耗时的操作,尤其是当集群节点数量多时,光是安装操作系统就需要耗费非常多的人力,而修改配置和执行安装也是稍有不慎就会造成失败。针对现有技术中AIStation集群难以部署的问题,目前尚无有效的解决方案。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提出一种深度学习系统的部署方法和装置,能够自动执行AIStation集群的部署工作,提升AIStation集群的可用性和易用性。基于上述目的,本专利技术实施例的第一方面提供了一种深度学习系统的部署方法,包括执行以下步骤:定义第一节点组和第 ...
【技术保护点】
1.一种深度学习系统的部署方法,其特征在于,包括执行以下步骤:/n创建包括部署模块的人工智能插件,定义第一节点组和第二节点组的节点组模板,其中所述节点组模板包括指示第一节点组所安装的组件和第二节点组所安装的组件,并且部署模块中存储有外壳脚本,所述外壳脚本包括网络时间协议安装脚本和网络文件系统安装脚本;/n基于所述节点组模板定义设备组的集群模板,其中所述集群模板包括指示设备组中按照所述第一节点组来安装组件的第一节点的数量和按照所述第二节点组来安装组件的第二节点的数量;/n校验所述集群模板的配置合理性,并响应于所述集群模板的配置合理而基于所述集群模板与多个所述第一节点和多个所述第二节点相对应地创建分别具有人工智能框架的多个虚拟机;/n由所述部署模块向多个所述虚拟机分别部署同一时钟和免密通信,基于所述集群模板而在多个所述虚拟机上选择性地执行所述网络时间协议安装脚本和所述网络文件系统安装脚本,并由所述人工智能插件基于通信基准通过套接字命令使用所述外壳脚本分别向在所述集群模板中被指定的多个所述虚拟机的所述人工智能框架中导入深度学习镜像。/n
【技术特征摘要】
1.一种深度学习系统的部署方法,其特征在于,包括执行以下步骤:
创建包括部署模块的人工智能插件,定义第一节点组和第二节点组的节点组模板,其中所述节点组模板包括指示第一节点组所安装的组件和第二节点组所安装的组件,并且部署模块中存储有外壳脚本,所述外壳脚本包括网络时间协议安装脚本和网络文件系统安装脚本;
基于所述节点组模板定义设备组的集群模板,其中所述集群模板包括指示设备组中按照所述第一节点组来安装组件的第一节点的数量和按照所述第二节点组来安装组件的第二节点的数量;
校验所述集群模板的配置合理性,并响应于所述集群模板的配置合理而基于所述集群模板与多个所述第一节点和多个所述第二节点相对应地创建分别具有人工智能框架的多个虚拟机;
由所述部署模块向多个所述虚拟机分别部署同一时钟和免密通信,基于所述集群模板而在多个所述虚拟机上选择性地执行所述网络时间协议安装脚本和所述网络文件系统安装脚本,并由所述人工智能插件基于通信基准通过套接字命令使用所述外壳脚本分别向在所述集群模板中被指定的多个所述虚拟机的所述人工智能框架中导入深度学习镜像。
2.根据权利要求1所述的方法,其特征在于,还包括:在定义第一节点组和第二节点组的节点组模板之前先创建包括通用模块的人工智能插件,所述通用模块用于定义深度学习系统调用的所有组件;
定义第一节点组和第二节点组的节点组模板包括:从所述通用模块获取所有组件,并在由所有组件限定的范围内定义所述第一节点组和所述第二节点组的所述节点组模板。
3.根据权利要求1所述的方法,其特征在于,还包括:在定义第一节点组和第二节点组的节点组模板之前先创建包括验证模块的人工智能插件;
多个组件包括控制组件和高可用组件;
校验所述集群模板的配置合理性包括:使用所述验证模块检查所述集群模板中多个所述第一节点和多个所述第二节点上分别将安装的所述控制组件数量是否均为奇数、和/或将安装的所述高可用组件是否均配置了宕机状态检测功能。
4.根据权利要求3所述的方法,其特征在于,响应于所述集群模板的配置合理而基于所述集群模板与多个所述第一节点和多个所述第二节点相对应地创建分别具有人工智能框架的多个虚拟机包括:
响应于所述集群模板中多个所述第一节点和多个所述第二节点上分别将安装的所述控制组件数量均为奇数、和/或将安装的所述高可...
【专利技术属性】
技术研发人员:芮法玲,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。