一种人工智能平台部署方法、装置和存储介质制造方法及图纸

技术编号:33348167 阅读:24 留言:0更新日期:2022-05-08 09:47
本发明专利技术涉及一种人工智能平台部署方法、装置和存储介质,方法包括:获取原始iso镜像信息,按照预设的iso镜像生成规则,生成包含GPU驱动的iso镜像;基于iso镜像的部署步骤,部署iso镜像于人工智能平台,若iso镜像的任一部署步骤的完成状态为真,且,iso镜像的任一部署步骤的日志信息不报错,则判定人工智能平台部署完成。通过生成包含GPU驱动的iso镜像,实现了将驱动直接集成部署至人工智能平台,有效降低了驱动安装失败的几率;并且基于本申请的iso镜像的部署步骤,可以实时监测iso镜像的任一部署步骤的完成状态和日志信息,确保iso镜像部署过程的可纠错性、可监控性、顺利性以及结果的可靠性。果的可靠性。果的可靠性。

【技术实现步骤摘要】
一种人工智能平台部署方法、装置和存储介质


[0001]本专利技术涉及人工智能平台构建
,尤其是指一种人工智能平台部署方法、装置和存储介质。

技术介绍

[0002]1999年,NVIDIA专利技术了显示核心(又称:视觉处理器、显示芯片或绘图芯片;全称:Graphics Processing Unit;简称:GPU),极大地推动了PC游戏市场的发展,重新定义了现代计算机图形技术,并彻底改变了并行计算。GPU深度学习为现代人工智能计算时代带来了新动力,GPU在能够感知和理解世界的计算机、机器人和自动驾驶汽车中发挥着大脑的作用,且现如今大部分的人工智能平台都离不开GPU驱动的安装部署,比如:像Ubuntu、CentOS之类的Linux发行版都默认集成了Nouveau驱动。采用Nouveau驱动的优势有很多,比如:可以让Linux系统更容易的应对各种复杂的NVIDIA显卡环境,让用户安装完系统即可进入桌面并且有不错的显示效果。但是,对于本领的技术人员而言,Nouveau驱动给技术人员的实际工作带来了诸多的弊端,具体表现在以下两个方面:
[0003]一方面,Nouveau会在安装linux操作系统时自动安装到系统中,被设置为默认的显卡驱动,并一直启动着服务。linux操作系统安装完后,如果不删除这些启动着的服务直接安装NVIDIA驱动的话,会提示“ERROR:The Nouveau kernel driver is currently in use by your system.This driver is incompatible with the NVIDIAdriver
……”
之类的错误信息,导致安装NVIDIA驱动失败。现有技术中,为了能够顺利地安装NVIDIA驱动,通常会在安装前通常会使用rmmod nouveau命令删除正在运行的nouveau进程,但是在使用该命令删除nouveau进程时,常常会删除不干净,出现卡死的情况,甚至需要重启服务器来解决问题,给安装部署NVIDIA驱动带来了很大的不便和风险问题。
[0004]另一方面,人工智能平台的安装过程往往需要部署很多的组件服务,例如管理docker镜像的harbor服务、容器化管理平台k8s集群、数据库服务、监控模块服务、用户管理模块服务等大量组件,同时还有很多的微服务模块。过多的组件服务会增加人工智能平台的安装部署过程的繁琐性,会增加人工智能平台的安装部署时长。
[0005]因此,急需提出一种能够避免出现安装驱动模块失败的情况、快速高效部署人工智能平台的人工智能平台部署方法、装置和存储介质。

技术实现思路

[0006]为了解决上述技术问题,本专利技术提供了一种人工智能平台部署方法、装置和存储介质,可以最大程度避免出现安装驱动模块失败的情况,可以快速高效部署人工智能平台,可以确保人工智能平台部署结果的可靠性。
[0007]为实现上述目的,本申请提出第一技术方案:
[0008]一种人工智能平台部署方法,包括以下步骤:获取GPU基本信息和原始iso镜像信息,按照预设的iso镜像生成规则,生成包含GPU驱动的iso镜像;基于iso镜像的部署步骤,
部署所述iso镜像于人工智能平台,并依次检测所述iso镜像的任一部署步骤的完成状态及日志信息;若所述iso镜像的任一部署步骤的完成状态为真,且,所述iso镜像的任一部署步骤的日志信息不报错,则判定所述人工智能平台部署完成。
[0009]在本专利技术的一个实施例中,所述预设的iso镜像生成规则具体包括:挂载所述原始iso镜像信息于本地服务器,获取所述原始iso镜像信息;解压所述原始iso镜像目录下的虚拟文件系统,删除所述虚拟文件系统目录下的驱动模块,压缩生成第一虚拟文件系统、以用于替换所述虚拟文件系统;解压所述原始iso镜像目录下的文件系统,挂载所述文件系统目录下的根文件系统于本地服务器,删除所述文件系统目录下的驱动模块,压缩生成第一文件系统、以用于替换所述文件系统;解压获取所述原始iso镜像目录下的内核源码,删除所述内核源码中的驱动配置,编译生成第一内核源码、以用于替换所述内核源码;将GPU驱动安装实现过程编译生成rpm包,并将所述rpm包更新至所述原始iso镜像目录下;编译所述原始iso镜像,生成包含GPU驱动的iso镜像。
[0010]在本专利技术的一个实施例中,所述部署所述iso镜像于人工智能平台具体包括:初始化所述iso镜像的任一部署步骤的安装状态为假;若完成所述iso镜像的当前部署步骤,则更改当前部署步骤的安装状态为真,若未完成所述iso镜像的当前部署步骤,则不改变当前部署步骤的安装状态;若所述iso镜像的当前部署步骤的安装状态为真,则获取所述当前部署步骤的日志信息。
[0011]在本专利技术的一个实施例中,所述依次检测部署所述iso镜像的任一部署步骤的完成状态及日志信息还包括:若所述iso镜像的当前部署步骤的安装状态为真,且,所述当前部署步骤的日志信息不报错,则判定所述iso镜像的当前部署步骤成功;若所述iso镜像的当前部署步骤的安装状态为真,但,所述当前部署步骤的日志信息报错,则判定所述iso镜像的当前部署步骤失败。
[0012]在本专利技术的一个实施例中,所述判定iso镜像的当前部署步骤失败包括:更改所述iso镜像的当前部署步骤的安装状态为假;定位所述当前部署步骤的日志信息的报错位置,并结合所述当前部署步骤的日志信息,解决所述当前部署步骤的iso镜像部署信息。
[0013]在本专利技术的一个实施例中,所述判定iso镜像的当前部署步骤失败还包括重新获取所述当前部署步骤的日志信息,直至所述当前部署步骤的安装状态为真,继续部署所述iso镜像于人工智能平台;或,重新遍历所述iso镜像的任一部署步骤的安装状态,继续部署所述iso镜像于人工智能平台。
[0014]在本专利技术的一个实施例中,所述重新遍历所述iso镜像的任一部署步骤的安装状态具体包括:依据所述iso镜像的部署步骤,顺次检测所述iso镜像的任一部署步骤的安装状态;若所述iso镜像的当前部署步骤的安装状态为真,则跳过所述当前部署步骤;若所述iso镜像的当前部署步骤的安装状态为假,则对应所述iso镜像的部署步骤,以所述当前部署步骤为起点,继续部署所述iso镜像于人工智能平台。
[0015]为实现上述目的,本申请还提出第二技术方案:
[0016]一种人工智能平台部署装置,所述装置包括:信息获取单元,以用于获取GPU基本信息和原始iso镜像信息;iso镜像生成单元,所述iso镜像生成单元与所述信息获取单元通信连接,所述iso镜像生成单元基于所述GPU信息和原始iso镜像信息,按照预设的iso镜像生成规则,生成包含GPU驱动的iso镜像;镜像部署单元,所述镜像部署单元与所述iso镜像
生成单元通信连接,所述镜像部署单元基于所述iso镜像及iso镜像的部署步骤,部署所述iso镜像于人工智能平台;镜像部署检测单元,所述镜像部署检测单元所述镜像部署单元通信连接,所述镜像部署检测单元以实现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人工智能平台部署方法,其特征在于:所述方法具体包括:获取GPU基本信息和原始iso镜像信息,按照预设的iso镜像生成规则,生成包含GPU驱动的iso镜像;基于iso镜像的部署步骤,部署所述iso镜像于人工智能平台,并依次检测所述iso镜像的任一部署步骤的完成状态及日志信息;若所述iso镜像的任一部署步骤的完成状态为真,且,所述iso镜像的任一部署步骤的日志信息不报错,则判定所述人工智能平台部署完成。2.根据权利要求1所述的人工智能平台部署方法,其特征在于:所述预设的iso镜像生成规则具体包括:挂载所述原始iso镜像信息于本地服务器,获取所述原始iso镜像信息;解压所述原始iso镜像目录下的虚拟文件系统,删除所述虚拟文件系统目录下的驱动模块,压缩生成第一虚拟文件系统、以用于替换所述虚拟文件系统;解压所述原始iso镜像目录下的文件系统,挂载所述文件系统目录下的根文件系统于本地服务器,删除所述文件系统目录下的驱动模块,压缩生成第一文件系统、以用于替换所述文件系统;解压获取所述原始iso镜像目录下的内核源码,删除所述内核源码中的驱动配置,编译生成第一内核源码、以用于替换所述内核源码;将GPU驱动安装实现过程编译生成rpm包,并将所述rpm包更新至所述原始iso镜像目录下;编译所述原始iso镜像,生成包含GPU驱动的iso镜像。3.根据权利要求1所述的人工智能平台部署方法,其特征在于:所述部署所述iso镜像于人工智能平台具体包括:初始化所述iso镜像的任一部署步骤的安装状态为假;若完成所述iso镜像的当前部署步骤,则更改当前部署步骤的安装状态为真,若未完成所述iso镜像的当前部署步骤,则不改变当前部署步骤的安装状态;若所述iso镜像的当前部署步骤的安装状态为真,则获取所述当前部署步骤的日志信息。4.根据权利要求2所述的人工智能平台部署方法,其特征在于:所述依次检测部署所述iso镜像的任一部署步骤的完成状态及日志信息还包括:若所述iso镜像的当前部署步骤的安装状态为真,且,所述当前部署步骤的日志信息不报错,则判定所述iso镜像的当前部署步骤成功;若所述iso镜像的当前部署步骤的安装状态为真,但,所述当前部署步骤的日志信息报错,则判定所述iso镜像的当前部署步骤失败。5.根据权利要求4所述的人工智能平台部署方法,其特征在于:所述判定iso镜像的当前部署步骤失败包括:更改所述iso镜像的当前部署步骤的安装状态为假;定位所述当前部署步骤的日志信息的报错位置,并结合所述当前部署步骤的日志信息,解决所述当前部署步骤的iso镜像部署信息。6.根据权利要求5所述的人工智能平台部署方法,其特征在于:所述判...

【专利技术属性】
技术研发人员:卢冰
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1