【技术实现步骤摘要】
一种模型训练加速方法及装置
[0001]本申请涉及人工智能
,尤其涉及一种模型训练加速方法及装置
。
技术介绍
[0002]随着人工智能领域的模型和数据的规模愈发庞大,模型训练过程中的计算任务和数据存储等步骤对于软硬件资源的需求也越来越高
。
传统的基于本地机器训练机器学习模型的方式逐渐被基于云端的模型训练解决方案所代替
。
[0003]为了提高模型训练的效率,云平台会对模型的训练过程进行加速处理
。
在模型加速训练之前,用户需要安装对应的加速包或者使用提供的加速镜像;或者用户需要修改代码,比如手动修改启动方式和环境变量等
。
也就是说,在模型加速训练之前,用户需要复杂的操作,用户体验差
。
技术实现思路
[0004]为了解决上述的问题,本申请的实施例中提供了一种模型训练加速方法及装置,用户只需要在云平台前端勾选所需的加速配置,不需要自行安装加速包或者加速镜像,也不需要修改代码,因此,本申请实施例解决了在模型训练加速前需要复杂的操作的问题
。
[0005]为此,本申请的实施例中采用如下技术方案:
[0006]第一方面,本申请实施例提供了一种模型训练加速方法,应用于云管理平台,该方法包括:云管理平台接收客户端发送的训练任务请求信息,训练任务请求信息包括待训练模型的信息和训练模式的信息,训练模式包括加速训练模式,加速训练模式的加速训练参数基于用户在加速配置界面中的操作确定;当训练模式为加速训练模式
【技术保护点】
【技术特征摘要】
1.
一种模型训练加速方法,其特征在于,应用于云管理平台,所述方法包括:所述云管理平台接收客户端发送的训练任务请求信息,所述训练任务请求信息包括待训练模型的信息和训练模式的信息,所述训练模式包括加速训练模式,所述加速训练模式的加速训练参数基于用户在加速配置界面中的操作确定;当所述训练模式为所述加速训练模式时,所述云管理平台根据所述加速训练参数,加载加速库中对应的目标加速模块至训练节点;所述目标加速模块为所述加速库中具有加速功能的功能模块;所述云管理平台指示所述训练节点基于所述目标加速模块,对所述待训练模型进行加速训练
。2.
根据权利要求1所述的方法,其特征在于,所述加速配置界面包括加速选项;所述加速选项包括卷积加速
、
和
/
或数据加载加速
、
和
/
或编译优化
、
和
/
或矩阵加速;用户在所述加速配置界面中的操作包括:勾选或点击所述加速选项
。3.
根据权利要求1或2所述的方法,其特征在于,所述加速库包括多个加速模块;每个所述加速模块设置有适配器;所述适配器,用于适配所述加速模块与所述加速库
。4.
根据权利要求3所述的方法,其特征在于,每个所述加速模块相互独立,使得所述加速模块被独立新增或者独立更新
。5.
根据权利要求1‑4任意一项所述的方法,其特征在于,所述云管理平台指示所述训练节点基于所述目标加速模块,对所述待训练模型进行加速训练,包括:所述云管理平台将所述目标加速模块设置于用户自定义模块中;所述云管理平台运行用户训练容器中的用户脚本文件,所述用户脚本文件指示:从所述用户自定义模块中,获取所述目标加速模块;将所述待训练模型的原生算子替换为所述目标加速模块;所述原生算子为所述待训练模型中原有的具有计算功能的功能模块;基于替换后的所述目标加速模块,所述云管理平台指示所述训练节点对所述待训练模型进行加速训练
。6.
根据权利要求1‑5任意一项所述的方法,其特征在于,还包括:所述云管理平台确定第一时间和第二时间;所述第一时间为所述目标加速模块计算完成目标输入数据所需的时间;所述目标输入数据为预设条件成立时的加速训练过程中的所述目标加速模块的输入数据;所述预设条件包括训练迭代次数满足多个预设阈值;所述第二时间为原生算子计算完成所述目标输入数据所需的时间;所述原生算子为所述待训练模型中原有的具有计算功能的功能模块;基于所述第一时间
、
第二时间,所述云管理平台确定与显示加速收益
。7.
根据权利要求1‑6任意一项所述的方法,其特征在于,还包括:当所述目标加速模块加载成功时,所述云管理平台指示客户端向用户显示加载成功的提示;和
/
或当所述目标加速模块加载失败时,所述云管理平台指示客户端向用户显示加载失败和失败原因的提示
。8.
根据权利要求1‑7任意一项所述的方法,其特征在于,还包括:所述云管理平台检测所述待训练模型中是否存在可加速点;所述可加速点为所述待训练模型中的可以使用加速库中的加速模块进行加速的原生算子;所述原生算子为所述待训
练模型中原有的具有计算功能的功能模块;当存在所述可加速点时,所述云管理平台指示客户端向所述用户显示所述可加速点
、
和
/
或所述可加速点对应的加速模块
、
和
/
或所述可加速点对应的估计的加速收益
。9.
根据权利要求1‑8任意一项所述的方法,其特征在于,所述训练模式还包括标准训练模式;所述方法还包括:当所述训练模式为所述标准训练模式时,所述云管理平台检测所述待训练模型中是否存在可加速点;所述可加速点为所述待训练模型中的可以使用加速库中的加速模块进行加速的原生算子;所述原生算子为所述待训练模型中原有的具有计算功能的功能模块;当存在所述可加速点时,所述云管理平台指示客户端向所述用户显示所述可加速点
、
和
/
或所述可加速点对应的加速模块
、
和
/
或所述可加速点对应的估计的加速收益;所述云管理平台指示训练节点对所述待训练模型进行训练
。10.
一种模型训练加速装置,其特征在于,应用于云管理平台,所述装置包括:接收模块,用于接收客户端发送的训练任务请求信息,所述训练任务请求信息包括待训练模型的信息和训练模式的信息,所述训练模式包括加速训练模式,所述加速训练模式的加速训练参数基于用户在加速配置界面中的操作确定;加载模块,用于当所述训练模式为所述加速训练模式时,根据所述加速训练参数,加载加速库中对应的目标加速模块至训练节点;所述目标加速模块为所述加速库中...
【专利技术属性】
技术研发人员:沈亦凡,李谋,白小龙,张云,
申请(专利权)人:深圳华为云计算技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。