模型训练方法、装置及集群系统制造方法及图纸

技术编号:24616449 阅读:37 留言:0更新日期:2020-06-24 02:46
本申请实施例公开了一种模型训练方法、装置及集群系统,涉及人工智能技术领域。具体实现方案为:硬件方面,通过将控制节点和至少一个计算节点通过网络互连,在计算节点中引入GPU作为计算资源,从而大幅度提升集群系统的硬件能力,进而提升模型训练的效率。软件方面,通过对slurm框架进行优化,引入客户端、超级管理平台等,使得集群系统用起来更方便。

Model training method, device and cluster system

【技术实现步骤摘要】
模型训练方法、装置及集群系统
本申请实施例涉及人工智能(ArtificialIntelligence,AI)
,尤其涉及一种模型训练方法、装置及集群系统。
技术介绍
随着人工智能的不断发展,对AI模型的训练需求也越来越大。AI模型训练过程中,当训练的数据集较小时,深度学习效果并不理想,甚至不如相对简单的机器学习方法。但是,当数据集增大后,利用深度学习训练出的AI模型的效果开始超过其他机器学习的训练效果。常见的深度学习过程中,通过使用高性能计算集群(highperformancecomputing,HPC)对大规模的数据集进行训练,以得到AI模型。HPC总体结构可分为以下几个主要部分:外部网络、主节点(masternode)、计算节点(computenode)、存储(stroage)、计算网络(computationnetwork)以及管理网络(managementnetwork)等。其中,计算节点的计算资源包括单核中央处理器(centralprocessingunit,CPU)、多核CPU或多CPU等。上述的HPC中,单个计算节点的计算资源主要以CPU为主,硬件能力有限,导致上述的HPC使用深度学习训练AI模型的效率较低。
技术实现思路
本申请实施例提供一种模型训练方法、装置及集群系统,通过使用具有GPU卡的计算节点来提高集群系统的硬件能力,从而提高模型训练的效率。第一方面,本申请实施例提供一种集群系统,包括:控制节点、至少一个计算节点、存储节点;其中,所述控制节点,与所述至少一个计算节点中的各计算节点建立连接,用于为训练目标模型的任务分配计算资源;所述计算节点包括至少一个中央处理器CPU和至少一个图形处理器GPU,用于利用所述计算资源训练目标模型;所述存储节点与所述至少一个计算节点中的各计算节点建立网络连接,用于存储训练目标模型所需的数据。一种可行的设计中,所述至少一个计算节点中的任意两个计算节点基于无限带宽Infiniband技术互联建立网络连接,所述计算节点内部的CPU与GPU通过高速外围组件互联PCIE连接,所述计算节点内部的GPU与GPU通过NVlink连接。第二方面,本申请实施例提供一种模型训练方法,适用于控制节点、至少一个计算节点、存储节点的集群系统,所述方法包括:所述控制节点接收应用程序接口API服务器发送的第一请求,所述第一请求是所述API服务器根据第一用户通过第一终端上的客户端发送的训练目标模型所需的资源信息得到的,所述控制节点根据所述资源信息,为所述目标模型分配目标资源,所述控制节点向目标计算节点发送第二请求,使得所述目标计算节点使用所述目标资源训练目标模型。一种可行的设计中,所述资源信息包括下述信息中的至少一个:目标计算节点的数量、利用所述目标计算节点训练所述目标模型时被占用的GPU的数量、利用所述目标计算节点训练所述目标模型时被占用的CPU的数量。一种可行的设计中,上述的方法还包括:所述控制节点接收第二终端设备发送的管理请求,所述管理请求用于请求管理所述集群系统中的计算节点,所述控制节点根据所述管理请求管理所述集群系统中的计算节点。一种可行的设计中,所述控制节点根据所述管理请求管理所述集群系统中的计算节点,包括:所述控制节点调用集群开放应用程序接口OpenAPI对第二用户鉴权;若所述第二用户通过鉴权,则所述控制节点根据所述管理请求管理所述集群系统中的计算节点。一种可行的设计中,所述管理请求携带所述第二用户的访问密钥标识和第一密钥,所述第一密钥是所述第二终端设备利用预设认证机制生成的,所述控制节点调用集群开放应用程序接口OpenAPI对第二用户鉴权,包括:所述控制节点调用所述集群OpenAPI,利用所述预设认证机制生成第二密钥,若所述第一密钥和所述第二密钥相同,则所述控制节点确定所述第二用户的管理权限,所述控制节点根据所述管理权限向所述第二终端设备发送权限信息,以使得所述第二终端设备根据所述权限信息显示所述第二用户对应的权限。一种可行的设计中,所述集群OpenAPI包括集群管理API,所述管理请求用于请求创建或删除集群;或者,所述集群OpenAPI包括机器管理API,所述管理请求用于请求对所述至少一个计算节点中的任意一个计算节点执行下述任一项操作:上线、下线、重启、重装、维修、屏蔽。第三方面,本申请实施例提供一种模型训练方法,适用于控制节点、至少一个计算节点、存储节点的集群系统,所述方法包括:目标计算节点接收控制节点发送的第二请求,所述第二请求是所述控制节点接收到应用程序接口API服务器发送的第一请求并为目标模型分配目标资源后发送的,所述第一请求是所述API服务器根据第一用户通过第一终端上的客户端发送的训练目标模型所需的资源信息得到的,所述目标节点包含于所述至少一个计算节点,所述目标计算节点使用所述目标资源训练所述目标模型,所述目标计算节点将训练好的目标模型发送至存储节点。一种可行的设计中,所述资源信息包括下述信息中的至少一个:目标计算节点的数量、利用所述目标计算节点训练所述目标模型时被占用的GPU的数量、利用所述目标计算节点训练所述目标模型时被占用的CPU的数量。一种可行的设计中,上述的方法还包括:所述目标计算节点接收所述第一终端设备发送的查询请求,所述查询请求用于请求展示所述目标计算节点上的目标资源训练所述目标模型时所述目标资源的使用状况,所述目标计算节点向所述第一终端设备发送查询响应,所述查询响应携带所述目标资源的使用状况信息,以使得所述第一终端设备根据所述使用状况信息显示所述目标资源的使用状况。第四方面,本申请实施例提供一种模型训练装置,包括:接收单元,用于接收应用程序接口API服务器发送的第一请求,所述第一请求携带训练目标模型所需的资源信息,所述第一请求是所述API服务器根据第一用户通过第一终端上的客户端发送的训练目标模型所需的资源信息得到的;处理单元,用于根据所述资源信息,为所述目标模型分配目标资源;;发送单元,用于向目标计算节点发送第二请求,使得所述目标计算节点使用所述目标资源训练目标模型。一种可行的设计中,所述资源信息包括下述信息中的至少一个:目标计算节点的数量、利用所述目标计算节点训练所述目标模型时被占用的GPU的数量、利用所述目标计算节点训练所述目标模型时被占用的CPU的数量。一种可行的设计中,所述接收单元,还用于接收第二终端设备发送的管理请求,所述管理请求用于请求管理所述集群系统中的计算节点;所述处理单元,还用于根据所述管理请求管理所述集群系统中的计算节点。一种可行的设计中,所述处理单元,在根据所述管理请求管理所述集群系统中的计算节点时,调用集群开放应用程序接口OpenAPI对第二用户鉴权,若所述第二用户通过鉴权,则根据所述管理请求管理所述集群系统中的计算节点。一种可行的设计中,所述管理请求携带所述第二用户的访问密钥标识和第一密钥,所述第一密钥是所述第二终端设备利用预设认证机制生成的,所述处理单元,用于调本文档来自技高网...

【技术保护点】
1.一种集群系统,其特征在于,包括:控制节点、至少一个计算节点、存储节点;其中,/n所述控制节点,与所述至少一个计算节点中的各计算节点建立连接,用于为训练目标模型的任务分配计算资源;/n所述计算节点包括至少一个中央处理器CPU和至少一个图形处理器GPU,用于利用所述计算资源训练目标模型;/n所述存储节点与所述至少一个计算节点中的各计算节点建立网络连接,用于存储训练目标模型所需的数据。/n

【技术特征摘要】
1.一种集群系统,其特征在于,包括:控制节点、至少一个计算节点、存储节点;其中,
所述控制节点,与所述至少一个计算节点中的各计算节点建立连接,用于为训练目标模型的任务分配计算资源;
所述计算节点包括至少一个中央处理器CPU和至少一个图形处理器GPU,用于利用所述计算资源训练目标模型;
所述存储节点与所述至少一个计算节点中的各计算节点建立网络连接,用于存储训练目标模型所需的数据。


2.根据权利要求1所述的系统,其特征在于,
所述至少一个计算节点中的任意两个计算节点基于无限带宽Infiniband技术互联建立网络连接,所述计算节点内部的CPU与GPU通过高速外围组件互联PCIE连接,所述计算节点内部的GPU与GPU通过NVlink连接。


3.一种模型训练方法,其特征在于,适用于控制节点、至少一个计算节点、存储节点的集群系统,所述方法包括:
所述控制节点接收应用程序接口API服务器发送的第一请求,所述第一请求是所述API服务器根据第一用户通过第一终端上的客户端发送的训练目标模型所需的资源信息得到的;
所述控制节点根据所述资源信息,为所述目标模型分配目标资源;
所述控制节点向目标计算节点发送第二请求,使得所述目标计算节点使用所述目标资源训练目标模型。


4.根据权利要求3所述的方法,其特征在于,所述资源信息包括下述信息中的至少一个:目标计算节点的数量、利用所述目标计算节点训练所述目标模型时被占用的GPU的数量、利用所述目标计算节点训练所述目标模型时被占用的CPU的数量。


5.根据权利要求3或4所述的方法,其特征在于,还包括:
所述控制节点接收第二终端设备发送的管理请求,所述管理请求用于请求管理所述集群系统中的计算节点;
所述控制节点根据所述管理请求管理所述集群系统中的计算节点。


6.根据权利要求5所述的方法,其特征在于,所述控制节点根据所述管理请求管理所述集群系统中的计算节点,包括:
所述控制节点调用集群开放应用程序接口OpenAPI对第二用户鉴权;
若所述第二用户通过鉴权,则所述控制节点根据所述管理请求管理所述集群系统中的计算节点。


7.根据权利要求6所述的方法,其特征在于,所述管理请求携带所述第二用户的访问密钥标识和第一密钥,所述第一密钥是所述第二终端设备利用预设认证机制生成的,所述控制节点调用集群开放应用程序接口OpenAPI对第二用户鉴权,包括:
所述控制节点调用所述集群OpenAPI,利用所述预设认证机制生成第二密钥;
若所述第一密钥和所述第二密钥相同,则所述控制节点确定所述第二用户的管理权限;
所述控制节点根据所述管理权限向所述第二终端设备发送权限信息,以使得所述第二终端设备根据所述权限信息显示所述第二用户对应的权限。


8.根据权利要求6所述的方法,其特征在于,
所述集群OpenAPI包括集群管理API,所述管理请求用于请求创建或删除集群;
或者,
所述集群OpenAPI包括机器管理API,所述管理请求用于请求对所述至少一个计算节点中的任意一个计算节点执行下述任一项操作:上线、下线、重启、重装、维修、屏蔽。


9.一种模型训练方法,其特征在于,适用于控制节点、至少一个计算节点、存储节点的集群系统,所述方法包括:
目标计算节点接收控制节点发送的第二请求,所述第二请求是所述控制节点接收到应用程序接口API服务器发送的第一请求并为目标模型分配目标资源后发送的,所述第一请求是所述API服务器根据第一用户通过第一终端上的客户端发送的训练目标模型所需的资源信息得到的,所述目标节点包含于所述至少一个计算节点;
所述目标计算节点使用所述目标资源训练所述目标模型;
所述目标计算节点将训练好的目标模型发送至存储节点。


10.根据权利要求9所述的方法,其特征在于,所述资源信息包括下述信息中的至少一个:目标计算节点的数量、利用所述目标计算节点训练所述目标模型时被占用的GPU的数量、利用所述目标计算节点训练所述目标模型时被占用的CPU的数量。


11.根据权利要求9或10所述的方法,其特征在于,还包括:
所述目标计算节点接收所述第一终端设备发送的查询请求,所述查询请求用于请求展示所述目标计算节点上的目标资源训练所述目标模型时所述目标资源的使用状况;
所述目标计算节点向所述第一终端设备发送查询响应,所述查询响应携带所述目标资源的使用状况信息,以使得所述第一终端设备根据所述使用状况信息显示所述目标资源的使用状况。

<...

【专利技术属性】
技术研发人员:骆宝童丁瑞全张恒华胡在斌黄凯文李志
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1