【技术实现步骤摘要】
节点预选方法、pod调度方法、装置、服务器及介质
[0001]本专利技术实施例涉及通信
,尤其涉及一种节点预选方法、pod调度方法、装置、服务器及介质。
技术介绍
[0002]现有的Ring
‑
AllReduce通信策略在进行单主机少量节点的分布式训练时,加速效果明显,但是如果训练任务过大,就不得不采用多主机多节点的环形。
[0003]目前,在选择节点组成ring时,主要采用随机调度的方式,即只要满足训练任务的资源要求就可能会被调度使用。这种方式导致选择的节点可能位于多个主机,且多个主机之间可能需要跨主机才可以通信的情况,通信开销比较大。
技术实现思路
[0004]本专利技术实施例提供一种节点预选方法、pod调度方法、装置、服务器及介质,旨减少节点之间的通信开销。
[0005]为解决上述问题,本专利技术是这样实现的:
[0006]第一方面,本专利技术实施例提供了一种基于Kubernetes的节点预选方法,所述方法包括:
[0007]在接收到训练任务后,确定所述训练任务对应的总卡数;
[0008]根据所述训练任务遍历集群,选择所述集群中X个空闲卡数最大的第一节点;
[0009]从所述集群中剩余节点中选择满足剩余卡数的第二节点。
[0010]第二方面,本专利技术实施例提供了一种基于Kubernetes的pod调度方法,所述方法包括:
[0011]在接收到训练任务后,确定所述训练任务对应的总卡数,并确定集群中各节点的空闲 ...
【技术保护点】
【技术特征摘要】
1.一种基于Kubernetes的节点预选方法,其特征在于,所述方法包括:在接收到训练任务后,确定所述训练任务对应的总卡数;根据所述训练任务遍历集群,选择所述集群中X个空闲卡数最大的第一节点;从所述集群中剩余节点中选择满足剩余卡数的第二节点。2.根据权利要求1所述的方法,其特征在于,若所述节点的最大空闲卡数为N,所述根据所述训练任务遍历集群,选择所述集群中X个空闲卡数最大的第一节点,包括:根据所述训练任务遍历集群,选择所述集群中X个空闲卡数为N的第一节点,其中,X等于所述总卡数与N的比值并向下取整。3.根据权利要求2所述的方法,其特征在于,所述根据所述训练任务遍历集群,选择所述集群中X个空闲卡数最大的第一节点,还包括:若所述集群中不存在空闲卡数为N的节点,则从所述集群中选择X个空闲卡数N
‑
1的第一节点,其中,X等于所述总卡数与N
‑
1的比值并向下取整。4.根据权利要求1所述的方法,其特征在于,所述从所述集群中剩余节点中选择满足剩余卡数的第二节点,包括:若所述剩余节点中存在空闲卡数等于剩余卡数的节点,则选择空闲卡数等于剩余卡数的节点为所述第二节点。5.根据权利要求4所述的方法,其特征在于,所述从所述集群中剩余节点中选择满足剩余卡数的第二节点,还包括:若所述剩余节点中不存在空闲卡数等于剩余卡数的节点,则从所述剩余节点中选择空闲卡数与所述剩余卡数之间差值最小的节点,以及空闲卡数等于所述差值的节点作为所述第二节点。6.根据权利要求1所述的方法,其特征在于,所述第一节点和第二节点均符合所述训练任务对应的预设条件,所述预设条件包括节点的核数、节点的最大卡数、节点的网络类型中的至少一种。7.一种基于Kubernetes的pod调度方法,其特征在于,所述方法包括:在接收到训练任务后,确定所述训练任务对应的总卡数,并确定集群中各节点的空闲卡数;根据各节点的空闲卡数对各节点分配编号,其中,空闲卡数相同的节点的编号对应的rank号相同,rank号相邻的节点之间能够直接通信或者相互通信时通过经过的节点数最少,同一主机内各节点的编号连续;根据所述训练任务遍历所述集群,选择所述集群中X个空闲卡数最大的第一节点,其中各所述第一节点的rank号相同或者相邻;从所述集群中剩余节点中选择满足剩余卡数的第二节点;根据所述第一节点和第二节点对应的编号启动pod调度,以执行所述训练任务。8.根据权利要求7所述的方法,其特征在于,若所述节点的最大空闲卡数为N,所述根据所述训练任务遍历集群,选择所述集群中X个空闲卡数最大的第一节点,包括:根据所述训练任务遍历集群,选择所述集群中X个空闲卡数为N的第一节点,其中,X等于所述总卡数与N的比值并向下取整。9.根据权利要求8所述的...
【专利技术属性】
技术研发人员:闫晓瑞,丛鹏宇,冯俊兰,邓超,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。