一种计算机集群的NPU容错调度系统技术方案

技术编号：40555015 阅读：10 留言：0更新日期：2024-03-05 19:15

本发明专利技术公开了一种计算机集群的NPU容错调度系统，基于支持硬件健康度查询的NPU设备、具备节点内NPU卡群以及多节点集群拓扑，实现了节点级和系统级的容错。通过定义NPU卡的亲和度计算和工作负载状态，实现了考虑硬件亲和性和实时负载的任务调度。此外，系统针对推理任务和训练任务提出了不同的容错机制，能够对应单事件翻转错误和宕机错误进行调度。相比于传统的硬件冗余方式，本发明专利技术的系统在资源利用效率、实时性、自适应性等方面有了显著提升，更适应大规模、复杂的计算环境。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于深度学习和集群计算领域，尤其涉及一种计算机集群的npu容错调度系统。

技术介绍

1、随着计算需求的不断增长，npu（neural processing unit，神经处理单元）等特定用途的计算设备在计算机集群中的使用日益普遍。npu因其在处理大规模并行计算任务，特别是深度学习任务方面的优越性能，正在被广泛应用于各种计算场景中。

2、然而，与此同时，由于npu设备的复杂性，设备故障也时有发生。例如，过度使用、高温等因素都可能导致npu的性能下降，甚至发生故障。一旦npu设备故障，可能会导致正在运行的计算任务中断，从而对整个系统的稳定性和效率产生严重影响。因此，如何有效地进行计算机集群中npu的容错调度，是当前亟待解决的问题。

3、当前的集群调度系统，例如kubernetes，在管理和调度集群中的计算资源方面主要依赖于预设的规则和策略。对于复杂的npu设备故障问题，这些系统的预测和处理能力是有限的。特别是在大规模的集群环境中，由于npu设备数量众多且设备状态复杂多变，传统的调度策略难以满足高效和稳定的运行需求。

4、现有技术存在的主要问题是：

5、1、有限的预测和处理能力：传统的集群调度系统依赖于预设规则和策略，这限制了它们在处理复杂的npu设备故障时的效率和准确性。

6、2、不适应大规模、动态变化的环境：在大规模集群环境中，npu设备的数量和状态的复杂性使得传统的调度策略难以适应，从而影响了整个系统的效率和稳定性。

7、这些问题表明，需要一种更为

技术实现思路

1、针对现有技术存在的上述问题，本申请实施例的目的是提供一种计算机集群的npu容错调度系统。

2、根据本申请实施例的第一方面，提供一种计算机集群的npu容错调度系统，所述系统包括若干节点组成的多节点集群拓扑，其中一个所述节点为一个具有卡群拓扑的计算机设备，所述卡群拓扑由若干npu卡组成，所述npu卡支持健康度查询和运行状态查询，其中所述健康度为npu卡正常运行的能力，根据处理深度学习任务时的性能参数评估得到，运行状态是指npu卡的实时计算资源使用率、存储资源使用率和温度信息；

3、所述节点分为控制节点和工作节点；

4、所述工作节点上运行有节点状态收集单元，所述节点状态收集单元用于周期性收集npu卡的运行状态和健康度；

5、所述控制节点上运行有任务调度单元，所述任务调度单元用于在npu卡状态异常的条件下，根据所述节点状态收集单元收集的运行状态和健康度信息，结合自身存储的已分配<任务,节点>列表，对任务进行调度。

6、进一步地，所述任务调度单元中的任务分为深度学习推理任务和深度学习训练任务，并针对以下两种类型错误进行容错：在高辐射环境下单事件翻转带来的瞬时错误；由于电路内部微闩锁效应、过热、电源不稳定导致硬件强制关机或者重启的宕机错误。

7、进一步地，对于所述深度学习推理任务在高辐射环境下单事件翻转带来的瞬时错误，所述任务调度单元的容错调度包括如下步骤：

8、对于接收到的一个新的深度学习推理任务，所述任务调度单元在任务队列中进行该深度学习推理任务的拷贝，以确保任务的三模冗余执行；

9、根据所述深度学习推理任务所对应的待部署模型的最小资源要求，筛选当前空闲资源大于等于所述最小资源要求的npu卡并根据当前的工作负载从低到高排序生成备选npu卡列表；

10、若所述备选npu卡列表的长度小于3，则结束容错调度，该深度学习推理任务在所述任务队列中继续等待；反之则基于npu卡的工作负载和npu卡之间的亲和度，使用贪心算法选择 npu 卡组合并将所述待部署模型部署到所述npu卡组合上；

11、若三张选定的 npu 卡分布在不同的工作节点上，则选择其中一个工作节点作为主控节点，如果都在相同的工作节点，则由该工作节点作为主控节点；所述主控节点接收所述深度学习推理任务的输入数据，并将所述输入数据分发到三张 npu 卡上的模型，每张npu 卡完成推理后将各自的结果返回给主控节点，所述主控节点收集三个推理结果，并通过多数投票机制来确定最终的推理结果。

12、进一步地，使用贪心算法选择 npu 卡组合，包括：

13、从所述备选 npu 卡列表中选择工作负载最低的npu卡作为第一个 npu；

14、从所述备选 npu 卡列表中的剩余备选 npu 卡中选择与第一个 npu 亲和度最高的 npu 卡作为第二个 npu；

15、从剩余备选 npu 卡中选择一个 npu 卡，使得其与前两个 npu 卡的平均亲和度最高，作为第三个 npu。

16、进一步地，npu卡之间的亲和度得分基于物理距离得分、数据传输速率得分或网络拓扑得分设置，npu 卡的工作负载状态，c为归一化的实时计算资源使用率，s为归一化的实时存储资源使用率，t为归一化的 npu 温度信息，是对应的权重因子。

17、进一步地，对于三模冗余执行的所述深度学习推理任务在推理过程中由于电路内部微闩锁效应、过热、电源不稳定导致硬件强制关机或者重启产生的宕机错误，任务所在的三块npu其中一块发生故障，所述任务调度单元的容错调度包括：

18、根据所述深度学习推理任务对应的待部署模型的最小资源要求，筛选当前空闲资源大于等于所述最小资源要求的 npu 卡并根据当前的工作负载从低到高排序生成备选npu卡列表；

19、如果所述备选 npu 卡列表长度等于0或者目前冗余的任务副本数小于2，则结束正在运行的副本，该深度学习推理任务继续等待；反之基于npu卡的工作负载和npu卡之间的亲和度，使用贪心算法选择 npu 卡以形成三模冗余执行的npu卡组合；

20、将所述待部署模型部署到所选的npu卡上，并通知主控节点该任务副本部署的访问地址信息。

21、进一步地，对于所述深度学习训练任务在高辐射环境下单事件翻转带来的瞬时错误，所述任务调度单元的容错调度包括如下步骤：

22、s31：根据所述深度学习训练任务对应的待训练模型确定所需npu 卡数量；

23、s32：根据所述待训练模型的最小资源要求，筛选出当前空闲资源大于等于所述最小资源要求的 npu 卡，并根据当前的工作负载从低到高排序生成备选 npu 卡列表；

24、s33：如果所述备选 npu 卡列表长度小于所述所需npu 卡数量，结束并等待下次调度；反之，如果所述备选 npu 卡列表长度大于等于所述所需npu 卡数量，则基于npu卡的工作负载和npu卡之间的亲和度，使用贪心算法选择 npu 卡组合并将所述待训练模型部署到所选择的npu卡组合上；

25、s34：若选定的 npu 卡组合分布在不同的工作节点上，则选择其中一个工作节点作为主控节点，如果都在本文档来自技高网...

【技术保护点】

1.一种计算机集群的NPU容错调度系统，其特征在于，所述系统包括若干节点组成的多节点集群拓扑，其中一个所述节点为一个具有卡群拓扑的计算机设备，所述卡群拓扑由若干NPU卡组成，所述NPU卡支持健康度查询和运行状态查询，其中所述健康度为NPU卡正常运行的能力，根据处理深度学习任务时的性能参数评估得到，运行状态是指NPU卡的实时计算资源使用率、存储资源使用率和温度信息；

2.根据权利要求1所述的系统，其特征在于，所述任务调度单元中的任务分为深度学习推理任务和深度学习训练任务，并针对以下两种类型错误进行容错：在高辐射环境下单事件翻转带来的瞬时错误；由于电路内部微闩锁效应、过热、电源不稳定导致硬件强制关机或者重启的宕机错误。

3.根据权利要求2所述的系统，其特征在于，对于所述深度学习推理任务在高辐射环境下单事件翻转带来的瞬时错误，所述任务调度单元的容错调度包括如下步骤：

4.根据权利要求3所述的系统，其特征在于，使用贪心算法选择 NPU 卡组合，包括：

5.根据权利要求3所述的系统，其特征在于，NPU卡之间的亲和度得分基于物理距离得分、数据传

6.根据权利要求2所述的系统，其特征在于，对于三模冗余执行的所述深度学习推理任务在推理过程中由于电路内部微闩锁效应、过热、电源不稳定导致硬件强制关机或者重启产生的宕机错误，任务所在的三块NPU其中一块发生故障，所述任务调度单元的容错调度包括：

7.根据权利要求2所述的系统，其特征在于，对于所述深度学习训练任务在高辐射环境下单事件翻转带来的瞬时错误，所述任务调度单元的容错调度包括如下步骤：

8.根据权利要求2所述的系统，其特征在于，对于n模冗余执行的所述深度学习训练任务在任务推理过程中由于电路内部微闩锁效应、过热、电源不稳定导致硬件强制关机或者重启产生的宕机错误，任务所在n张NPU卡中的一张发生故障，所述任务调度单元的容错调度包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-8中任一项所述的系统。

...

【技术特征摘要】

1.一种计算机集群的npu容错调度系统，其特征在于，所述系统包括若干节点组成的多节点集群拓扑，其中一个所述节点为一个具有卡群拓扑的计算机设备，所述卡群拓扑由若干npu卡组成，所述npu卡支持健康度查询和运行状态查询，其中所述健康度为npu卡正常运行的能力，根据处理深度学习任务时的性能参数评估得到，运行状态是指npu卡的实时计算资源使用率、存储资源使用率和温度信息；

4.根据权利要求3所述的系统，其特征在于，使用贪心算法选择 npu 卡组合，包括：

5.根据权利要求3所述的系统，其特征在于，npu卡之间的亲和度得分基于物理距离得分、数据传输速率得分或网络拓扑...

【专利技术属性】
技术研发人员：汤昭荣，唐晓瑜，崔姝瑶，邱吉冰，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人