System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理方法、装置、电子设备及存储介质制造方法及图纸_技高网

数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:43710377 阅读:2 留言:0更新日期:2024-12-18 21:22
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质,所述方法包括:获取算力设备集群中的多个算力设备在当前时间节点的运行状态数据;对所述算力设备集群进行状态波动分析,得到第一波动分析结果;在所述第一波动分析结果表征所述当前时间节点的传输状态数据的波动幅度大于第一预设幅度的情况下,确定每个算力设备在所述当前时间节点的目标处理数据量;基于每个算力设备在所述当前时间节点的目标处理数据量对每个算力设备进行状态波动分析,得到第二波动分析结果;基于所述第二波动分析结果,从所述多个算力设备中确定出异常算力设备。本申请能够提高对异常设备的定位效率以及定位准确性。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种数据处理方法、装置、电子设备及存储介质


技术介绍

1、在人工智能大模型训练时,大模型训练的参数量大且训练过程中交换数据的规模量高,需求的算力规模量会到万卡以上,因此需要具有大数据量处理能力的算力设备,例如将多个gpu(graphics processing unit,图形处理器)连接起来形成gpu集群,可以满足大数据量的数据处理需求。在如此大规模的算力设备上运行训练任务,如何衡量算力运行态是否正常是大模型训练中亟待解决的问题。

2、现有技术中在可基于任务运行状态来衡量算力设备集群的运行状态,虽然任务的成功与否状态可衡量算力设备集群的运行状态,但却无法在算力设备集群处于异常状态下对算力设备集群中的异常设备进行定位。


技术实现思路

1、本申请所要解决的技术问题在于,提供一种数据处理方法、装置、电子设备及存储介质,能够实时获知算力设备集群中各算力设备的状态数据,进而在异常状态下实现对异常设备的定位,提高对算力设备管理的效率以及便利性,提高对异常设备的定位效率以及定位准确性。

2、为了解决上述技术问题,一方面,本申请实施例提供了一种数据处理方法,包括:

3、获取算力设备集群中的多个算力设备在当前时间节点的运行状态数据;所述运行状态数据包括表征每个算力设备数据传输情况的传输状态数据,以及表征每个算力设备算力使用情况的算力状态数据;

4、基于所述多个算力设备在所述当前时间节点的传输状态数据对所述算力设备集群进行状态波动分析,得到第一波动分析结果;

5、在所述第一波动分析结果表征所述当前时间节点的传输状态数据,相对于历史时间节点的传输状态数据的波动幅度大于第一预设幅度的情况下,基于每个算力设备在所述当前时间节点的传输状态数据以及每个算力设备在所述当前时间节点的算力状态数据,确定每个算力设备在所述当前时间节点的目标处理数据量;所述目标处理数据量表征相应算力设备的数据处理能力;

6、基于每个算力设备在所述当前时间节点的目标处理数据量对每个算力设备进行状态波动分析,得到第二波动分析结果;

7、基于所述第二波动分析结果,从所述多个算力设备中确定出异常算力设备;所述异常算力设备在所述当前时间节点的目标处理数据量,相对于所述异常算力设备在所述历史时间节点的目标处理数据量的波动幅度大于第二预设幅度。

8、另一方面,本申请实施例提供了一种数据处理装置,包括:

9、运行状态数据获取模块,用于获取算力设备集群中的多个算力设备在当前时间节点的运行状态数据;所述运行状态数据包括表征每个算力设备数据传输情况的传输状态数据,以及表征每个算力设备算力使用情况的算力状态数据;

10、第一波动分析模块,用于基于所述多个算力设备在所述当前时间节点的传输状态数据对所述多个算力设备进行状态波动分析,得到第一波动分析结果;

11、第一确定模块,用于在所述第一波动分析结果表征所述当前时间节点的传输状态数据,相对于历史时间节点的传输状态数据的波动幅度大于第一预设幅度的情况下,基于每个算力设备在所述当前时间节点的传输状态数据以及每个算力设备在所述当前时间节点的算力状态数据,确定每个算力设备在所述当前时间节点的目标处理数据量;所述目标处理数据量表征相应算力设备的数据处理能力;

12、第二波动分析模块,用于基于每个算力设备在所述当前时间节点的目标处理数据量对每个算力设备进行状态波动分析,得到第二波动分析结果;

13、第二确定模块,用于基于所述第二波动分析结果,从所述多个算力设备中确定出异常算力设备;所述异常算力设备在所述当前时间节点的目标处理数据量,相对于所述异常算力设备在所述历史时间节点的目标处理数据量的波动幅度大于第二预设幅度。

14、另一方面,本申请提供了一种电子设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的数据处理方法。

15、另一方面,本申请提供了一种计算机存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行如上述的数据处理方法。

16、实施本申请实施例,具有如下有益效果:

17、本申请中可通过对算力设备集群在当前时间节点的传输状态数据进行波动分析,并且在传输状态数据的波动幅度大于第一预设幅度的情况下,进一步基于算力设备集群中每个算力设备的传输状态数据以及算力状态数据,确定每个算力设备在当前时间节点的目标处理数据量;然后基于每个算力设备的目标处理数据量的波动幅度,从算力设备集群中确定出异常算力设备。本申请中通过获取与算力设备性能相关的传输状态数据以及算力状态数据,便于了解算力设备集群中各算力设备的性能状态,提高对算力设备管理的效率以及便利性;进一步地,在确定算力设备集群的传输状态数据异常的情况下,基于每个算力设备的目标处理数据量的波动情况,确定出异常算力设备,由于目标处理数据量是基于实时获取的真实运行状态数据进行计算得到的,从而保证了目标处理数据量的实时性以及准确性,进而基于目标处理数据量确定异常算力设备,提高对异常设备的定位效率以及定位准确性。

本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,每个算力设备中包括多个算力节点,每个算力设备的传输状态数据包括所述多个算力节点各自对应的传输状态数据,每个算力设备的算力状态数据包括所述多个算力节点各自对应的算力状态数据;

3.根据权利要求1所述的方法,其特征在于,每个算力设备的传输状态数据包括每个算力设备与其他算力设备之间的第一数据传输速率,以及每个算力设备中显存与内存之间的第二数据传输速率,所述其他算力设备为所述多个算力设备中除当前算力设备以外的算力设备;

4.根据权利要求3所述的方法,其特征在于,每个算力设备的算力状态数据包括每个算力设备的显存使用量以及每个算力设备的算力资源使用率;

5.根据权利要求4所述的方法,其特征在于,每个算力设备包括多个算力节点,每个算力设备的第二数据传输速率包括所述多个算力节点各自对应的第三数据传输速率;所述第三数据传输速率为每个算力节点与内存之间的数据传输速率;每个算力设备的显存使用量包括所述多个算力接待各自对应的显存使用量;每个算力设备的算力资源使用率包括所述多个算力节点各自对应的算力资源使用率;

6.根据权利要求1或4所述的方法,其特征在于,所述基于每个算力设备在所述当前时间节点的目标处理数据量对每个算力设备进行状态波动分析,得到第二波动分析结果,包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.一种数据处理装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的数据处理方法。

10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行如权利要求1至7任一项所述的数据处理方法。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,每个算力设备中包括多个算力节点,每个算力设备的传输状态数据包括所述多个算力节点各自对应的传输状态数据,每个算力设备的算力状态数据包括所述多个算力节点各自对应的算力状态数据;

3.根据权利要求1所述的方法,其特征在于,每个算力设备的传输状态数据包括每个算力设备与其他算力设备之间的第一数据传输速率,以及每个算力设备中显存与内存之间的第二数据传输速率,所述其他算力设备为所述多个算力设备中除当前算力设备以外的算力设备;

4.根据权利要求3所述的方法,其特征在于,每个算力设备的算力状态数据包括每个算力设备的显存使用量以及每个算力设备的算力资源使用率;

5.根据权利要求4所述的方法,其特征在于,每个算力设备包括多个算力节点,每个算力设备的第二数据传输速率包括所述多个算力节点各自对应的第三数据传输速率;所述第三数据传输速率为每个算力节点与内存之间...

【专利技术属性】
技术研发人员:查冲郑亚峰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1