System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于NARX模型的大模型训练慢节点检测方法技术_技高网

一种基于NARX模型的大模型训练慢节点检测方法技术

技术编号:42622898 阅读:14 留言:0更新日期:2024-09-06 01:26
本发明专利技术公开了一种基于NARX模型的大模型训练慢节点检测方法,包括:模型的准备,通过实际的训练获取一个NARX模型;模型的应用,通过使用训练好的模型对实际训练过程中的节点进行检测,发现异常,并根据模型的实际情况进行自动化处理。本发明专利技术通过节点参数面和存储面网卡的input和ouput数据训练一个对应框架和模型的NARX模型,然后将训练好的NARX模型用于分布式模型训练中,通过对训练过程中各节点多网卡数据的实时检测,进行网络异常发现,进而预测节点异常,并根据模型训练的实际情况对异常节点进行处理,提升慢节点的发现时间和定位,最终提升大模型的训练效率,降低因节点异常导致的重复训练等卡时浪费,当流量出现异常第一时间就能识别到。

【技术实现步骤摘要】

本专利技术涉及数据检测的,尤其涉及一种基于narx模型的大模型训练慢节点检测方法。


技术介绍

1、大模型分布式训练过程中,由于单个节点内软件或硬件故障导致该节点训练速度变慢,最终使得整个分布式训练任务的训练速度下降的节点,定义为慢节点。随着llm模型的火热,参数量从几十亿到千亿,万亿演进。分布式训练需要的节点数也越来越多,多节点分布式训练过程中,需要所有的节点协同工作。一旦出现慢节点,而且无法及时发现,会极大的拖慢训练速度。

2、大规模多节点分布式训练过程中,根据统计数据显示慢节点出现的概率高达30%,如何发现慢节点或故障节点是目前行业难题。本专利希望通过基于narx模型的节点流量异常检测方法来对慢节点进行预测和提前发现,从而实现可以提前保存checkpoint或提前将问题节点从分布式训练集群中剔除,保证分布式训练的高效进行。


技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。

2、为解决上述技术问题,本专利技术提供如下技术方案:

3、一种基于narx模型的大模型训练慢节点检测方法,包括:

4、s1、模型的准备,通过实际的训练获取一个narx模型;

5、s2、模型的应用,通过使用训练好的模型对实际训练过程中的节点进行检测,发现异常,并根据模型的实际情况进行自动化处理。

6、作为本专利技术所述一种基于narx模型的大模型训练慢节点检测方法的一种优选方案,其中:所述s1中模型的准备具体步骤包括:

7、s11、启动针对单一模型的分布式训练任务,并在各节点部署网络数据采集agent;

8、s12、采集训练过程中所有网卡的input和output数据,并存入时序数据库;

9、s13、对存入的数据进行数据清洗;

10、s14、通过多轮次训练,采集相关数据,构建一个高质量数据集;

11、s15、设计时间序列narx反馈神经网络;

12、s16、使用前面建设好的数据集进行模型训练;

13、s17、将得到质量合格的模型存入模型仓库。

14、作为本专利技术所述一种基于narx模型的大模型训练慢节点检测方法的一种优选方案,其中:所述s12中所述网卡包括参数面网卡和存储面网卡。

15、作为本专利技术所述一种基于narx模型的大模型训练慢节点检测方法的一种优选方案,其中:所述s12中的数据库具体为tsdb时间序列数据库。

16、作为本专利技术所述一种基于narx模型的大模型训练慢节点检测方法的一种优选方案,其中:所述s15中反馈神经网络中参数面网卡、存储面网卡,以及每个网卡的input带宽和output带宽都作为神经网络参数输入。

17、作为本专利技术所述一种基于narx模型的大模型训练慢节点检测方法的一种优选方案,其中:所述s2中模型的应用具体步骤包括:

18、s21、启动分布式的大模型训练任务;

19、s22、同时启动第一部分训练好的大模型;

20、s23、将各节点各网卡的的网络出入流量作为参数输入推理任务;

21、s24、通过输入参数对各节点情况进行时间序列预测;

22、s25、发现慢节点以后,对训练任务进行评估;

23、s26、若任务为弹性训练任务,则直接将异常慢节点剔除,重新进行任务调度,继续训练;

24、s27、若任务不可进行弹性训练,触发框架进行checkpoint保存;

25、s28、checkpoint保存好以后,停止任务。

26、作为本专利技术所述一种基于narx模型的大模型训练慢节点检测方法的一种优选方案,其中:所述s22中的大模型在模型仓库中进行选择合适的模型。

27、作为本专利技术所述一种基于narx模型的大模型训练慢节点检测方法的一种优选方案,其中:所述s23中通过监控获取每个节点输入输出数据。

28、作为本专利技术所述一种基于narx模型的大模型训练慢节点检测方法的一种优选方案,其中:所述s23中获取的数据均存储至tsdb中。

29、作为本专利技术所述一种基于narx模型的大模型训练慢节点检测方法的一种优选方案,其中:所述s27中对checkpoint进行保存,具体将其保存至hpfs中。

30、本专利技术的有益效果:

31、通过节点参数面和存储面网卡的input和ouput数据训练一个对应框架和模型的narx模型,然后将训练好的narx模型用于分布式模型训练中,通过对训练过程中各节点多网卡数据的实时检测,进行网络异常发现,进而预测节点异常,并根据模型训练的实际情况对异常节点进行处理,提升慢节点的发现时间和定位,最终提升大模型的训练效率,降低因节点异常导致的重复训练等卡时浪费,无需端到端去做硬件故障检测,也不需要对软件软流程进行监控,当流量出现异常第一时间就能识别到。

本文档来自技高网...

【技术保护点】

1.一种基于NARX模型的大模型训练慢节点检测方法,其特征在于:包括:

2.根据权利要求1所述的一种基于NARX模型的大模型训练慢节点检测方法,其特征在于:所述S1中模型的准备具体步骤包括:

3.根据权利要求2所述的一种基于NARX模型的大模型训练慢节点检测方法,其特征在于:所述S12中所述网卡包括参数面网卡和存储面网卡。

4.根据权利要求3所述的一种基于NARX模型的大模型训练慢节点检测方法,其特征在于:所述S12中的数据库具体为TSDB时间序列数据库。

5.根据权利要求4所述的一种基于NARX模型的大模型训练慢节点检测方法,其特征在于:所述S15中反馈神经网络中参数面网卡、存储面网卡,以及每个网卡的input带宽和output带宽都作为神经网络参数输入。

6.根据权利要求5所述的一种基于NARX模型的大模型训练慢节点检测方法,其特征在于:所述S2中模型的应用具体步骤包括:

7.根据权利要求6所述的一种基于NARX模型的大模型训练慢节点检测方法,其特征在于:所述S22中的大模型在模型仓库中进行选择合适的模型

8.根据权利要求7所述的一种基于NARX模型的大模型训练慢节点检测方法,其特征在于:所述S23中通过监控获取每个节点输入输出数据。

9.根据权利要求8所述的一种基于NARX模型的大模型训练慢节点检测方法,其特征在于:所述S23中获取的数据均存储至TSDB中。

10.根据权利要求9所述的一种基于NARX模型的大模型训练慢节点检测方法,其特征在于:所述S27中对checkpoint进行保存,具体将其保存至HPFS中。

...

【技术特征摘要】

1.一种基于narx模型的大模型训练慢节点检测方法,其特征在于:包括:

2.根据权利要求1所述的一种基于narx模型的大模型训练慢节点检测方法,其特征在于:所述s1中模型的准备具体步骤包括:

3.根据权利要求2所述的一种基于narx模型的大模型训练慢节点检测方法,其特征在于:所述s12中所述网卡包括参数面网卡和存储面网卡。

4.根据权利要求3所述的一种基于narx模型的大模型训练慢节点检测方法,其特征在于:所述s12中的数据库具体为tsdb时间序列数据库。

5.根据权利要求4所述的一种基于narx模型的大模型训练慢节点检测方法,其特征在于:所述s15中反馈神经网络中参数面网卡、存储面网卡,以及每个网卡的input带宽和output带宽都作为神经网络参数输入。

【专利技术属性】
技术研发人员:王华夏
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1