一种数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39745462 阅读:22 留言:0更新日期:2023-12-17 23:44
本申请公开了一种数据处理方法、装置、电子设备及存储介质,该方法包括:在基于异构计算设备集群对深度学习模型进行训练的过程中,检测各异构计算设备的输出带宽,并在查找输出带宽存在波动且波动幅度超过预设波动幅度阈值的异常异构计算设备时,从异构计算设备集群中筛选出第一数量的待调整异构计算设备;待调整异构计算设备的输出带宽大于除待调整异构计算设备之外的异构计算设备;基于异常异构计算设备所对应波动幅度的类型,对第一数量的待调整异构计算设备的训练数据吞吐量进行调整,直至异常异构计算设备的输出带宽恢复正常。本申请保障了训练集群资源的可用率,避免了低效能设备被雪崩宕机导致的训练周期拉长以及训练效率降低的问题。练效率降低的问题。练效率降低的问题。

【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质


[0001]本申请涉及计算机
,特别涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展,深度学习在计算机视觉、自然语言处理等多个领域得到广泛的应用,深度学习模型的网络结构越来越复杂,参数规模也越来越大。
[0003]在训练大规模深度学习模型时,由于训练的参数量大且训练过程中交换数据的规模量高,需求的GPU(Graphics Processing Unit,图形处理器)算力的规模量会达到万卡以上。在如此大规模的GPU计算设备集群上运行训练任务,如何保障训练集群资源的可用率,避免训练过程中出现因某些异构计算设备被雪崩宕机导致的模型训练周期拉长以及模型训练效率降低的情况,成为训练大规模深度学习模型时的一个亟待解决的问题。

技术实现思路

[0004]为了解决现有技术的问题,本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质。所述技术方案如下:
[0005]一方面,提供了一种数据处理方法,所述方法包括:
[0006]在基于异构计算设备集群对深度学习模型进行训练的过程中,检测所述异构计算设备集群中各异构计算设备的输出带宽;
[0007]基于各所述异构计算设备的输出带宽,查找输出带宽存在波动且波动幅度超过预设波动幅度阈值的异常异构计算设备;
[0008]若查找到所述异常异构计算设备,则从所述异构计算设备集群中筛选出第一数量的待调整异构计算设备;所述待调整异构计算设备的输出带宽大于除所述待调整异构计算设备之外的异构计算设备的输出带宽;
[0009]基于所述异常异构计算设备所对应波动幅度的类型,对所述第一数量的待调整异构计算设备的训练数据吞吐量进行调整,直至所述异常异构计算设备的输出带宽恢复正常。
[0010]另一方面,提供了一种数据处理装置,所述装置包括:
[0011]输出带宽检测模块,用于在基于异构计算设备集群对深度学习模型进行训练的过程中,检测所述异构计算设备集群中各异构计算设备的输出带宽;
[0012]异常查找模块,用于基于各所述异构计算设备的输出带宽,查找输出带宽存在波动且波动幅度超过预设波动幅度阈值的异常异构计算设备;
[0013]第一待调整设备筛选模块,用于在查找到所述异常异构计算设备时,从所述异构计算设备集群中筛选出第一数量的待调整异构计算设备;所述待调整异构计算设备的输出带宽大于除所述待调整异构计算设备之外的异构计算设备的输出带宽;
[0014]第一吞吐量调整模块,用于基于所述异常异构计算设备所对应波动幅度的类型,
对所述第一数量的待调整异构计算设备的训练数据吞吐量进行调整,直至所述异常异构计算设备的输出带宽恢复正常。
[0015]在一个示例性的实施方式中,所述第一吞吐量调整模块,包括:
[0016]第一获取模块,用于基于所述异常异构计算设备所对应波动幅度的类型,获取多个不同的吞吐量调整幅度;
[0017]第一选取模块,用于从多个所述吞吐量调整幅度中选取当前吞吐量调整幅度;所述当前吞吐量调整幅度为多个所述吞吐量调整幅度中未被选取过的最小吞吐量调整幅度;
[0018]调整子模块,用于基于所述当前吞吐量调整幅度,对所述第一数量的待调整异构计算设备的训练数据吞吐量执行目标调整操作;所述目标调整操作与所述类型相匹配;若执行目标调整操作后所述异常异构计算设备的输出带宽未恢复正常,且存在未被选取过的吞吐量调整幅度,则执行所述从多个所述吞吐量调整幅度中选取当前吞吐量调整幅度的步骤,直至执行目标调整操作后所述异常异构计算设备的输出带宽恢复正常。
[0019]在一个示例性的实施方式中,所述第一吞吐量调整模块,还包括:
[0020]循环执行模,用于在执行目标调整操作后所述异常异构计算设备的输出带宽未恢复正常,且不存在未被选取过的吞吐量调整幅度时,执行所述从所述异构计算设备集群中筛选出第一数量的待调整异构计算设备,以及基于所述异常异构计算设备所对应波动幅度的类型,对所述第一数量的待调整异构计算设备的训练数据吞吐量进行调整,直至所述异常异构计算设备的输出带宽恢复正常的步骤。
[0021]在一个示例性的实施方式中,所述第一待调整设备筛选模块,包括:
[0022]排序模块,用于按照异构计算设备集群中各异构计算设备的最近一次输出带宽,对所述异构计算设备集群中的异构计算设备进行降序排列;
[0023]第二选取模块,用于从多个不同的筛选百分比中选取当前筛选百分比;所述当前筛选百分比为多个所述筛选百分比中未被选取过的最小筛选百分比;
[0024]待调整设备确定模块,用于基于所述当前筛选百分比筛选排序在前的异构计算设备,得到所述第一数量的待调整异构计算设备。
[0025]在一个示例性的实施方式中,在所述异常异构计算设备所对应波动幅度的类型为下浮波动的情况下,所述目标调整操作为下调操作;
[0026]在所述异常异构计算设备所对应波动幅度的类型为上浮波动的情况下,所述目标调整操作为上调操作。
[0027]在一个示例性的实施方式中,所述装置还包括:
[0028]目标设备查找模块,用于基于各所述异构计算设备的输出带宽,查找输出带宽存在波动且波动幅度未超过所述预设波动幅度阈值的目标异构计算设备;
[0029]第三选取模块,用于在查找到所述目标异构计算设备时,从多个预设百分比中选取当前预设百分比;所述当前预设百分比为多个所述预设百分比中未被选取过的最小预设百分比;
[0030]第二待调整设备筛选模块,用于基于所述当前预设百分比,从所述异构计算设备集群中筛选出第二数量的所述待调整异构计算设备;
[0031]第二吞吐量调整模块,用于对所述第二数量的所述待调整异构计算设备的训练数据吞吐量执行提升操作;若执行提升操作后所述目标异构计算设备的输出带宽恢复正常,
则执行所述从多个预设百分比选取当前预设百分比的步骤,直至不存在未被选取过的所述预设百分比。
[0032]在一个示例性的实施方式中,所述第二吞吐量调整模块,包括:
[0033]第一提升模块,用于基于第一提升比,对所述第二数量的所述待调整异构计算设备的训练数据吞吐量执行第一提升操作;
[0034]第二提升模块,用于在执行第一提升操作后所述目标异构计算设备的输出带宽恢复正常时,基于第二提升比,对所述第二数量的所述待调整异构计算设备的训练数据吞吐量执行第二提升操作;所述第二提升比大于所述第一提升比;
[0035]第三提升模块,用于在执行第二提升操作后所述目标异构计算设备的输出带宽恢复正常时,基于第三提升比,对所述第二数量的所述待调整异构计算设备的训练数据吞吐量执行第三提升操作;所述第三提升比大于所述第二提升比。
[0036]在一个示例性的实施方式中,所述输出带宽检测模块,包括:
[0037]输出带宽采集模块,用于对于所述异构计算设备集群中的每个异构计算设备,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:在基于异构计算设备集群对深度学习模型进行训练的过程中,检测所述异构计算设备集群中各异构计算设备的输出带宽;基于各所述异构计算设备的输出带宽,查找输出带宽存在波动且波动幅度超过预设波动幅度阈值的异常异构计算设备;若查找到所述异常异构计算设备,则从所述异构计算设备集群中筛选出第一数量的待调整异构计算设备;所述待调整异构计算设备的输出带宽大于除所述待调整异构计算设备之外的异构计算设备的输出带宽;基于所述异常异构计算设备所对应波动幅度的类型,对所述第一数量的待调整异构计算设备的训练数据吞吐量进行调整,直至所述异常异构计算设备的输出带宽恢复正常。2.根据权利要求1所述的方法,其特征在于,所述基于所述异常异构计算设备所对应波动幅度的类型,对所述第一数量的待调整异构计算设备的训练数据吞吐量进行调整,直至所述异常异构计算设备的输出带宽恢复正常,包括:基于所述异常异构计算设备所对应波动幅度的类型,获取多个不同的吞吐量调整幅度;从多个所述吞吐量调整幅度中选取当前吞吐量调整幅度;所述当前吞吐量调整幅度为多个所述吞吐量调整幅度中未被选取过的最小吞吐量调整幅度;基于所述当前吞吐量调整幅度,对所述第一数量的待调整异构计算设备的训练数据吞吐量执行目标调整操作;所述目标调整操作与所述类型相匹配;若执行目标调整操作后所述异常异构计算设备的输出带宽未恢复正常,且存在未被选取过的吞吐量调整幅度,则执行所述从多个所述吞吐量调整幅度中选取当前吞吐量调整幅度的步骤,直至执行目标调整操作后所述异常异构计算设备的输出带宽恢复正常。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:若执行目标调整操作后所述异常异构计算设备的输出带宽未恢复正常,且不存在未被选取过的吞吐量调整幅度,则执行所述从所述异构计算设备集群中筛选出第一数量的待调整异构计算设备,以及基于所述异常异构计算设备所对应波动幅度的类型,对所述第一数量的待调整异构计算设备的训练数据吞吐量进行调整,直至所述异常异构计算设备的输出带宽恢复正常的步骤。4.根据权利要求3所述的方法,其特征在于,所述从所述异构计算设备集群中筛选出第一数量的待调整异构计算设备,包括:按照异构计算设备集群中各异构计算设备的最近一次输出带宽,对所述异构计算设备集群中的异构计算设备进行降序排列;从多个不同的筛选百分比中选取当前筛选百分比;所述当前筛选百分比为多个所述筛选百分比中未被选取过的最小筛选百分比;基于所述当前筛选百分比筛选排序在前的异构计算设备,得到所述第一数量的待调整异构计算设备。5.根据权利要求4所述的方法,其特征在于,在所述异常异构计算设备所对应波动幅度的类型为下浮波动的情况下,所述目标调整操作为下调操作;在所述异常异构计算设备所对应波动幅度的类型为上浮波动的情况下,所述目标调整
操作为上调操作。6.根据权利要求1~5中任一项所述的方法,其特征在于,所述方法还包括:基于各所述异构计算设备的输出带宽,查找输出带宽存在波动且波动幅度未超过所述预设波动幅度阈值...

【专利技术属性】
技术研发人员:查冲
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1