【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质
[0001]本申请涉及计算机
,特别涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
[0002]随着人工智能技术的发展,深度学习在计算机视觉、自然语言处理等多个领域得到广泛的应用,深度学习模型的网络结构越来越复杂,参数规模也越来越大。
[0003]在训练大规模深度学习模型时,由于训练的参数量大且训练过程中交换数据的规模量高,需求的GPU(Graphics Processing Unit,图形处理器)算力的规模量会达到万卡以上。在如此大规模的GPU计算设备集群上运行训练任务,如何保障训练集群资源的可用率,避免训练过程中出现因某些异构计算设备被雪崩宕机导致的模型训练周期拉长以及模型训练效率降低的情况,成为训练大规模深度学习模型时的一个亟待解决的问题。
技术实现思路
[0004]为了解决现有技术的问题,本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质。所述技术方案如下:
[0005]一方面,提供了一种数据处理方法,所述方法包括:
[0006]在基于异构计算设备集群对深度学习模型进行训练的过程中,检测所述异构计算设备集群中各异构计算设备的输出带宽;
[0007]基于各所述异构计算设备的输出带宽,查找输出带宽存在波动且波动幅度超过预设波动幅度阈值的异常异构计算设备;
[0008]若查找到所述异常异构计算设备,则从所述异构计算设备集群中筛选出第一数量的待调整异构计算设备;所述待调整异构计算设备的输出带 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:在基于异构计算设备集群对深度学习模型进行训练的过程中,检测所述异构计算设备集群中各异构计算设备的输出带宽;基于各所述异构计算设备的输出带宽,查找输出带宽存在波动且波动幅度超过预设波动幅度阈值的异常异构计算设备;若查找到所述异常异构计算设备,则从所述异构计算设备集群中筛选出第一数量的待调整异构计算设备;所述待调整异构计算设备的输出带宽大于除所述待调整异构计算设备之外的异构计算设备的输出带宽;基于所述异常异构计算设备所对应波动幅度的类型,对所述第一数量的待调整异构计算设备的训练数据吞吐量进行调整,直至所述异常异构计算设备的输出带宽恢复正常。2.根据权利要求1所述的方法,其特征在于,所述基于所述异常异构计算设备所对应波动幅度的类型,对所述第一数量的待调整异构计算设备的训练数据吞吐量进行调整,直至所述异常异构计算设备的输出带宽恢复正常,包括:基于所述异常异构计算设备所对应波动幅度的类型,获取多个不同的吞吐量调整幅度;从多个所述吞吐量调整幅度中选取当前吞吐量调整幅度;所述当前吞吐量调整幅度为多个所述吞吐量调整幅度中未被选取过的最小吞吐量调整幅度;基于所述当前吞吐量调整幅度,对所述第一数量的待调整异构计算设备的训练数据吞吐量执行目标调整操作;所述目标调整操作与所述类型相匹配;若执行目标调整操作后所述异常异构计算设备的输出带宽未恢复正常,且存在未被选取过的吞吐量调整幅度,则执行所述从多个所述吞吐量调整幅度中选取当前吞吐量调整幅度的步骤,直至执行目标调整操作后所述异常异构计算设备的输出带宽恢复正常。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:若执行目标调整操作后所述异常异构计算设备的输出带宽未恢复正常,且不存在未被选取过的吞吐量调整幅度,则执行所述从所述异构计算设备集群中筛选出第一数量的待调整异构计算设备,以及基于所述异常异构计算设备所对应波动幅度的类型,对所述第一数量的待调整异构计算设备的训练数据吞吐量进行调整,直至所述异常异构计算设备的输出带宽恢复正常的步骤。4.根据权利要求3所述的方法,其特征在于,所述从所述异构计算设备集群中筛选出第一数量的待调整异构计算设备,包括:按照异构计算设备集群中各异构计算设备的最近一次输出带宽,对所述异构计算设备集群中的异构计算设备进行降序排列;从多个不同的筛选百分比中选取当前筛选百分比;所述当前筛选百分比为多个所述筛选百分比中未被选取过的最小筛选百分比;基于所述当前筛选百分比筛选排序在前的异构计算设备,得到所述第一数量的待调整异构计算设备。5.根据权利要求4所述的方法,其特征在于,在所述异常异构计算设备所对应波动幅度的类型为下浮波动的情况下,所述目标调整操作为下调操作;在所述异常异构计算设备所对应波动幅度的类型为上浮波动的情况下,所述目标调整
操作为上调操作。6.根据权利要求1~5中任一项所述的方法,其特征在于,所述方法还包括:基于各所述异构计算设备的输出带宽,查找输出带宽存在波动且波动幅度未超过所述预设波动幅度阈值...
【专利技术属性】
技术研发人员:查冲,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。