一种PS节点的资源配额处理方法和装置制造方法及图纸

技术编号:33285204 阅读:21 留言:0更新日期:2022-04-30 23:50
本发明专利技术实施例提供了一种PS节点的资源配额处理方法和装置,其中,所述方法包括:获取PS集群中当前PS节点的资源利用率、资源配额额定值和资源配额当前值;当资源利用率小于资源利用率下限阈值,且资源配额额定值小于资源配额当前值时,对资源配额当前值进行缩容处理;当资源利用率大于资源利用率上限阈值,且资源配额额定值大于或等于资源配额当前值时,对资源配额当前值进行扩容处理。本发明专利技术实施例既实现了对PS节点的资源配额进行动态调整,又避免了单纯地增加或减少PS节点的数目,而是增加或减少PS节点的资源配额,充分利用了系统资源。充分利用了系统资源。充分利用了系统资源。

【技术实现步骤摘要】
一种PS节点的资源配额处理方法和装置


[0001]本专利技术涉及互联网
,特别是涉及一种PS节点的资源配额处理方法和装置。

技术介绍

[0002]随着数据规模的增加和机器学习模型参数规模的增加,对模型的快速收敛提出了挑战,参数服务器(Parameter Server,简称PS)分布式训练架构(以下简称为PS架构)被广泛用于加速模型的收敛。
[0003]在PS架构中,模型的参数被分片并分配到不同的PS节点,PS节点负责该分片参数的存储及更新;训练数据被分片并分配到不同的工人(Worker)节点,不同的Worker节点进行数据并行(data

parallel)式训练,计算用于模型的参数更新的梯度并上报给PS节点。PS节点收到梯度后会对模型的参数进行更新。
[0004]目前大部分的技术方案都采用静态的PS资源配置,即在模型训练开始前选择一个资源配置,按照选择的资源配置利用PS节点对模型进行训练,直到训练任务结束。也有一些技术方案支持对PS节点进行弹性扩缩容,具体实现是以缩短训练任务的完成时间为主要目标,弹性地增加或者减少PS节点数目。
[0005]不论是静态的PS资源配置,还是面向最小化训练任务完成时间的横向弹性扩缩容,都没有充分利用系统资源,导致系统资源利用率不高。

技术实现思路

[0006]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种PS节点的资源配额处理方法和装置。
[0007]为了解决上述问题,根据本专利技术实施例的第一方面,公开了一种PS节点的资源配额处理方法,包括:获取PS集群中当前PS节点的资源利用率、资源配额额定值和资源配额当前值,所述当前PS节点用于存储和更新模型的参数;当所述资源利用率小于预设的资源利用率下限阈值,且所述资源配额额定值小于所述资源配额当前值时,对所述资源配额当前值进行缩容处理;当所述资源利用率大于预设的资源利用率上限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,对所述资源配额当前值进行扩容处理。
[0008]可选地,所述当所述资源利用率大于预设的资源利用率上限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,所述方法还包括:当不存在空余资源时,若所述资源利用率小于资源利用率额定阈值,则禁止对所述资源配额当前值进行扩容处理,并继续对所述模型进行训练。
[0009]可选地,所述当所述资源利用率大于预设的资源利用率上限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,所述方法还包括:当不存在空余资源时,若所述资源利用率大于或等于资源利用率额定阈值,则保存所述模型的训练进度和参数,终止对所述模型进行训练。
[0010]可选地,所述方法还包括:当所述资源利用率小于所述资源利用率下限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,禁止对所述资源配额当前值进行缩容处理。
[0011]可选地,所述方法还包括:当所述资源利用率大于所述资源利用率上限阈值,且所述资源配额额定值小于或等于所述资源配额当前值时,禁止对所述资源配额当前值进行扩容处理。
[0012]可选地,在所述获取PS集群中当前PS节点的资源利用率、资源配额额定值和资源配额当前值之前,所述方法还包括:在所述模型的训练任务启动之前,若存在所述模型的历史训练记录数据,则根据所述历史训练记录数据预估所述模型的训练任务在所述当前PS节点的资源配额数据。
[0013]可选地,所述获取所述资源配额额定值,包括:根据所述模型的训练阶段的资源占用量拟合资源占用增长曲线;根据所述模型的单条样本数据的训练平均耗时时长和样本数据的数量预估所述模型的训练任务的完成时间点;根据所述资源占用增长曲线和所述完成时间点获取所述资源配额额定值。
[0014]根据本专利技术实施例的第二方面,还公开了一种PS节点的资源配额处理装置,包括:获取模块,用于获取PS集群中当前PS节点的资源利用率、资源配额额定值和资源配额当前值,所述当前PS节点用于存储和更新模型的参数;缩容模块,用于当所述资源利用率小于预设的资源利用率下限阈值,且所述资源配额额定值小于所述资源配额当前值时,对所述资源配额当前值进行缩容处理;扩容模块,用于当所述资源利用率大于预设的资源利用率上限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,对所述资源配额当前值进行扩容处理。
[0015]可选地,所述装置还包括:维持模块,用于当所述资源利用率大于预设的资源利用率上限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,若不存在空余资源,且所述资源利用率小于资源利用率额定阈值,则禁止对所述资源配额当前值进行扩容处理,并继续对所述模型进行训练。
[0016]可选地,所述装置还包括:终止模块,用于当所述资源利用率大于预设的资源利用率上限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,若不存在空余资源,且所述资源利用率大于或等于资源利用率额定阈值,则保存所述模型的训练进度和参数,终止对所述模型进行训练。
[0017]可选地,所述装置还包括:禁止模块,用于当所述资源利用率小于所述资源利用率下限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,禁止对所述资源配额当前值进行缩容处理。
[0018]可选地,所述禁止模块,还用于当所述资源利用率大于所述资源利用率上限阈值,且所述资源配额额定值小于或等于所述资源配额当前值时,禁止对所述资源配额当前值进行扩容处理。
[0019]可选地,所述装置还包括:预估模块,用于在所述获取模块获取PS集群中当前PS节点的资源利用率、资源配额额定值和资源配额当前值之前,在所述模型的训练任务启动之前,若存在所述模型的历史训练记录数据,则根据所述历史训练记录数据预估所述模型的训练任务在所述当前PS节点的资源配额数据。
[0020]可选地,所述获取模块,包括:曲线拟合模块,用于根据所述模型的训练阶段的资源占用量拟合资源占用增长曲线;时间点计算模块,用于根据所述模型的单条样本数据的训练平均耗时时长和样本数据的数量预估所述模型的训练任务的完成时间点;额定值获取模块,用于根据所述资源占用增长曲线和所述完成时间点获取所述资源配额额定值。
[0021]与现有技术相比,本专利技术实施例提供的技术方案具有如下优点:
[0022]本专利技术实施例提供的一种PS节点的资源配额处理方案,获取PS集群中当前PS节点的资源利用率、资源配额额定值和资源配额当前值。当资源利用率小于预设的资源利用率下限阈值,且资源配额额定值小于资源配额当前值时,对资源配额当前值进行缩容处理;当资源利用率大于预设的资源利用率上限阈值,且资源配额额定值大于或等于资源配额当前值时,对资源配额当前值进行扩容处理。本专利技术实施例通过对PS节点的资源利用率进行实时监控,将资源利用率分别与资源利用率下限阈值和资源利用率上限阈值进行比较,并将资源配额额定值与资源配额当前值进行比较,最终根据比较结果对资源配额当前值进行缩容处理或者扩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种PS节点的资源配额处理方法,其特征在于,包括:获取PS集群中当前PS节点的资源利用率、资源配额额定值和资源配额当前值,所述当前PS节点用于存储和更新模型的参数;当所述资源利用率小于预设的资源利用率下限阈值,且所述资源配额额定值小于所述资源配额当前值时,对所述资源配额当前值进行缩容处理;当所述资源利用率大于预设的资源利用率上限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,对所述资源配额当前值进行扩容处理。2.根据权利要求1所述的方法,其特征在于,所述当所述资源利用率大于预设的资源利用率上限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,所述方法还包括:当不存在空余资源时,若所述资源利用率小于资源利用率额定阈值,则禁止对所述资源配额当前值进行扩容处理,并继续对所述模型进行训练。3.根据权利要求1所述的方法,其特征在于,所述当所述资源利用率大于预设的资源利用率上限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,所述方法还包括:当不存在空余资源时,若所述资源利用率大于或等于资源利用率额定阈值,则保存所述模型的训练进度和参数,终止对所述模型进行训练。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述资源利用率小于所述资源利用率下限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,禁止对所述资源配额当前值进行缩容处理。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述资源利用率大于所述资源利用率上限阈值,且所述资源配额额定值小于或等于所述资源配额当前值时,禁止对所述资源配额当前值进行扩容处理。6.根据权利要求1所述的方法,其特征在于,在所述获取PS集群中当前PS节点的资源利用率、资源配额额定值和资源配额当前值之前,所述方法还包括:在所述模型的训练任务启动之前,若存在所述模型的历史训练记录数据,则根据所述历史训练记录数据预估所述模型的训练任务在所述当前PS节点的资源配额数据。7.根据权利要求1所述的方法,其特征在于,所述获取所述资源配额额定值,包括:根据所述模型的训练阶段的资源占用量拟合资源占用增长曲线;根据所述模型的单条样本数据的训练平均耗时时长和样本数据的数量预估所述模型的训练任务的完成时间点;根据所述资源占用增长曲线和所述完成时间点获取所述资源配额额定值。8.一种PS节点的资源配额处理装置,其特征在于,包括:获取模块,用于获取PS集群中当前PS...

【专利技术属性】
技术研发人员:王锋李丰存高延庆王迪钱玉磊余建平
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1