System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于微调模型的方法、装置、设备和存储介质制造方法及图纸_技高网

一种用于微调模型的方法、装置、设备和存储介质制造方法及图纸

技术编号:43915832 阅读:2 留言:0更新日期:2025-01-03 13:22
本公开的实施例涉及一种用于微调模型的方法、装置、设备和存储介质。在此提出的方法包括:由代理单元,从用户接收模型微调任务;由代理单元,确定用于执行模型微调任务的目标工作单元,并向目标工作单元提交模型微调任务,其中目标工作单元关联于多个图形处理单元;由目标工作单元,基于从分布式存储单元获取的训练数据来执行模型微调任务;以及由目标工作单元,将更新后的模型参数存储至本地存储单元,以触发代理单元将模型参数从本地存储单元上传至分布式存储单元。以此方式,本公开的实施例能够提高模型微调的效率。

【技术实现步骤摘要】

本公开的示例实施例总体涉及计算机领域,特别地涉及一种用于微调模型的方法、装置、设备和计算机可读存储介质。


技术介绍

1、随着人工智能技术的飞速发展,大规模模型在各种应用中的广泛使用。模型微调(fine-tune)是机器学习中的一种技术,它涉及对一个已经在大型数据集上预训练过的模型进行额外训练,以适应一个特定的任务或者数据集。这个过程通常在模型的预训练阶段之后进行,目的是调整模型的权重,使其更好地处理目标任务。如何高效地进行模型的微调成为了一个技术挑战。


技术实现思路

1、在本公开的第一方面,提供了一种微调模型的方法。该方法包括:由代理单元,从用户接收模型微调任务;由代理单元,确定用于执行模型微调任务的目标工作单元,并向目标工作单元提交模型微调任务,其中目标工作单元关联于多个图形处理单元;由目标工作单元,基于从分布式存储单元获取的训练数据来执行模型微调任务;以及由目标工作单元,将更新后的模型参数存储至本地存储单元,以触发代理单元将模型参数从本地存储单元上传至分布式存储单元。

2、在本公开的第二方面,提供了一种用于模型微调的系统。该装置包括:代理单元被配置为:从用户接收模型微调任务;以及确定用于执行模型微调任务的目标工作单元,并向目标工作单元提交模型微调任务,其中目标工作单元关联于多个图形处理单元;以及目标工作单元被配置为:基于从分布式存储单元获取的训练数据来执行模型微调任务;以及将更新后的模型参数存储至本地存储单元,以触发代理单元将模型参数从本地存储单元上传至分布式存储单元。

3、在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。

4、在本公开的第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序可由处理器执行以实现第一方面的方法。

5、在本公开的第五方面,提供了一种计算机程序产品。该计算机程序产品包括计算机可执行指令,其中计算机可执行指令在被处理器执行时实现第一方面的方法。

6、应当理解,本内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种用于微调模型的方法,包括:

2.根据权利要求1所述的方法,其中所述模型微调任务指示以下至少一项:

3.根据权利要求1所述的方法,还包括:

4.根据权利要求3所述的方法,还包括:

5.根据权利要求1所述的方法,其中所述代理单元被配置为异步将所述模型参数从所述本地存储单元上传至所述分布式存储单元,并且所述目标工作单元允许执行下一模型微调任务而无需等待所述模型参数上传完成。

6.根据权利要求1所述的方法,其中所述目标工作单元被配置为并发执行多个模型微调任务,并且所述目标工作单元还关联于控制单元,所述控制单元被配置为调度所述多个模型微调任务在所述多个图形处理单元的执行。

7.根据权利要求6所述的方法,其中所述多个模型微调任务包括第一任务和第二任务,并且所述控制单元被配置为:

8.根据权利要求6所述的方法,其中所述控制单元被配置为:

9.根据权利要求8所述的方法,其中基于所述多个模型微调任务,构建多个逻辑训练批次包括:

10.根据权利要求1所述的方法,还包括:

11.一种用于模型微调系统,包括代理单元和目标工作单元,其中:

12.一种电子设备,包括:

13.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可由处理器执行以实现根据权利要求1至10中任一项所述的方法。

14.一种计算机程序产品,包括计算机可执行指令,其中所述计算机可执行指令在被处理器执行时实现根据权利要求1至10中任一项所述的方法。

...

【技术特征摘要】

1.一种用于微调模型的方法,包括:

2.根据权利要求1所述的方法,其中所述模型微调任务指示以下至少一项:

3.根据权利要求1所述的方法,还包括:

4.根据权利要求3所述的方法,还包括:

5.根据权利要求1所述的方法,其中所述代理单元被配置为异步将所述模型参数从所述本地存储单元上传至所述分布式存储单元,并且所述目标工作单元允许执行下一模型微调任务而无需等待所述模型参数上传完成。

6.根据权利要求1所述的方法,其中所述目标工作单元被配置为并发执行多个模型微调任务,并且所述目标工作单元还关联于控制单元,所述控制单元被配置为调度所述多个模型微调任务在所述多个图形处理单元的执行。

7.根据权利要求6所述的方法,其中所述多...

【专利技术属性】
技术研发人员:刘欣朱睿冬颜世鹏周浩天张帜金鑫
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1