System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型虚拟化部署方法、装置、存储介质及计算机设备制造方法及图纸_技高网

模型虚拟化部署方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:44601894 阅读:5 留言:0更新日期:2025-03-14 12:56
本申请提供的模型虚拟化部署方法、装置、存储介质及计算机设备,当获取到用户在预先创建的至少一个类型的至少一个模型版本下选择的目标模型后,可以先确定部署目标模型时使用的推理框架和至少一个资源,然后根据部署目标模型时使用的资源数量创建对应数量的虚拟实例,并将虚拟实例与对应规格资源下配置的k8s服务中的指定pod绑定后,将目标模型部署至指定pod;该过程中,由于本申请预先将模型推理服务所需的资源划分为不同的规格,且每种规格的资源配置有一个k8s服务,每个k8s服务下包含多个pod,这样用户在部署模型时只需按模型大小选择对应规格的资源即可将模型部署到指定pod中,进而实现模型的自动化部署。

【技术实现步骤摘要】

本申请涉及模型部署,尤其涉及一种模型虚拟化部署方法、装置、存储介质及计算机设备


技术介绍

1、在当前的人工智能(ai)应用中,大语言模型因其在自然语言处理任务中的优异表现,成为了研究和工业界的焦点。这些模型在处理文本生成、机器翻译、情感分析等任务中展现了强大的能力。然而,设计和训练这些模型只是整个流程的一部分,模型的管理和部署同样至关重要。现有技术中,大部分模型的部署需要大量人工操作,这对非软件工程背景的人员提出了很高的要求,严重制约了大规模、快速部署的能力。

2、现有技术中,大部分模型的部署都需要大量的人工操作,并要求用户具备较高的软件工程技能,例如,需要用户手动配置环境、调整参数和进行模型的上线操作,这不仅耗时费力,还容易出错,进而严重制约了模型的大规模、快速部署的能力。同时,这种方式动态调整资源的能力有限,难以充分利用硬件资源(如gpu)的优势,导致计算资源的浪费和运行效率低下。


技术实现思路

1、本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中人工部署模型不仅耗时费力,还容易出错,进而严重制约了模型的大规模、快速部署的能力,且难以充分利用硬件资源的优势,导致计算资源的浪费和运行效率低下的技术缺陷。

2、本申请提供了一种模型虚拟化部署方法,所述方法包括:

3、获取用户在预先创建的至少一个类型的至少一个模型版本下选择的目标模型,并确定部署所述目标模型时使用的推理框架和至少一个资源,其中,每个资源对应的资源规格不同,每种规格的资源配置有一个k8s服务,每个k8s服务下包含多个pod,同个k8s服务下的所有pod规格相同;

4、根据部署所述目标模型时使用的资源数量创建对应数量的虚拟实例,并将所述虚拟实例与对应规格资源下配置的k8s服务中的指定pod绑定后,将所述目标模型部署至所述指定pod;

5、接收所述指定pod通过信息存储组件发送的模型加载结果,并在确定所述模型加载结果为加载成功时,将所述目标模型的虚拟实例对应的路由信息注册到模型服务路由表。

6、可选地,所述确定部署所述目标模型时使用的推理框架,包括:

7、根据所述目标模型的模型类型向用户推荐推理框架列表,所述推理框架列表中的各个推理框架按照框架性能进行排序;

8、获取用户在所述推理框架列表中选择的推理框架,并将所述推理框架作为部署所述目标模型时使用的推理框架。

9、可选地,所述确定部署所述目标模型时使用的至少一个资源,包括:

10、根据所述目标模型的模型大小向用户推荐资源规格列表;

11、获取用户在所述资源规格列表中选择的至少一个资源,并将所述至少一个资源作为部署所述目标模型时使用的至少一个资源;

12、其中,当用户选择两个以上的资源时,所述资源来自同一云厂商或不同云厂商。

13、可选地,所述根据所述目标模型的模型大小向用户推荐资源规格列表,包括:

14、确定所述目标模型的参数量以及优化器参数;

15、根据所述参数量和所述优化器参数计算所述目标模型的参数占用的显存大小;

16、将所述显存大小与预先划分的不同规格的资源进行比较,并根据比较结果向用户推荐资源规格列表。

17、可选地,所述不同规格的资源的划分过程,包括:

18、确定模型推理服务所需的至少一个云厂商的资源;

19、按照预设的资源划分规则将所述至少一个云厂商的资源划分为多种规格。

20、可选地,当所述模型推理服务需要两个云厂商时,其中一个云厂商上部署客户端,并存储用户上传的模型文件,另一个云厂商上部署服务端,并通过unison双向同步将模型文件从其中一个云厂商的云存储同步到另一个云厂商的云存储。

21、可选地,所述指定pod中包含有控制容器和推理框架主容器;

22、所述将所述目标模型部署至所述指定pod,包括:

23、向所述控制容器发送加载模型指令,以供所述控制容器记录所述目标模型的模型信息,并向所述推理框架主容器转发所述加载模型指令,所述推理框架主容器根据所述加载模型指令加载所述目标模型,并将模型加载结果发送至所述控制容器,所述控制容器将所述模型加载结果发送至信息存储组件。

24、可选地,所述方法还包括:

25、当检测到使用部署后的目标模型进行版本更新时,对所述部署后的目标模型的路由信息进行健康检查;

26、当所述部署后的目标模型健康检查成功后,将所述部署后的目标模型对应的上一版本的路由信息从所述模型服务路由表中删除,并下线上一版本的模型推理服务。

27、可选地,所述方法还包括:

28、在模型推理过程中,若检测到用户开启定时扩缩容,则获取用户开启定时扩缩容时配置的定时扩缩容时段以及期望副本数;

29、当检测到到达所述定时扩缩容时段时,保存模型推理实例的原副本数,并将所述原副本数调整为所述期望副本数;

30、当检测到超过所述定时扩缩容时段后,将所述期望副本数调整为所述原副本数。

31、可选地,所述方法还包括:

32、在模型推理过程中,监控所述虚拟实例的资源使用情况,并判断所述资源使用情况是否满足预设的扩容条件;

33、若满足,则判断所述虚拟实例的数量是否为最大副本数;

34、若是,则结束;

35、若否,则创建新的虚拟实例,并将所述新的虚拟实例与对应规格资源下配置的k8s服务中的指定pod绑定后,将所述目标模型部署至所述指定pod及其后续步骤;

36、若不满足,则判断所述虚拟实例的数量是否为最小副本数;

37、若是,则结束;

38、若否,则摘除虚拟实例序号最大的路由后,将对应资源中的模型卸载,并下线对应的虚拟实例后结束。

39、本申请还提供了一种模型虚拟化部署装置,包括:

40、信息获取模块,用于获取用户在预先创建的至少一个类型的至少一个模型版本下选择的目标模型,并确定部署所述目标模型时使用的推理框架和至少一个资源,其中,每个资源对应的资源规格不同,每种规格的资源配置有一个k8s服务,每个k8s服务下包含多个pod,同个k8s服务下的所有pod规格相同;

41、模型部署模块,用于根据部署所述目标模型时使用的资源数量创建对应数量的虚拟实例,并将所述虚拟实例与对应规格资源下配置的k8s服务中的指定pod绑定后,将所述目标模型部署至所述指定pod;

42、路由注册模块,用于接收所述指定pod通过信息存储组件发送的模型加载结果,并在确定所述模型加载结果为加载成功时,将所述目标模型的虚拟实例对应的路由信息注册到模型服务路由表。

43、本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如本文档来自技高网...

【技术保护点】

1.一种模型虚拟化部署方法,其特征在于,所述方法包括:

2.根据权利要求1所述的模型虚拟化部署方法,其特征在于,所述确定部署所述目标模型时使用的推理框架,包括:

3.根据权利要求1所述的模型虚拟化部署方法,其特征在于,所述确定部署所述目标模型时使用的至少一个资源,包括:

4.根据权利要求3所述的模型虚拟化部署方法,其特征在于,所述根据所述目标模型的模型大小向用户推荐资源规格列表,包括:

5.根据权利要求4所述的模型虚拟化部署方法,其特征在于,所述不同规格的资源的划分过程,包括:

6.根据权利要求5所述的模型虚拟化部署方法,其特征在于,当所述模型推理服务需要两个云厂商时,其中一个云厂商上部署客户端,并存储用户上传的模型文件,另一个云厂商上部署服务端,并通过unison双向同步将模型文件从其中一个云厂商的云存储同步到另一个云厂商的云存储。

7.根据权利要求1所述的模型虚拟化部署方法,其特征在于,所述指定pod中包含有控制容器和推理框架主容器;

8.根据权利要求1-7中任一项所述的模型虚拟化部署方法,其特征在于,所述方法还包括:

9.根据权利要求1-7中任一项所述的模型虚拟化部署方法,其特征在于,所述方法还包括:

10.根据权利要求1-7中任一项所述的模型虚拟化部署方法,其特征在于,所述方法还包括:

11.一种模型虚拟化部署装置,其特征在于,包括:

12.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至10中任一项所述催收系统的服务扩展方法的步骤。

13.一种计算机设备,其特征在于,包括:一个或多个处理器,以及存储器;

...

【技术特征摘要】

1.一种模型虚拟化部署方法,其特征在于,所述方法包括:

2.根据权利要求1所述的模型虚拟化部署方法,其特征在于,所述确定部署所述目标模型时使用的推理框架,包括:

3.根据权利要求1所述的模型虚拟化部署方法,其特征在于,所述确定部署所述目标模型时使用的至少一个资源,包括:

4.根据权利要求3所述的模型虚拟化部署方法,其特征在于,所述根据所述目标模型的模型大小向用户推荐资源规格列表,包括:

5.根据权利要求4所述的模型虚拟化部署方法,其特征在于,所述不同规格的资源的划分过程,包括:

6.根据权利要求5所述的模型虚拟化部署方法,其特征在于,当所述模型推理服务需要两个云厂商时,其中一个云厂商上部署客户端,并存储用户上传的模型文件,另一个云厂商上部署服务端,并通过unison双向同步将模型文件从其中一个云厂商的云存储同步到另一个云厂商的云...

【专利技术属性】
技术研发人员:谢振家李业华徐志坚
申请(专利权)人:广州趣研网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1