System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大语言模型的服务请求调度方法、介质、设备及程序产品技术_技高网

大语言模型的服务请求调度方法、介质、设备及程序产品技术

技术编号:43136925 阅读:3 留言:0更新日期:2024-10-29 17:41
本公开涉及一种大语言模型的服务请求调度方法、介质、设备及程序产品,涉及机器学习技术领域,在该方法中,大语言模型服务包括不同序列长度区间对应的子模型服务,且各子模型服务中部署有不同数量的大语言模型,以使各子模型服务能够同时处理完输入子模型服务的服务请求,通过确定向大语言模型服务发送的服务请求所属的目标序列长度区间,根据目标序列长度区间,将服务请求调度至大语言模型服务中与目标序列长度区间相匹配的子模型服务中,不仅可以确保不同序列长度区间的服务请求能够具有与其序列长度区间相同的模型服务进行处理,而且也能够保证大语言模型服务的资源能够得到有效利用,提升了大语言模型服务对于服务请求的吞吐量。

【技术实现步骤摘要】

本公开涉及机器学习,具体地,涉及一种大语言模型的服务请求调度方法、介质、设备及程序产品


技术介绍

1、大语言模型(large language model,llm)的通用性较强,一般一个大语言模型可以处理多种任务。因此,在大语言模型部署时,可以使用具有完全相同配置的多个大语言模型来组成大语言模型服务进行部署。

2、但是,大语言模型服务对于服务请求的吞吐会受限于接收到的服务请求的最大输入输出,因此,大语言模型服务一般会设置较小的批处理大小(batch size),从而导致大语言模型服务的吞吐量较低。因此,如何提高大语言模型服务的吞吐量成为亟需解决的技术问题。


技术实现思路

1、提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

2、第一方面,本公开提供一种大语言模型的服务请求调度方法,包括:

3、确定向大语言模型服务发送的服务请求所属的目标序列长度区间;

4、根据所述目标序列长度区间,将所述服务请求调度至所述大语言模型服务中与所述目标序列长度区间相匹配的子模型服务中,其中,所述大语言模型服务包括不同序列长度区间对应的子模型服务,且各所述子模型服务中部署有不同数量的大语言模型,以使各所述子模型服务能够同时处理完输入所述子模型服务的服务请求。

5、第二方面,本公开提供一种大语言模型的服务请求调度装置,包括:

6、确定模块,被配置为确定向大语言模型服务发送的服务请求所属的目标序列长度区间;

7、调度模块,被配置为根据所述目标序列长度区间,将所述服务请求调度至所述大语言模型服务中与所述目标序列长度区间相匹配的子模型服务中,其中,所述大语言模型服务包括不同序列长度区间对应的子模型服务,且各所述子模型服务中部署有不同数量的大语言模型,以使各所述子模型服务能够同时处理完输入所述子模型服务的服务请求。

8、第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理装置执行时实现第一方面所述的方法的步骤。

9、第四方面,本公开提供一种电子设备,包括:

10、存储装置,其上存储有计算机程序;

11、处理装置,用于执行所述存储装置中的所述计算机程序,以实现第一方面所述的方法的步骤。

12、第五方面,本公开提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法的步骤。

13、基于上述技术方案,大语言模型服务包括不同序列长度区间对应的子模型服务,且各子模型服务中部署有不同数量的大语言模型,以使各子模型服务能够同时处理完输入子模型服务的服务请求,通过确定向大语言模型服务发送的服务请求所属的目标序列长度区间,根据目标序列长度区间,将服务请求调度至大语言模型服务中与目标序列长度区间相匹配的子模型服务中,不仅可以确保不同序列长度区间的服务请求能够具有与其序列长度区间相同的模型服务进行处理,而且也能够保证大语言模型服务的资源能够得到有效利用,提升了大语言模型服务对于服务请求的吞吐量。

14、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

本文档来自技高网...

【技术保护点】

1.一种大语言模型的服务请求调度方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述大语言模型服务通过以下步骤获得:

3.根据权利要求2所述的方法,其特征在于,所述根据所述大语言模型在各所述序列长度区间下的每秒查询率以及各所述序列长度区间对应的历史服务请求的目标数量,确定在各所述序列长度区间对应的模型子服务中部署的大语言模型的数量比例,包括:

4.根据权利要求2所述的方法,其特征在于,所述针对每一所述序列长度区间,确定所述大语言模型在该序列长度区间下的每秒查询率,包括:

5.根据权利要求2所述的方法,其特征在于,所述获取大语言模型接收到的历史服务请求,包括:

6.根据权利要求1所述的方法,其特征在于,所述确定向大语言模型服务发送的服务请求所属的目标序列长度区间,包括:

7.一种大语言模型的服务请求调度装置,其特征在于,包括:

8.一种计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理装置执行时实现权利要求1-6中任一项所述的方法的步骤。

9.一种电子设备,其特征在于,包括:

10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种大语言模型的服务请求调度方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述大语言模型服务通过以下步骤获得:

3.根据权利要求2所述的方法,其特征在于,所述根据所述大语言模型在各所述序列长度区间下的每秒查询率以及各所述序列长度区间对应的历史服务请求的目标数量,确定在各所述序列长度区间对应的模型子服务中部署的大语言模型的数量比例,包括:

4.根据权利要求2所述的方法,其特征在于,所述针对每一所述序列长度区间,确定所述大语言模型在该序列长度区间下的每秒查询率,包括:

5.根据权利要求2所述的方法,其特征...

【专利技术属性】
技术研发人员:郭若愚
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1