System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机,尤其涉及一种大语言模型推理系统、方法、装置、设备及介质。
技术介绍
1、伴随着人工智能技术的发展,越来越多的企业开始通过大语言模型(largelanguage models,llm)进行文本生成、机器翻译以及问题回答等推理处理。大语言模型是基于海量文本数据训练的深度学习模型,可以根据输入的推理请求进行推理处理,输出推理结果。推理请求可以是用于指示大语言模型基于指定文本进行文本生成、机器翻译或问题回答的文本。推理结果可以是生成的文本、机器翻译译文或回答文本。
2、相关技术中,常用的大语言模型推理方案为:基于固定设置的部署策略将预先训练的大语言模型部署到多个加速器上,在确定大语言模型部署完成之后,将用户发送的与大语言模型对应的推理请求输入至大语言模型,使得大语言模型根据推理请求进行推理处理,输出推理结果,并将大语言模型输出的推理结果反馈给用户。不适合大语言模型的部署策略会引入大量的设备间通信,导致设备间的通信量较大,导致推理处理过程的时延性能较差。在小批次的实时推理场景下对设备间的通信量和推理处理过程的时延性能的影响显著。相关技术中的大语言模型推理方案仅基于固定设置的部署策略对将预先训练的大语言模型进行部署,无法根据大语言模型和加速器的相关信息,确定适合大语言模型的部署策略,基于适合的部署策略将大语言模型部署到多个加速器上,引入大量的设备间通信,导致设备间的通信量较大,导致推理处理过程的时延性能较差。此外,相关技术中的大语言模型推理方案在将用户发送的与大语言模型对应的推理请求输入至大语言模型的过程中
技术实现思路
1、本专利技术提供了一种大语言模型推理系统、方法、装置、设备及介质,以解决相关技术中的大语言模型推理方案无法根据大语言模型和加速器的相关信息,确定适合大语言模型的部署策略,基于适合的部署策略将大语言模型部署到多个加速器上,引入大量的设备间通信,导致设备间的通信量较大,导致推理处理过程的时延性能较差,无法基于大语言模型的推理周期和批处理大小,对与大语言模型对应的推理请求进行调度,导致推理处理过程的效率较低的问题。
2、根据本专利技术的一方面,提供了一种大语言模型推理系统,包括:模型预处理模块、推理运行时模块以及加速器集群;
3、其中,所述模型预处理模块,用于在接收到与目标大语言模型对应的预处理请求之后,根据所述目标大语言模型的分层结构信息,确定所述目标大语言模型中的各个子模型块;其中,各个子模型块为待并行子模型块或不并行子模型块;根据所述目标大语言模型的张量并行模式、待并行子模型块数量以及所述加速器集群的硬件信息,生成与所述目标大语言模型对应的至少两个候选并行部署策略;其中,所述张量并行模式为部分张量并行、部分张量并行和数据并行结合、部分张量并行和流水线并行结合中的一个;确定各个候选并行部署策略中的最佳并行部署策略;将所述目标大语言模型中的各个子模型块的执行文件、所述最佳并行部署策略发送给目标用户,以使所述目标用户根据所述执行文件和所述最佳并行部署策略,将所述目标大语言模型中的各个子模型块部署到所述加速器集群中的加速器上;
4、所述推理运行时模块,用于在确定所述目标大语言模型部署完成之后,将接收到的与所述目标大语言模型对应的推理请求缓存至预设环形队列中,使得部署到所述加速器集群中的所述目标大语言模型根据推理周期和批处理大小对所述预设环形队列中的推理请求进行推理处理;将所述目标大语言模型输出的推理结果分发至相应的请求用户。
5、根据本专利技术的另一方面,提供了一种大语言模型推理方法,应用于大语言模型推理系统中的模型预处理模块中,包括:
6、在接收到与目标大语言模型对应的预处理请求之后,根据所述目标大语言模型的分层结构信息,确定所述目标大语言模型中的各个子模型块;其中,各个子模型块为待并行子模型块或不并行子模型块;
7、根据所述目标大语言模型的张量并行模式、待并行子模型块数量以及加速器集群的硬件信息,生成与所述目标大语言模型对应的至少两个候选并行部署策略;其中,所述张量并行模式为部分张量并行、部分张量并行和数据并行结合、部分张量并行和流水线并行结合中的一个;
8、确定各个候选并行部署策略中的最佳并行部署策略;
9、将所述目标大语言模型中的各个子模型块的执行文件、所述最佳并行部署策略发送给目标用户,以使所述目标用户根据所述执行文件和所述最佳并行部署策略,将所述目标大语言模型中的各个子模型块部署到加速器集群中的加速器上。
10、根据本专利技术的另一方面,提供了一种大语言模型推理方法,应用于大语言模型推理系统中的推理运行时模块中,包括:
11、在确定目标大语言模型部署完成之后,将接收到的与所述目标大语言模型对应的推理请求缓存至预设环形队列中,使得部署到加速器集群中的所述目标大语言模型根据推理周期和批处理大小对所述预设环形队列中的推理请求进行推理处理;
12、将所述目标大语言模型输出的推理结果分发至相应的请求用户。
13、根据本专利技术的另一方面,提供了一种大语言模型推理装置,配置于大语言模型推理系统中的模型预处理模块中,包括:
14、子模型块确定单元,用于在接收到与目标大语言模型对应的预处理请求之后,根据所述目标大语言模型的分层结构信息,确定所述目标大语言模型中的各个子模型块;其中,各个子模型块为待并行子模型块或不并行子模型块;
15、候选策略生成单元,用于根据所述目标大语言模型的张量并行模式、待并行子模型块数量以及加速器集群的硬件信息,生成与所述目标大语言模型对应的至少两个候选并行部署策略;其中,所述张量并行模式为部分张量并行、部分张量并行和数据并行结合、部分张量并行和流水线并行结合中的一个;
16、最佳策略确定单元,用于确定各个候选并行部署策略中的最佳并行部署策略;
17、子模型块部署单元,用于将所述目标大语言模型中的各个子模型块的执行文件、所述最佳并行部署策略发送给目标用户,以使所述目标用户根据所述执行文件和所述最佳并行部署策略,将所述目标大语言模型中的各个子模型块部署到加速器集群中的加速器上。
18、根据本专利技术的另一方面,提供了一种大语言模型推理装置,配置于大语言模型推理系统中的推理运行时模块中,包括:
19、请求缓存单元,用于在确定目标大语言模型部署完成之后,将接收到的与所述目标大语言模型对应的推理请求缓存至预设环形队列中,使得部署到加速器集群中的所述目标大语言模型根据推理周期和批处理大小对所述预设环形队列中的推理请求进行推理处理;
20、结果分发单元,用于将所述目标大语言模型输出的推理结果分发至相应的请求用户。
21、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
22、至少一个处理器;
23、以及与所述至少一个本文档来自技高网...
【技术保护点】
1.一种大语言模型推理系统,其特征在于,包括:模型预处理模块、推理运行时模块以及加速器集群;
2.一种大语言模型推理方法,应用于如权利要求1所述的大语言模型推理系统中的模型预处理模块中,其特征在于,包括:
3.根据权利要求2所述的大语言模型推理方法,其特征在于,在根据所述目标大语言模型的分层结构信息,确定所述目标大语言模型中的各个子模型块之前,还包括:
4.根据权利要求2所述的大语言模型推理方法,其特征在于,确定各个候选并行部署策略中的最佳并行部署策略,包括:
5.一种大语言模型推理方法,应用于如权利要求1所述的大语言模型推理系统中的推理运行时模块中,其特征在于,包括:
6.根据权利要求5所述的大语言模型推理方法,其特征在于,将所述目标大语言模型输出的推理结果分发至相应的请求用户,包括:
7.一种大语言模型推理装置,配置于如权利要求1所述的大语言模型推理系统中的模型预处理模块中,其特征在于,包括:
8.一种大语言模型推理装置,配置于如权利要求1所述的大语言模型推理系统中的推理运行时模块中,其特征在
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求2-4中任一项所述的大语言模型推理方法,或者权利要求5-6中任一项所述的大语言模型推理方法。
...【技术特征摘要】
1.一种大语言模型推理系统,其特征在于,包括:模型预处理模块、推理运行时模块以及加速器集群;
2.一种大语言模型推理方法,应用于如权利要求1所述的大语言模型推理系统中的模型预处理模块中,其特征在于,包括:
3.根据权利要求2所述的大语言模型推理方法,其特征在于,在根据所述目标大语言模型的分层结构信息,确定所述目标大语言模型中的各个子模型块之前,还包括:
4.根据权利要求2所述的大语言模型推理方法,其特征在于,确定各个候选并行部署策略中的最佳并行部署策略,包括:
5.一种大语言模型推理方法,应用于如权利要求1所述的大语言模型推理系统中的推理运行时模块中,其特征在于,包括:
6.根据权利...
【专利技术属性】
技术研发人员:姚建国,谢佳航,张亚林,
申请(专利权)人:上海燧原科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。