System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于大型语言模型,尤其涉及提升长上下文大型语言模型推理效率的方法、电子设备和存储介质。
技术介绍
1、相关技术中,大型语言模型(llms,large language models)的上下文窗口尺寸不断增大,使其能够出色地处理需要深入探索冗长文本的复杂任务。然而,这也给 llm 的计算和内存占用带来了挑战。具体来说,一方面,由于大多数 llm 都基于 transformer架构,注意力模块的计算复杂度会随着上下文窗口大小的增加而呈二次方增加。另一方面,kv 缓存的大小与上下文窗口大小呈线性关系,kv(key-value,键值对)缓存是一种常用的技术,旨在防止冗余计算。因此,利用扩展上下文窗口提高 llm 的效率至关重要。
2、在此背景下,许多研究人员提出了一些方法,通过舍弃上下文中的一些token(单元)来提高 llm 的推理效率。其中,window attention方法和 streamingllm识别了“注意力汇集”(attention sink)现象,同时保留了初始token和最近的token(见图1中的(a))。h2o考虑到了上下文中token的不同重要性,并根据注意力分数在 kv 缓存中选择性地只保留最重要的token。虽然这种方法提高了 llm 处理长上下文的效率,但也带来了一个重大缺陷:后期文本生成所需的关键字元可能会在过程早期被不可逆转地丢弃。如图1中的(a)所示,当重要的token(示例中的证据evidence)落在窗口之外时,预测就会失败。此外,streamingllm和h2o 在两个实
技术实现思路
1、本专利技术实施例提供一种提升长上下文大型语言模型推理效率的方法、电子设备和存储介质,用于至少解决上述技术问题之一。
2、第一方面,本专利技术实施例提供一种提升长上下文大型语言模型推理效率的方法,包括:在给定的大型语言模型中分析层间注意力分数的相似性,并将连续的相似层归类到同一区块中;在每个区块中应用注意力共享,并对所述大型语言模型进行后训练;使用后训练的大型语言模型进行高效推理。
3、第二方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的提升长上下文大型语言模型推理效率的方法的步骤。
4、第三方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的提升长上下文大型语言模型推理效率的方法的步骤。
5、在本申请实施例的方法中,通过先分析层间注意力分数的相似性,再根据相似性将连续的相似层归类到同一区块,之后在每个区块中应用注意力共享,对大型语言模型进行后训练,并使用后训练后的大型语言模型进行高效推理,从而可以提升长上下文大型语言模型的推理效率。
本文档来自技高网...【技术保护点】
1.一种提升长上下文大型语言模型推理效率的方法,包括:
2.根据权利要求1所述的方法,其中,所述在给定的大型语言模型中分析层间注意力分数的相似性,并将连续的相似层归类到区块中包括:
3.根据权利要求2所述的方法,其中,所述将连续的相似层分组为头部块包括:
4.根据权利要求3所述的方法,其中,所述在每个区块中应用注意力共享,并对所述大型语言模型进行后训练包括:
5.根据权利要求4所述的方法,其中,所述聚合所述相近单元和所述远处单元的注意力输出包括:
6.根据权利要求1所述的方法,其中,所述使用后训练的大型语言模型进行高效推理包括:
7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
【技术特征摘要】
1.一种提升长上下文大型语言模型推理效率的方法,包括:
2.根据权利要求1所述的方法,其中,所述在给定的大型语言模型中分析层间注意力分数的相似性,并将连续的相似层归类到区块中包括:
3.根据权利要求2所述的方法,其中,所述将连续的相似层分组为头部块包括:
4.根据权利要求3所述的方法,其中,所述在每个区块中应用注意力共享,并对所述大型语言模型进行后训练包括:
5.根据权利要求4所述的方法,其中,所述聚合所述相近单元和所述远处单元的注意力输出...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。