System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种大语言模型模块化推理计算系统、方法、装置及介质制造方法及图纸_技高网

一种大语言模型模块化推理计算系统、方法、装置及介质制造方法及图纸

技术编号:43460618 阅读:6 留言:0更新日期:2024-11-27 12:59
本发明专利技术公开了一种大语言模型模块化推理计算系统、方法、装置及介质。通过对大语言模型模块化推理计算系统中的文本嵌入模块、多簇注意力模块、多层感知机模块和线性映射模块分别进行不同单元的配置,来实现对输入文本令牌序列的生成词令牌的计算,另外的,对注意力机制计算数据流方法和线性层计算数据流方法进行了改进。解决了现有技术中受限于外部存储带宽,将难以充分发挥芯片的计算效率、性能差和对专业人员要求高的问题,实现了构建更加完善的大语言模型,设计了高吞吐的计算数据流,能够充分发挥芯片的算力。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种大语言模型模块化推理计算系统、方法、装置及介质


技术介绍

1、大语言模型的推理计算过程中会产生大量的中间数据,这些数据会频繁地在芯片与外部存储之间传输,会显著降低整个推理计算过程中的数据吞吐,增大系统延时。鉴于大语言模型内部包含由复杂的计算逻辑,比如:矩阵计算、激活函数、注意力机制、归一化和残差计算等,目前大语言模型推理的公知技术是显式的调用这些单一功能的算子拼接出整个网络的计算逻辑。

2、专利技术人在实现本专利技术的过程中,发现现有技术存在如下缺陷:目前,一般以多个独立且单一功能的通用性算子组合做大语言模型的推理计算,每个算子都需要在计算开始和结束时与外部存储进行数据交互。芯片的存储架构一般都采用的内部多级缓存方式,与外部存储进行数据交换的带宽最低,而内部缓存级别越高带宽越大。因此,单一算子组合的技术方案受限于外部存储带宽,将难以充分发挥芯片的计算效率。

3、同时,有些连续的算子之间存在数据在芯片内部缓存直接交互或者在计算功能上融合的空间,可以进一步提高计算效率。对于算子之间的融合,已有通过图优化等技术做自动化融合的方案,但是该项技术主要目标是做通用类型网络优化,一般做的是细粒度的融合策略,依赖于融合算法,并需要算子开发人员做相应的适配功能开发。在针对大语言模型网络的融合中难以充分利用其特有的计算模式和数据自身的特点,依然存在较大的性能提升空间。另一方面,大语言模型的计算相对复杂,开发人员需要深入了解每处计算并正确调用各个单算子构建网络,这对人员的专业素质有比较高的要求,不利于做大语言模型的快速部署。


技术实现思路

1、本专利技术提供了一种大语言模型模块化推理计算系统、方法、装置及介质,以实现构建更加完善的大语言模型,设计了高吞吐的计算数据流,能够充分发挥芯片的算力。

2、根据本专利技术的一方面,提供了一种大语言模型模块化推理计算系统,其中,所述大语言模型模块化推理计算系统包括文本嵌入模块、多簇注意力模块、多层感知机模块和线性映射模块;

3、其中,所述文本嵌入模块,包括第一可配置归一化计算单元;所述第一可配置归一化计算单元包括:第一不做归一化子单元、第一layernorm归一化计算子单元和第一rmsnorm归一化计算子单元;

4、所述多簇注意力模块,包括第二可配置归一化计算单元、特征提取计算单元、多簇注意力机制计算单元、输出线性映射计算单元和第一可配置残差链接计算单元;其中,所述第二可配置归一化计算单元包括:第二不做归一化子单元、第二layernorm归一化计算子单元和第二rmsnorm归一化计算子单元;所述第一可配置残差链接计算单元包括第一不做残差链接计算子单元和第一做残差链接计算子单元;

5、所述多层感知机模块,包括第三可配置归一化计算单元、线性升维计算单元、可配置激活函数计算单元、线性降维计算单元和第二可配置残差链接计算单元;其中,所述第三可配置归一化计算单元包括:第三不做归一化子单元、第三layernorm归一化计算子单元和第三rmsnorm归一化计算子单元;所述可配置激活函数计算单元包括至少一种激活函数类型的计算单元;所述第二可配置残差链接计算单元包括第二不做残差链接计算子单元和第二做残差链接计算子单元;

6、所述线性映射模块,包括第四可配置归一化计算单元和线性概率映射计算单元;其中,所述第四可配置归一化计算单元包括:第四不做归一化子单元、第四layernorm归一化计算子单元和第四rmsnorm归一化计算子单元;

7、其中,所述多簇注意力机制计算单元是基于改进的注意力机制计算数据流方法进行计算的;

8、所述特征提取计算单元、所述输出线性映射计算单元、所述特征提取计算单元、所述输出线性映射计算单元和所述线性概率映射计算单元均是基于改进的线性层计算数据流方法进行计算的。

9、根据本专利技术的另一方面,提供了一种大语言模型模块化推理计算方法,其中,由大语言模型模块化推理计算系统执行,包括:

10、实时获取待计算的输入文本令牌序列,通过文本嵌入模块对待计算的输入文本令牌序列进行特征向量查找处理、以及通过第一可配置归一化计算单元进行可配置的归一化处理,得到输入文本令牌序列特征向量;

11、将所述输入文本令牌序列特征向量输入至大语言模型对应的多层循环中,逐层分别在多簇注意力模块和多层感知机模块之间循环处理,直至遍历完成各层循环,得到输入文本令牌序列线性计算结果;

12、将所述输入文本令牌序列线性计算结果输入至所述线性映射模块中进行令牌概率映射处理,得到各输入文本生成词令牌;

13、将各所述输入文本生成词令牌向用户进行反馈。

14、根据本专利技术的另一方面,提供了一种大语言模型模块化推理计算装置,其中,由大语言模型模块化推理计算系统执行,包括:

15、输入文本令牌序列特征向量确定模块,用于实时获取待计算的输入文本令牌序列,通过文本嵌入模块对待计算的输入文本令牌序列进行特征向量查找处理、以及通过第一可配置归一化计算单元进行可配置的归一化处理,得到输入文本令牌序列特征向量;

16、输入文本令牌序列线性计算结果确定模块,用于将所述输入文本令牌序列特征向量输入至大语言模型对应的多层循环中,逐层分别在多簇注意力模块和多层感知机模块之间循环处理,直至遍历完成各层循环,得到输入文本令牌序列线性计算结果;

17、各输入文本生成词令牌确定模块,用于将所述输入文本令牌序列线性计算结果输入至所述线性映射模块中进行令牌概率映射处理,得到各输入文本生成词令牌;

18、各输入文本生成词令牌反馈模块,用于将各所述输入文本生成词令牌向用户进行反馈。

19、根据本专利技术的另一方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现本专利技术任一实施例所述的大语言模型模块化推理计算方法。

20、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的大语言模型模块化推理计算方法。

21、本专利技术实施例的技术方案,大语言模型模块化推理计算系统包括文本嵌入模块、多簇注意力模块、多层感知机模块和线性映射模块;其中,所述文本嵌入模块,包括第一可配置归一化计算单元;所述第一可配置归一化计算单元包括:第一不做归一化子单元、第一layernorm归一化计算子单元和第一rmsnorm归一化计算子单元;所述多簇注意力模块,包括第二可配置归一化计算单元、特征提取计算单元、多簇注意力机制计算单元、输出线性映射计算单元和第一可配置残差链接计算单元;其中,所述第二可配置归一化计算单元包括:第二不做归一化子单元、第二layernorm归一化计算子单元和第二rmsnorm归一化计算子单元;所述第一可配置残差链接计算单元包括第一不做残差链接计算子单本文档来自技高网...

【技术保护点】

1.一种大语言模型模块化推理计算系统,其特征在于,所述大语言模型模块化推理计算系统包括文本嵌入模块、多簇注意力模块、多层感知机模块和线性映射模块;

2.一种大语言模型模块化推理计算方法,其特征在于,由大语言模型模块化推理计算系统执行,包括:

3.根据权利要求2所述的方法,其特征在于,所述实时获取待计算的输入文本令牌序列,通过文本嵌入模块对待计算的输入文本令牌序列进行特征向量查找处理、以及通过第一可配置归一化计算单元进行可配置的归一化处理,得到输入文本令牌序列特征向量,包括:

4.根据权利要求3所述的方法,其特征在于,还包括:

5.根据权利要求4所述的方法,其特征在于,还包括:

6.根据权利要求5所述的方法,其特征在于,所述大语言模型是基于人工智能专用加速芯片进行模块化推理计算的;所述人工智能专用加速芯片的存储架构包括片上私有存储、片上共享存储和外部存储;其中,外部存储的空间大小大于片上共享存储,片上共享存储的空间大小大于片上私有存储;

7.根据权利要求6所述的方法,其特征在于,所述通过改进的注意力机制计算数据流方法和公式,得到QKV多簇注意力机制计算结果,包括:

8.一种大语言模型模块化推理计算装置,其特征在于,由大语言模型模块化推理计算系统执行,包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求2-7中任一项所述的一种大语言模型模块化推理计算方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现如权利要求2-7中任一项所述的一种大语言模型模块化推理计算方法。

...

【技术特征摘要】

1.一种大语言模型模块化推理计算系统,其特征在于,所述大语言模型模块化推理计算系统包括文本嵌入模块、多簇注意力模块、多层感知机模块和线性映射模块;

2.一种大语言模型模块化推理计算方法,其特征在于,由大语言模型模块化推理计算系统执行,包括:

3.根据权利要求2所述的方法,其特征在于,所述实时获取待计算的输入文本令牌序列,通过文本嵌入模块对待计算的输入文本令牌序列进行特征向量查找处理、以及通过第一可配置归一化计算单元进行可配置的归一化处理,得到输入文本令牌序列特征向量,包括:

4.根据权利要求3所述的方法,其特征在于,还包括:

5.根据权利要求4所述的方法,其特征在于,还包括:

6.根据权利要求5所述的方法,其特征在于,所述大语言模型是基于人工智能专用加速芯片进行模块化推理计算的;所述人工智能专用加速芯片的存储架...

【专利技术属性】
技术研发人员:靳超杜天启李相相李川鸣柴亮邱尧
申请(专利权)人:北京燧原智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1