推理计算方法和装置、电子设备和存储介质制造方法及图纸

技术编号：43936119 阅读：7 留言：0更新日期：2025-01-07 21:29

本申请提供了一种推理计算方法和装置、电子设备和存储介质，其中，该方法包括：获取待通过大语言模型推理的目标文本；对所述目标文本进行预处理，得到所述目标文本中的所有第一token；通过限定所需加载的最近处理的N个第二token中每个第二token的参数以及对所述大语言模型的前馈神经网络层的行列数据进行统一存储后得到的目标数据加载策略，从存储有所述大语言模型的持久化存储介质中加载到用于推理的目标参数，其中，所述第二token包括所述第一token和/或基于所述第一token推理得到的token；通过所述目标参数对所述整数ID进行推理计算，完成对新第二token的推理。通过本申请，解决了相关技术中存在的数据传输成本高以及推理速度慢的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，尤其涉及一种推理计算方法和装置、电子设备和存储介质。

技术介绍

1、随着大语言模型(large language model，llm)在诸如聊天机器人、自然语言生成、文本理解以及机器翻译等领域的广泛应用，私有云服务商也随之需要支持提供大语言模型服务的客户的需求。

2、在相关技术中，部署在私有云服务商的大语言模型在被调用时，数据通常从非易失性存储设备(例如，闪存)加载到内存，然后由cpu或gpu进行处理。这种方法没有特别优化数据加载和存储过程，导致数据传输成本高，进而会导致推理速度慢。并且，由于云服务商的内存资源是有限的，因此当客户的大型语言模型在内存受限的设备上运行时，会进一步受限于内存而导致数据传输成本高以及推理速度慢的技术问题。

3、因此，相关技术中存在数据传输成本高以及推理速度慢的技术问题。

技术实现思路

1、本申请提供了一种推理计算方法和装置、电子设备和存储介质，以至少解决相关技术中存在数据传输成本高以及推理速度慢的技术问题。

2、根据本申请实施例的一个方面，提供了一种推理计算方法，包括：

3、获取待通过大语言模型推理的目标文本；

4、对所述目标文本进行预处理，得到所述目标文本中的所有第一token；

5、通过限定所需加载的最近处理的n个第二token中每个第二token的参数以及对所述大语言模型的前馈神经网络层的行列数据进行统一存储后得到的目标数据加载策略，从存储有所述大语言模型的

6、通过所述目标参数对整数id进行推理计算，完成对新第二token的推理，其中，所述新第二token是位于所述n个第二token后一位的第二token。

7、可选地，如前述的方法，所述限定所需加载的最新的n个第二token中每个第二token的参数，包括：

8、初始化得到滑动缓冲区；

9、通过所述滑动缓冲区加载最近处理的所述n个第二token中每个第二token的参数，以重用最近的n个时间步骤中已激活的神经元

10、可选地，如前述的方法，所述对所述大语言模型的前馈神经网络层的行列数据进行统一存储，包括：

11、将所述前馈神经网络层中向上投影的第一权重矩阵以及向下投影的第二权重矩阵存储在一起，得到连续数据块。

12、可选地，如前述的方法，所述从存储有所述大语言模型的持久化存储介质中加载到用于推理的目标参数，包括：

13、对前馈神经网络的稀疏性进行预测，得到预测结果，其中，所述预测结果用于指示所述连续数据块中的零元素；

14、基于所述预测结果对所述连续数据块中的零元素进行忽略，得到所述前馈神经网络对应的稀疏矩阵；

15、通过加载所述n个第二token中每个第二token的参数以及所述稀疏矩阵，得到所述目标参数。

16、可选地，如前述的方法，所述方法还包括：

17、根据预先确定的用于推理的参数所需占用的内存空间，进行内存预分配，得到目标内存；

18、所述从存储有所述大语言模型的持久化存储介质中加载到用于推理的目标参数，包括：

19、将所述目标参数加载至所述目标内存中。

20、可选地，如前述的方法，所述将所述目标参数加载至所述目标内存中，包括：

21、创建多个线程；

22、通过所述多个线程将所述目标参数加载至所述目标内存中。

23、可选地，如前述的方法，所述方法还包括：

24、确定出多个硬件配置中的每个硬件配置对应的性能以及硬件成本；确定出不同候选数据加载策略下的使用成本，其中，所述候选数据加载策略包括相互对应的数据加载方式以及硬件配置；

25、将所述每个硬件配置对应的性能以及硬件成本，不同候选数据加载策略下的使用成本输入预设的硬件成本模型，得到每个候选数据加载策略的加权成本；

26、将所有候选数据加载策略中，所对应的加权成本最低的所述候选数据加载策略确定为所述目标数据加载策略。

27、根据本申请实施例的另一个方面，还提供了一种推理计算装置，包括：

28、获取模块，用于获取待通过大语言模型推理的目标文本；

29、预处理模块，用于对所述目标文本进行预处理，得到所述目标文本中的所有第一token；

30、加载模块，用于通过限定所需加载的最近处理的n个第二token中每个第二token的参数以及对所述大语言模型的前馈神经网络层的行列数据进行统一存储后得到的目标数据加载策略，从存储有所述大语言模型的持久化存储介质中加载到用于推理的目标参数，其中，所述第二token包括所述第一token和/或基于所述第一token推理得到的token；

31、推理模块，用于通过所述目标参数对整数id进行推理计算，完成对新第二token的推理，其中，所述新第二token是位于所述n个第二token后一位的第二token。

32、根据本申请实施例的又一个方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；其中，存储器，用于存储计算机程序；处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。

33、根据本申请实施例的又一个方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。

34、在本申请实施例中，采用确定出适用于大语言模型的目标数据加载策略的方式，通过限定所需加载的最近处理的n个第二token中每个第二token的参数以及对所述大语言模型的前馈神经网络层的行列数据进行统一存储后得到的目标数据加载策略，从存储有所述大语言模型的持久化存储介质中加载到用于推理的目标参数，由于之后还需对n个第二token中每个第二token的参数以及已激活的神经元进行使用，因此通过限定所需加载的最近处理的n个第二token中每个第二token的参数提高读写操作的速度，减少了对闪存等存储有大语言模型的非易失性存储设备的实际访问次数，并且通过对所述大语言模型的前馈神经网络层的行列数据进行统一存储，由于更大的数据块可以更快地被读写，进而也就能够提高数据读写的吞吐量。从而可以实现减少数据传输时间的目的，达到了降低数据传输成本的技术效果，进而解决了相关技术中存在的数据传输成本高以及推理速度慢的问题。

本文档来自技高网...

【技术保护点】

1.一种推理计算方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述限定所需加载的最新的N个第二token中每个第二token的参数，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述大语言模型的前馈神经网络层的行列数据进行统一存储，包括：

4.根据权利要求3所述的方法，其特征在于，所述从存储有所述大语言模型的持久化存储介质中加载到用于推理的目标参数，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述目标参数加载至所述目标内存中，包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

8.一种推理计算装置，其特征在于，包括：

9.一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信，其特征在于，

10.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，

...

【技术特征摘要】

1.一种推理计算方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述限定所需加载的最新的n个第二token中每个第二token的参数，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述大语言模型的前馈神经网络层的行列数据进行统一存储，包括：

4.根据权利要求3所述的方法，其特征在于，所述从存储有所述大语言模型的持久化存储介质中加载到用于推理的目标参数，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所...

【专利技术属性】
技术研发人员：胡佳，
申请(专利权)人：北京金山云网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人