大语言模型的推理方法、装置、电子设备与可读存储介质制造方法及图纸

技术编号：42691631 阅读：18 留言：0更新日期：2024-09-10 12:41

本公开提供一种大语言模型的推理方法、装置、电子设备与可读存储介质，涉及自然语言处理、大语言模型、语音识别、云服务等人工智能技术领域。大语言模型的推理方法包括：获取对用户输入的语音数据进行流式语音识别所得到的多个文本片段；将所述多个文本片段输入到大语言模型，由所述大语言模型对每个文本片段进行预填充处理，得到每个文本片段的预填充结果；响应于确定所述用户停止语音数据的输入，根据全部文本片段的预填充结果，得到目标填充结果；将所述目标预填充结果输入到所述大语言模型，由所述大语言模型对所述目标预填充结果进行前向传播处理与生成输出处理，得到预测文本，将所述预测文本作为所述大语言模型的推理结果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及互联网，尤其涉及自然语言处理、大语言模型、语音识别、云服务等人工智能。提供了一种大语言模型的推理方法、装置、电子设备与可读存储介质。

技术介绍

1、随着大语言模型技术的发展越来越快，更多的用户开始利用大语言模型来满足工作和生活中的需求或者所遇到的问题。在实际使用过程中，用户对于大语言模型的延迟有着越来越高的要求，尤其对语音对话场景，用户希望在发出语音提问之后，大语言模型可以在较短的时间内进行答复，因此如何提升大语言模型的推理速度是亟待解决的技术问题。

技术实现思路

1、根据本公开的第一方面，提供了一种大语言模型的推理方法，包括：获取对用户输入的语音数据进行流式语音识别所得到的多个文本片段；将所述多个文本片段输入到大语言模型，由所述大语言模型对每个文本片段进行预填充处理，得到每个文本片段的预填充结果；响应于确定所述用户停止语音数据的输入，根据全部文本片段的预填充结果，得到目标填充结果；将所述目标预填充结果输入到所述大语言模型，由所述大语言模型对所述目标预填充结果进行前向传播处理与生成输出处理，得到预测文本，将所述预测文本作为所述大语言模型的推理结果。

2、根据本公开的第二方法，提供了一种大语言模型的推理装置，包括：获取单元，用于获取对用户输入的语音数据进行流式语音识别所得到的多个文本片段；第一推理单元，用于将所述多个文本片段输入到大语言模型，由所述大语言模型对每个文本片段进行预填充处理，得到每个文本片段的预填充结果；处理单元，用于响应于确定所述用户停止语音数据的

3、根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

4、根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

5、根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

6、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种大语言模型的推理方法，包括：

2.根据权利要求1所述的方法，其中，所述将所述多个文本片段输入到大语言模型包括：

3.根据权利要求1所述的方法，其中，所述确定用户停止语音数据的输入包括：

4.根据权利要求1所述的方法，其中，所述确定用户停止语音数据的输入包括：

5.根据权利要求1所述的方法，其中，所述根据全部文本片段的预填充结果，得到目标填充结果包括：

6.根据权利要求1所述的方法，还包括，

7.一种大语言模型的推理装置，包括：

8.根据权利要求7所述的装置，其中，所述第一推理单元在将所述多个文本片段输入到大语言模型时，具体执行：

9.根据权利要求7所述的装置，其中，所述处理单元在确定用户停止语音数据的输入时，具体执行：

10.根据权利要求7所述的装置，其中，所述处理单元在确定用户停止语音数据的输入时，具体执行：

11.根据权利要求7所述的装置，其中，所述处理单元在根据全部文本片段的预填充结果，得到目标填充结果时，具体执行：

12.根据权利要求

13.一种电子设备，包括：

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。

...

【技术特征摘要】