基于注意力提示的语言模型输出方法、装置和电子设备制造方法及图纸

技术编号：41123863 阅读：5 留言：0更新日期：2024-04-30 17:50

本发明专利技术实施例提供了一种基于注意力提示的语言模型输出方法、装置和电子设备，所述方法包括：在编码器模块中对输入的输入词元序列进行编码得到编码矩阵；在注意力池化中根据编码矩阵计算注意力评分，并根据注意力评分生成注意力权重；根据编码矩阵、预设的感知损失函数矩阵和预设的注意力提示策略矩阵生成注意力矩阵；根据注意力矩阵、注意力权重和预设的注意力提示策略生成多头注意力矩阵；在解码器模块中根据多头注意力矩阵和注意力权重生成输出词元序列；获取输入词元序列的上下文变量，根据输出词元序列和上下文变量输出目标输出词元序列。本发明专利技术实施例提高了语言模型针对输入词元序列输出的输出词元序列的准确度和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及模型，特别是涉及一种基于注意力提示的语言模型输出方法、一种基于注意力提示的语言模型输出装置、一种电子设备和一种存储介质。

技术介绍

1、大语言模型(语言模型)是指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。语言模型可以处理多种自然语言任务，例如文本分类、问答、对话等，是通向人工智能的一条重要途径。

2、然而，目前的大语言模型在生成输出词元序列(文本)时存在一些缺点。具体地，由于语言模型通常仅基于上下文来生成文本，而没有明确的提示或指导信息，从而导致语言模型生成的输出词元序列过于随机或偏离用户实际的期望，降低了用户对语言模型的使用体验。

技术实现思路

1、本专利技术实施例提供了一种基于注意力提示的语言模型输出方法，以解决目前语言模型生成的输出词元序列存在过于随机或偏离用户实际的期望的问题。

2、相应的，本专利技术实施例还提供了一种基于注意力提示的语言模型输出装置、一种电子设备以及一种存储介质，用以保证上述方法的实现及应用。

3、为了解决上述问题，本专利技术实施例公开了一种基于注意力提示的语言模型输出方法，所述语言模型包括编码器模块、解码器模块和注意力池化，所述方法包括：

4、在所述编码器模块中对输入的输入词元序列进行编码得到编码矩阵；

5、在所述注意力池化中根据所述编码矩阵计算注意力评分，并根据所述注意力评分生成注意力权重；

6、根据所述编码矩阵、预设的感知损

7、根据所述注意力矩阵、所述注意力权重和预设的注意力提示策略生成多头注意力矩阵；

8、在所述解码器模块中根据所述多头注意力矩阵和所述注意力权重生成输出词元序列；

9、获取所述输入词元序列的上下文变量，根据所述输出词元序列和所述上下文变量输出目标输出词元序列。

10、在一些实施例中，所述在所述编码器模块中对输入的输入词元序列进行编码得到编码矩阵，包括：

11、在所述编码器模块中对输入的输入词元序列转换得到词嵌入向量；

12、获取所述输入词元序列的位置编码；其中，所述位置编码为通过学习获得或者通过固定设置得到；

13、根据所述词嵌入向量和所述位置编码生成编码矩阵。

14、在一些实施例中，所述编码器模块使用卷积神经网络和循环神经网络。

15、在一些实施例中，所述根据所述编码矩阵、预设的感知损失函数矩阵和预设的注意力提示策略矩阵生成注意力矩阵，包括：

16、对所述编码矩阵进行线性变换得到特征矩阵、键矩阵、值矩阵和位置矩阵；

17、根据所述特征矩阵、所述键矩阵、所述值矩阵、所述位置矩阵、预设的感知损失函数矩阵和预设的注意力提示策略矩阵生成注意力矩阵。

18、在一些实施例中，所述获取所述输入词元序列的上下文变量，包括：

19、获取解码时间步的编码器隐状态和前一解码时间步的解码器隐状态；

20、根据所述编码器隐状态、所述解码器隐状态和所述输入词元序列中词元的数量生成所述输入词元序列的上下文变量。

21、在一些实施例中，所述根据所述输出词元序列和所述上下文变量输出目标输出词元序列，包括：

22、获取针对所述输入词元序列的历史参数；

23、根据所述输出词元序列、所述上下文变量和所述历史参数输出目标输出词元序列。

24、在一些实施例中，所述注意力提示策略为根据个人特点、任务的性质、反馈和或环境对应设置。

25、本专利技术实施例还公开了一种基于注意力提示的语言模型输出装置，所述语言模型包括编码器模块、解码器模块和注意力池化，所述装置包括：

26、输入词元序列编码模块，用于在所述编码器模块中对输入的输入词元序列进行编码得到编码矩阵；

27、注意力权重生成模块，用于在所述注意力池化中根据所述编码矩阵计算注意力评分，并根据所述注意力评分生成注意力权重；

28、注意力矩阵生成模块，用于根据所述编码矩阵、预设的感知损失函数矩阵和预设的注意力提示策略矩阵生成注意力矩阵；

29、多头注意力矩阵生成模块，用于根据所述注意力矩阵、所述注意力权重和预设的注意力提示策略生成多头注意力矩阵；

30、输出词元序列生成模块，用于在所述解码器模块中根据所述多头注意力矩阵和所述注意力权重生成输出词元序列；

31、目标输出词元序列生成模块，用于获取所述输入词元序列的上下文变量，根据所述输出词元序列和所述上下文变量输出目标输出词元序列。

32、在一些实施例中，所述输入词元序列编码模块，用于：

33、在所述编码器模块中对输入的输入词元序列转换得到词嵌入向量；

34、获取所述输入词元序列的位置编码；其中，所述位置编码为通过学习获得或者通过固定设置得到；

35、根据所述词嵌入向量和所述位置编码生成编码矩阵。

36、在一些实施例中，所述编码器模块使用卷积神经网络和循环神经网络。

37、在本专利技术的一种实施例中，所述注意力矩阵生成模块，用于：

38、对所述编码矩阵进行线性变换得到特征矩阵、键矩阵、值矩阵和位置矩阵；

39、根据所述特征矩阵、所述键矩阵、所述值矩阵、所述位置矩阵、预设的感知损失函数矩阵和预设的注意力提示策略矩阵生成注意力矩阵。

40、在一些实施例中，所述目标输出词元序列生成模块，用于：

41、获取解码时间步的编码器隐状态和前一解码时间步的解码器隐状态；

42、根据所述编码器隐状态、所述解码器隐状态和所述输入词元序列中词元的数量生成所述输入词元序列的上下文变量。

43、在一些实施例中，所述目标输出词元序列生成模块，用于：

44、获取针对所述输入词元序列的历史参数；

45、根据所述输出词元序列、所述上下文变量和所述历史参数输出目标输出词元序列。

46、在一些实施例中，所述注意力提示策略为根据个人特点、任务的性质、反馈和或环境对应设置。

47、本专利技术实施例还公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本专利技术实施例中一个或多个所述的基于注意力提示的语言模型输出方法。

48、本专利技术实施例还公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本专利技术实施例中一个或多个所述的基于注意力提示的语言模型输出方法。

49、与现有技术相比，本专利技术实施例包括以下优点：

50、在本专利技术实施例中，语言模型可以包括编码器模块、解码器模块和注意力池化，在编码器模块中对输入的输入词元序列进行编码得到编码矩，在注意力池化中根据编码矩阵计算注意力评分，并根据注意力评分本文档来自技高网...

【技术保护点】

1.一种基于注意力提示的语言模型输出方法，其特征在于，所述语言模型包括编码器模块、解码器模块和注意力池化，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述在所述编码器模块中对输入的输入词元序列进行编码得到编码矩阵，包括：

3.根据权利要求2所述的方法，其特征在于，所述编码器模块使用卷积神经网络和循环神经网络。

4.根据权利要求1所述的方法，其特征在于，所述根据所述编码矩阵、预设的感知损失函数矩阵和预设的注意力提示策略矩阵生成注意力矩阵，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取所述输入词元序列的上下文变量，包括：

6.根据权利要求1或5所述的方法，其特征在于，所述根据所述输出词元序列和所述上下文变量输出目标输出词元序列，包括：

7.根据权利要求1所述的方法，其特征在于，所述注意力提示策略为根据个人特点、任务的性质、反馈和或环境对应设置。

8.一种基于注意力提示的语言模型输出装置，其特征在于，所述语言模型包括编码器模块、解码器模块和注意力池化，所述装置包括：