基于注意力的仅解码器的序列转换神经网络制造技术

技术编号：43437099 阅读：9 留言：0更新日期：2024-11-27 12:44

本申请涉及基于注意力的仅解码器的序列转换神经网络。用于从输入序列生成输出序列的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。该方法之一包括，在多个生成时间步中的每个时间步处：为该生成时间步生成包括输入序列的组合序列，该输入序列后面是截至该生成时间步已经生成的输出令牌；使用自注意力解码器神经网络处理组合序列以生成时间步输出，该时间步输出定义关于可能输出令牌集合的得分分布；以及使用时间步输出，从可能输出令牌集合中选择输出令牌作为输出序列中的下一个输出令牌。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及使用神经网络转换(transduce)序列。

技术介绍

1、神经网络是采用一个或多个层的非线性单元来针对接收到的输入预测输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作对网络中的下一个层的输入，所述下一个层即下一个隐藏层或输出层。网络的每个层根据相应的参数集合的当前值根据接收到的输入生成输出。

技术实现思路

1、本说明书描述一种系统，该系统被实现为在一个或多个位置上的一个或多个计算机上的计算机程序，该系统从输入序列生成输出序列，该输出序列包括按输出顺序的多个位置中的每个位置处的相应输出，该输入序列包括按输入顺序的多个位置中的每个位置处的相应输入，即，将输入序列转换成输出序列。特别地，系统使用基于自注意力的解码器神经网络生成输出序列。

2、可以实现本说明书中描述的主题的特定实施例，使得实现以下优点中的一个或多个。

3、在本说明书中描述的系统的仅解码器架构可以有效且可扩展地注意比传统的序列转换系统长得多的很长的序列。因此，系统可以更有效地执行需要处理长输入序列、生成长输出序列或两者的序列转换任务。例如，该系统在需要生成多个文档的较长摘要的表达性摘要任务上可能会胜过常规系统。这样的任务和其他长序列转换任务可能需要从包括10,000或更多令牌的输入序列中处理和提取信息，以有效地生成输出序列。但是，因为该系统完全或主要基于注意力的，所以该系统仍与现有技术一样计算高效，或者在许多情况下比现有技术更计算高效。p>

4、另外，因为所描述的系统仅使用解码器神经网络并且不需要单独的编码器网络，参数的数量并且因此通过使用神经网络存储和运行推理所消耗的内存相对于其他能够在序列转换任务上表现出色的系统大大减少。

5、此外，通过利用本说明书中描述的局部注意力、存储器压缩注意力或两者，所描述的系统能够在非常长的序列上有效地执行序列转换，而无需消耗过多量的计算资源。

6、更一般地，由于使用自注意力，所描述的系统也优于许多现有系统。使用神经网络进行序列转换的许多现有方法在编码器和解码器中都使用递归神经网络。尽管这些种类的网络可以在序列转换任务上实现良好的性能，但是它们的计算本质上是顺序排列，即，递归神经网络在当前时间步生成输出，其以在之前时间步处的递归神经网络的隐藏状态为条件。这种顺序性质会阻止并行化，从而导致较长的训练和推理时间，并且因此导致使用大量计算资源的工作负载。

7、另一方面，因为所描述的系统的解码器是基于注意力的，所以该系统可以更快地转换序列，被更快地训练或两者，因为可以更容易地并行化网络的操作。也就是说，因为所描述的神经网络完全依赖于注意力机制来取得输入和输出之间的全局依存关系并且不采用任何递归神经网络层，所以由递归神经网络层的顺序性质造成的长训练和干扰时间和高资源使用率的问题被缓解。

8、此外，所描述的神经网络比基于卷积层或递归层的现有网络可以更准确地转换序列，即使训练和推理时间较短。特别地，在常规模型中，关联来自两个任意输入或输出位置的信号所需的操作数量随着位置之间的距离而增长，例如，取决于模型架构，线性地或对数地增长。这使在训练期间学习远距离位置之间的依存关系变得更加困难。在当前描述的神经网络中，由于在不依赖于递归或卷积的同时使用注意力(并且尤其是自注意力)，所以将这种操作的数量减少为恒定数量的操作。自注意力有时也称为内注意力，是一种与单序列的不同位置相关的注意力机制，以便于计算序列的表示。注意力机制的使用允许神经网络在训练期间有效地学习远距离处位置之间的依存关系，从而改进神经网络在各种转换任务，例如，机器翻译上的准确性。所描述的神经网络还可以展示出优于常规序列转换神经网络的性能而无需通过使用注意力机制进行任务特定的调整。

9、在下面的附图和描述中阐述本说明书中描述的主题的一个或多个实施例的细节。根据说明书、附图和权利要求书，主题的其它特征、方面和优点将变得显而易见。

本文档来自技高网...

【技术保护点】

1.一种用于从输入序列生成输出序列的方法，所述输入序列包括多个输入令牌，所述输出序列包括多个输出令牌，所述方法包括，在多个生成时间步中的每个生成时间步处：

2.根据权利要求1所述的方法，其中，所述一个或多个专家混合层中的每一个选择所述一个或多个专家混合层内的一个或多个专家来处理层输入。

3.根据权利要求1所述的方法，其中，所述一个或多个掩码的自注意力神经网络层被掩码，使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌，并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。

4.根据权利要求1所述的方法，其中，所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。

5.根据权利要求1所述的方法，其中，所述一个或多个掩码的自注意力神经网络层是掩码的多头注意力层。

6.根据权利要求1所述的方法，其中，所述一个或多个掩码的自注意力神经网络层包括至少一个局部注意力层，并且其中，每个局部注意力层包括局部注意力子层，所述局部注意力子层被配置成：

8.根据权利要求7所述的方法，其中，获得所述注意力输入包括：

9.根据权利要求1所述的方法，其中，所述输入序列包括来自多个文档的文本，并且其中，所述输出序列是概括所述多个文档的文本。

10.根据权利要求9所述的方法，其中，所述输入序列还包括指定所述多个文档所涉及的主题的文本。

11.根据权利要求1所述的方法，还包括：

12.一种系统，所述系统包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行用于从输入序列生成输出序列的操作，所述输入序列包括多个输入令牌，所述输出序列包括多个输出令牌，所述操作包括，在多个生成时间步中的每个生成时间步处：

13.根据权利要求12所述的系统，其中，所述一个或多个掩码的自注意力神经网络层被掩码，使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌，并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。

14.根据权利要求12所述的系统，其中，所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。

15.根据权利要求12所述的系统，其中，所述一个或多个掩码的自注意力神经网络层是掩码的多头注意力层。

16.根据权利要求12所述的系统，其中，所述一个或多个掩码的自注意力神经网络层包括至少一个局部注意力层，并且其中，每个局部注意力层包括局部注意力子层，所述局部注意力子层被配置成：

17.根据权利要求12所述的系统，其中，所述一个或多个掩码的自注意力神经网络层包括至少一个存储器压缩注意力层，并且其中，每个存储器压缩注意力层包括存储器压缩子层，所述存储器压缩子层被配置成：

18.根据权利要求17所述的系统，其中，获得所述注意力输入包括：

19.一个或多个存储指令的非暂时性计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行用于从输入序列生成输出序列的操作，所述输入序列包括多个输入令牌，所述输出序列包括多个输出令牌，所述操作包括，在多个生成时间步中的每个生成时间步处：

20.根据权利要求19所述的一个或多个非暂时性计算机存储介质，其中，所述一个或多个掩码的自注意力神经网络层被掩码，使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌，并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。

21.一种用于从输入序列生成输出序列的方法，所述输入序列包括从包括自然语言令牌的词汇中选择的多个输入令牌，所述输出序列包括多个输出令牌，所述方法包括，在多个生成时间步中的每个生成时间步处：

22.根据权利要求21所述的方法，其中，所述多个掩码的自注意力神经网络层被掩码，使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌，并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。

23.根据权利要求21所述的方法，其中，所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。

24.根据权利要求21所述...

【技术特征摘要】

2.根据权利要求1所述的方法，其中，所述一个或多个专家混合层中的每一个选择所述一个或多个专家混合层内的一个或多个专家来处理层输入。

4.根据权利要求1所述的方法，其中，所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。

5.根据权利要求1所述的方法，其中，所述一个或多个掩码的自注意力神经网络层是掩码的多头注意力层。

7.根据权利要求1所述的方法，其中，所述一个或多个掩码的自注意力神经网络层包括至少一个存储器压缩注意力层，并且其中，每个存储器压缩注意力层包括存储器压缩子层，所述存储器压缩子层被配置成：

8.根据权利要求7所述的方法，其中，获得所述注意力输入包括：

9.根据权利要求1所述的方法，其中，所述输入序列包括来自多个文档的文本，并且其中，所述输出序列是概括所述多个文档的文本。

10.根据权利要求9所述的方法，其中，所述输入序列还包括指定所述多个文档所涉及的主题的文本。

11.根据权利要求1所述的方法，还包括：

14.根据权利要求12所述的系统，其中，所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。

15.根据权利要求12所述的系统，其中，所述一个或多个掩码的自注意力神经网络层是掩码的多头注意力层。

18.根据权利要求17所述的系统，其中，获得所述注意力输入包括：

23.根据权利要求21所述的方法，其中，所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。

24.根据权利要求21所述的方法，其中，所述多个掩码的自注意力神经网络层是掩码的多头注意力层。

25.根据权利要求21所述的方法，其中，所述多个掩码的自注意力神经网络层包括至少一个局部注意力层，并且其中，每个局部注意力层包括局部注意力子层，所述局部注意力子层被配置成：

26.根据权利要求21所述的方法，其中，所述多个掩码的自注意力神经网络层包括至少一个存储器压缩注意力层，并且其中，每个存储器压缩注意力层包括存储器压缩子层，所述存储器压缩子层被配置成：

27.根据权利要求26所述的方法，其中，获得所述注意力输入包括：

28.根据权利要求21所述的方法，其中，所述输入序列包括来自多个文档的文本，并且其中，所述输出序列是概括所述多个文档的文本。

29.根据权利要求28所述的方法，其中，所述输入序列还包括指定所述多个文档所涉及的主题的文本。

30.根据权利要求21所述的方法，还包括：

31.根据权利要求21所述的方法，其中，所述自注意力解码器神经网络包括一个或多个专家混合层。

32.一种系统，所述系统包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行用于从输入序列生成输出序列的操作，所述输入序列包括从包括自然语言令牌的词汇中选择的多个输入令牌，所述输出序列包括多个输出令牌，所述操作包括，在多个生成时间步中的每个生成时间步处：

33.根据权利要求32所述的系统，其中，所述多个掩码的自注意力神经网络层被掩码，使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌，并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。

34.根据权利要求32所述的系统，其中，所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。

35.根据权利要求32所述的系统，其中，所述多个掩码的自注意力神经网络层是掩码的多头注意力层。

36.根据权利要求32所述的系统，其中，所述多个掩码的自注意力神经网络层包括至少一个局部注意力层，并且其中，每个局部注意力层包括局部注意力子层，所述局部注意力子层被配置成：

37.根据权利要求32所述的系统，其中，所述多个掩码的自注意力神经网络层包括至少一个存储器压缩注意力层，并且其中，每个存储器压缩注意力层包括存储器压缩子层，所述存储器压缩子层被配置成：

38.根据权利要求37所述的系统，其中，获得所...

【专利技术属性】
技术研发人员：诺姆·M·沙泽尔，卢卡什·米奇斯瓦夫·凯泽，艾蒂安·波特，穆罕默德·萨利赫，本·大卫·古德里奇，彼得·J·柳，瑞安·赛帕斯，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人