具有门控注意力单元的注意力神经网络制造技术

技术编号：42802256 阅读：15 留言：0更新日期：2024-09-24 20:47

方法、系统和设备，包括被编码在计算机存储介质上的计算机程序，用于对网络输入执行机器学习任务以生成网络输出。在一个方面，这些系统中的一者包括被配置为执行机器学习任务的神经网络，该神经网络包括一个或多个注意力层，每个注意力层包括门控注意力单元。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

技术介绍

1、本说明书涉及使用神经网络来对网络输入执行机器学习任务。

2、神经网络是采用一层或多层非线性单元来预测所接收的输入的输出的机器学习模型。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作到网络中的下一层(即，下一隐藏层或输出层)的输入。网络的每一层根据相应的参数集的当前值从所接收的输入生成输出。

技术实现思路

1、本说明书描述了一种在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统，该系统使用包括一个或多个注意力层的神经网络来针对所接收的网络输入生成网络输出。一个或多个计算机可以包括一个或多个机器学习加速器，例如，一个或多个tpu、gpu和/或其他asic。

2、取代首先应用注意力机制并且然后使用前馈神经网络来处理注意力机制的输出的是，每个注意力层都包括门控注意力单元，该门控注意力单元对应用于注意力层的输入序列的注意力机制的输出和应用于注意力层的输入序列的一个或多个前馈层的输出进行“门控”。

3、可实现本说明书中所描述的主题的特定实施例，以便实现以下优点中的一者或多者。

4、大型的基于注意力的神经网络(例如，具有transformer架构的神经网络)在许多机器学习任务上产生令人印象深刻的结果。尽管这些神经网络的模型大小快速增长，但是由于transformer在输入长度上的二次复杂度，许多现有系统被限于短的场境大小。该限制从根本上阻止模型处理长期信息，许多复杂机器学习任务的关键属性。

5、具体地，将自注意力应用于输入序列的现有系统在可被处理的输入序列的长度方面受到约束，即，被约束为处理最多具有某个数量的元素的输入序列。这里，输入序列可指代正在执行的任务的输入序列，或为了使神经网络执行任务而要求生成的输出序列的已经生成的部分。

6、具体地，跨整个输入序列应用自注意力的计算和存储器要求都随着输入序列中的元素的数量以二次方式增长(即，计算和存储器复杂度为o(n2)，其中n是输入序列中的元素的数量)。因此，当n太大时，将自注意力应用于输入序列可能是不可行的，从而将这些现有系统限于小问题域。

7、本说明书描述了一种自然实现更高质量逼近的新的注意力层设计。具体地，注意力层包括门控机制以减轻自注意力的负担，从而使注意力层在计算上更便宜并且其质量不太依赖于注意力机制的精度。因此，在一些情况下，注意力层可使用逼近transformer的二次注意力机制的注意力机制，从而在没有存储器瓶颈的情况下产生在场境大小上具有线性复杂度的变体。

8、具体地，新的注意力层可以在机器学习加速器(例如，tpu、gpu或其他asic)上有效地实现，从而在理论上和在神经网络被部署在这些加速器中的一者或多者上时提高性能。

9、此外，对于给定质量(例如，由困惑度分数衡量)，与已知的transformer模型相比，特别是在使用较长的序列长度(例如，序列长度大于或等于512，诸如序列长度范围为从512至8192)时，包括本说明书中描述的注意力层的系统可以在更短的时间内(例如，在一个或多个机器学习加速器上)被训练。

10、在以下附图和说明书中阐述了本说明书的主题的一个或多个实施例的细节。本主题的其他特征、方面和优点将根据说明书、附图和权利要求书而变得显而易见。

本文档来自技高网...

【技术保护点】

1.一种用于对网络输入执行机器学习任务以生成网络输出的系统，所述系统包括一个或多个计算机和一个或多个存储装置，所述一个或多个存储装置存储指令，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实现：

2.如权利要求1所述的系统，所述操作还包括：

3.如权利要求2所述的系统，其中，每个层输入的所述相应的层输出是所述层输入的所述相应的更新后的输出。

4.如权利要求2所述的系统，所述操作还包括：

5.如任一项前述权利要求所述的系统，其中，将注意力机制应用于所述输入序列以生成每个相应的层输入的相应的关注层输入包括：

6.如权利要求5所述的系统，其中，每个层输入的所述相应的键和所述相应的值从通过使用所述一个或多个第三前馈神经网络层处理所述层输入生成的相同共享表示导出。

7.如权利要求5或权利要求6所述的系统，其中，每个查询和键的维数小于所述层输入和所述层输出的维数。

8.如权利要求5至7中任一项所述的系统，其中，包括所述层输入的所述相应的注意力权重集的矩阵A满足：

9.如权利要求8所述

10.如权利要求1至5中任一项所述的系统，其中，所述注意力机制是线性注意力机制。

11.如权利要求1至5中任一项所述的系统，其中，所述注意力机制是部分注意力机制。

12.如权利要求1至5中任一项所述的系统，其中，所述层输入被分割为多个块，并且其中，将注意力机制应用于所述输入序列以生成每个相应的层输入的相应的关注层输入包括：

13.如权利要求12所述的系统，其中，将所述层输入的所述相应的线性关注输入与层输入的所述相应的二次关注输入组合以生成所述层输入的所述关注输入包括将所述层输入的所述相应的线性关注输入与层输入的所述相应的二次关注输入相加以生成所述层输入的所述关注输入。

14.如权利要求12或13所述的系统，其中，使用所述块中的所述层输入的所述相应的查询、键和值来将二次注意力机制应用于所述块中的所述层输入以生成所述块中的每个层输入的相应的二次关注输入包括：

15.如权利要求12至14中任一项所述的系统，其中，通过应用所述线性注意力机制生成的块g中的所述层输入的所述线性关注输入的矩阵满足：

16.如权利要求12至14中任一项所述的系统，其中，所述线性注意力机制是因果线性注意力机制，并且其中，通过应用所述因果线性注意力机制生成的所述块g中的所述层输入的所述线性关注输入的矩阵满足：

17.如权利要求12至16中任一项所述的系统，其中，所述一个或多个第一前馈神经网络层包括每个块的相应的一个或多个第一前馈神经网络层集，并且其中，

18.如也从属于权利要求2的权利要求17所述的系统，其中，所述一个或多个第二前馈神经网络层包括每个块的相应的一个或多个第二前馈神经网络层集，并且其中，

19.如任一项前述权利要求所述的系统，其中，所述神经网络包括一个或多个初始层、所述注意力层的序列和一个或多个输出层。

20.如权利要求19所述的系统，其中，所述初始层包括嵌入层。

21.如权利要求19或权利要求20所述的系统，其中，所述网络输出是序列，其中，所述神经网络在多个时间步中自回归地生成所述网络输出，并且其中，在每个时间步处，所述神经网络处理所述网络输入和所述网络输出的任何已经生成的元素。

22.如权利要求21所述的系统，其中，每个注意力层中的所述注意力机制是因果注意力机制。

23.如也从属于权利要求16的权利要求22所述的系统，其中，每个块内的所述二次注意力机制是因果的。

24.如权利要求19至20所述的系统，其中，所述网络输入是序列，并且其中，每个注意力层中的所述注意力机制是非因果的。

25.一种或多种存储指令的计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机实现如任一项前述权利要求所述的注意力神经网络。

26.一种方法，包括：

...

【技术特征摘要】
【国外来华专利技术】

2.如权利要求1所述的系统，所述操作还包括：

3.如权利要求2所述的系统，其中，每个层输入的所述相应的层输出是所述层输入的所述相应的更新后的输出。

4.如权利要求2所述的系统，所述操作还包括：

5.如任一项前述权利要求所述的系统，其中，将注意力机制应用于所述输入序列以生成每个相应的层输入的相应的关注层输入包括：

7.如权利要求5或权利要求6所述的系统，其中，每个查询和键的维数小于所述层输入和所述层输出的维数。

8.如权利要求5至7中任一项所述的系统，其中，包括所述层输入的所述相应的注意力权重集的矩阵a满足：

9.如权利要求8所述的系统，其中，b是相对位置偏差。

10.如权利要求1至5中任一项所述的系统，其中，所述注意力机制是线性注意力机制。

11.如权利要求1至5中任一项所述的系统，其中，所述注意力机制是部分注意力机制。

14.如权利要求12或13所述的系统，其中，使用所述块中的所述层输入的所述相应的查询、...

【专利技术属性】
技术研发人员：刘寒骁，华惟哲，戴自航，国·V·勒，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人