具有条件计算的注意力神经网络制造技术

技术编号：36071252 阅读：7 留言：0更新日期：2022-12-24 10:41

用于对网络输入执行机器学习任务以生成网络输出的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。在一个方面中，系统中的一个包括注意力神经网络，所述注意力神经网络被配置为执行机器学习任务，注意力神经网络包括一个或多个注意力层，每个注意力层包括注意力子层和前馈子层。注意力层中的一些或全部具有前馈子层，所述前馈子层将条件计算应用于对子层的输入。用于对子层的输入。用于对子层的输入。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】具有条件计算的注意力神经网络
[0001]相关申请的交叉引用
[0002]本申请要求于2020年6月30日提交的美国临时申请序列号第63/046,545号的优先权，该申请的全部内容通过引用并入本文中。

技术介绍

[0003]本说明书涉及使用神经网络对网络输入执行机器学习任务。
[0004]神经网络是机器学习模型，该机器学习模型采用一层或多层非线性单元来预测接收到的输入的输出。除了输出层之外，有些神经网络还包括一个或多个隐藏层。每个隐藏层的输出都被用作网络中的下一层——即，下一个隐藏层或输出层——的输入。网络的每一层都根据相应的参数集的当前值从接收到的输入生成输出。

技术实现思路

[0005]本说明书描述了一种在一个或多个位置的一个或多个计算机上作为计算机程序实施的系统，该系统使用注意力神经网络对网络输入执行机器学习任务，该注意力神经网络包括采用条件计算的前馈子层。
[0006]本说明书中所描述的主题的特定实施例可以实施以实现以下一个或多个优点。
[0007]本说明书中所描述的技术允许自注意力神经网络(例如，具有基于转换器的架构的神经网络)的计算能力提高，而在使用神经网络执行推断时消耗的计算资源量不会有对应的显著增加。具体地，所描述的技术结合了自注意力神经网络中一个或多个前馈子层的条件计算，从而显著提高了为需要处理输入序列、生成输出序列或两者的任务生成的输出的质量，而不显著增加计算成本。此外，通过在本说明书中所描述的训练期间跨多个设备使所得自注意力神经网络并行化，可以有效地训练自注意力神经...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对网络输入执行机器学习任务以生成网络输出的系统，所述系统包括一个或多个计算机以及存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实施：被配置为执行所述机器学习任务的注意力神经网络，所述注意力神经网络包括多个层，每个层包括注意力子层和前馈子层，所述注意力子层被配置为：接收所述层的输入序列，所述输入序列在一个或多个位置中的每个位置处包括相应的层输入；以及至少部分地通过将注意力机制应用于所述层的所述输入序列来生成受注意输入序列，所述受注意输入序列包括在所述一个或多个位置中的每个位置处的相应的受注意层输入，以及所述前馈层被配置为：接收所述受注意输入序列；以及从所述受注意输入序列生成所述层的输出序列，所述输出序列包括在所述一个或多个位置中的每个位置处的相应的层输出，其中，对于所述多个层中的至少一个层，所述前馈子层是条件计算子层，所述条件计算子层(i)包括多个专家前馈神经网络，并且(ii)被配置为通过执行以下操作生成所述层的所述输出序列，对于所述层的输入序列中的每个所述位置，所述操作包括：接收在该位置处的所述相应的受注意层输入；将门控函数应用于在该位置处的所述相应的受注意层输入，以为所述多个专家前馈神经网络中的每个生成相应的门分数；至少基于所述相应的门分数来从所述多个专家前馈神经网络中选择真子集；使用所述真子集中的每个所述专家前馈神经网络对在该位置处的所述相应的受注意层输入进行处理，以为每个所述专家前馈神经网络生成相应的专家输出；组合所述相应的专家输出，以生成组合专家输出；以及从所述组合专家输出生成在所述位置处的所述相应的层输出。2.根据权利要求1所述的系统，其中，只有所述注意力神经网络中的所述层的真子集具有作为条件计算子层的前馈子层。3.根据权利要求2所述的系统，其中，对于不在所述真子集中的每个层，所述前馈子层使用单个前馈神经网络处理在对该层的层输入中的每个所述位置处的每个相应的受注意层输入。4.根据权利要求1或权利要求2中任一项所述的系统，其中，所述多个层中的所述层被布置在序列中，以及其中，所述序列中的每个第二层具有作为条件计算子层的前馈子层。5.根据权利要求4所述的系统，其中，所述序列包括多个编码器层，之后是多个解码器层。6.根据任一项前述权利要求所述的系统，其中，所述系统包括多个硬件设备，以及其中，实施所述注意力神经网络包括：跨所述多个设备中的两个或两个以上设备对每个条件计算子层进行分片。7.根据权利要求6所述的系统，其中，实施所述注意力神经网络包括：跨所述多个设备中的两个或两个以上设备复制每个注意力子层。8.根据任一项前述权利要求所述的系统，其中，从所述组合专家输出生成所述层输出
包括：将残差连接和归一化应用于在所述位置处的所述组合专家输出，以生成所述输出序列。9.根据任一项前述权利要求所述的系统，其中，至少基于所述相应的门分数来从所述多个专家前馈神经网络中选择真子集包括：在所述多个专家前馈神经网络中最多选择总数量E的专家前馈神经网络中的k个专家前馈神经网络。10.根据权利要求9所述的系统，其中，k为2。11.根据权利要求9或权利要求10中任一项所述的系统，其中，E为至少100。12.根据权利要求11所述的系...

【专利技术属性】
技术研发人员：德米特里，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人