具有条件计算的注意力神经网络制造技术

技术编号:36071252 阅读:7 留言:0更新日期:2022-12-24 10:41
用于对网络输入执行机器学习任务以生成网络输出的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面中,系统中的一个包括注意力神经网络,所述注意力神经网络被配置为执行机器学习任务,注意力神经网络包括一个或多个注意力层,每个注意力层包括注意力子层和前馈子层。注意力层中的一些或全部具有前馈子层,所述前馈子层将条件计算应用于对子层的输入。用于对子层的输入。用于对子层的输入。

【技术实现步骤摘要】
【国外来华专利技术】具有条件计算的注意力神经网络
[0001]相关申请的交叉引用
[0002]本申请要求于2020年6月30日提交的美国临时申请序列号第63/046,545号的优先权,该申请的全部内容通过引用并入本文中。

技术介绍

[0003]本说明书涉及使用神经网络对网络输入执行机器学习任务。
[0004]神经网络是机器学习模型,该机器学习模型采用一层或多层非线性单元来预测接收到的输入的输出。除了输出层之外,有些神经网络还包括一个或多个隐藏层。每个隐藏层的输出都被用作网络中的下一层——即,下一个隐藏层或输出层——的输入。网络的每一层都根据相应的参数集的当前值从接收到的输入生成输出。

技术实现思路

[0005]本说明书描述了一种在一个或多个位置的一个或多个计算机上作为计算机程序实施的系统,该系统使用注意力神经网络对网络输入执行机器学习任务,该注意力神经网络包括采用条件计算的前馈子层。
[0006]本说明书中所描述的主题的特定实施例可以实施以实现以下一个或多个优点。
[0007]本说明书中所描述的技术允许自注意力神经网络(例如,具有基于转换器的架构的神经网络)的计算能力提高,而在使用神经网络执行推断时消耗的计算资源量不会有对应的显著增加。具体地,所描述的技术结合了自注意力神经网络中一个或多个前馈子层的条件计算,从而显著提高了为需要处理输入序列、生成输出序列或两者的任务生成的输出的质量,而不显著增加计算成本。此外,通过在本说明书中所描述的训练期间跨多个设备使所得自注意力神经网络并行化,可以有效地训练自注意力神经网络,尽管该自注意力神经网络具有比现有的自注意力网络明显更多的参数。附加地,通过在下述训练期间选择哪些专家用于任何给定位置的任何给定输入(也称为“词元”(“token”)),所描述的技术确保模型利用了条件计算所提供的增加的能力,并且可以实现上述显著的质量提高。
[0008]本说明书的主题的一个或多个实施例的细节在附图和下面的描述中进行说明。主题的其他特征、方面和优点通过说明书、附图和权利要求书将变得显而易见。
附图说明
[0009]图1示出了示例神经网络系统。
[0010]图2示出了常规层和具有条件计算子层的层的示例。
[0011]图3是使用条件计算子层处理受注意层输入序列的示例过程的流程图。
[0012]图4示出了跨多个硬件设备部署的注意力神经网络的示例编码器。
[0013]相同的参考数字和标记在各个图中都指示相同的元件。
具体实施方式
[0014]本说明书描述了一种在一个或多个位置的一个或多个计算机上作为计算机程序实施的系统,该系统对网络输入执行机器学习任务,为机器学习任务生成网络输出。
[0015]机器学习任务可以是任何机器学习任务,该机器学习任务(i)对作为输入序列的网络输入进行操作,(ii)生成作为输出序列的网络输出或(iii)进行这两者。
[0016]下面是机器学习任务的一些示例,系统可以配置为执行这些机器学习任务。
[0017]作为一个示例,任务可以是神经机器翻译任务。例如,如果神经网络的输入是一种语言的文本序列,例如,单词、短语、字符或单词片段的序列,则神经网络所生成的输出可以是文本序列到另一种语言的翻译,即,作为输入文本序列的翻译的另一语言的文本序列。作为特定示例,任务可以是多语言机器翻译任务,其中,单个神经网络配置为在多个不同的源语言——目标语言对——之间进行翻译。在这个示例中,源语言文本可以用标识符增强,该标识符指示神经网络应将源语言文本翻译成的目标语言。
[0018]作为另一个示例,任务可以是音频处理任务。例如,如果神经网络的输入是表示说出的话语的序列,则神经网络所生成的输出可以是文本片段集中的每个文本片段的分数,每个分数都表示该文本片段是话语的正确转录的估计可能性。作为另一个示例,如果神经网络的输入是表示说出的话语的序列,则神经网络所生成的输出可以指示话语中是否说出特定的单词或短语(“热词”)。作为另一个示例,如果神经网络的输入是表示说出的话语的序列,则神经网络所生成的输出可以口头话语到多个类别中的一个类别的分类,例如,说出话语的自然语言的身份。
[0019]作为另一个示例,任务可以是自然语言处理或理解任务,例如,蕴涵任务、释义任务、文本相似性任务、情感任务、句子完成任务、符合语法任务等等,该任务对某种自然语言的文本序列进行操作。
[0020]作为另一个示例,任务可以是文本到语音任务,其中,输入是自然语言文本或自然语言文本的特征,并且网络输出是频谱图、波形或定义用自然语言说出的文本的音频的其他数据。
[0021]作为示例,任务可以是健康预测任务,其中,输入是由患者的电子健康记录数据得到的序列,并且输出是与患者的未来健康相关的预测,例如,应向患者开处方的预测治疗、患者将发生不良健康事件的可能性或对患者的预测诊断。例如,这种电子健康数据可以包括取自患者的一个或多个生理数据序列,其中,输出是与那些数据序列相关的对应预测。生理数据和对应预测的示例包括:血糖测量,其中,预测是预测的未来血糖测量或对高血糖或低血糖事件的预测;心率,其中,预测是存在或不存在心脏病或未来的心脏事件;血压测量,其中,预测是未来心脏病的风险,等等。
[0022]作为另一个示例,任务可以是文本生成任务,其中,输入是文本序列,并且输出是另一个文本序列,例如,输入文本序列的完成、对输入序列中提出的问题的回答或关于第一文本序列指定的主题的文本序列。作为另一个示例,文本生成任务的输入可以是文本之外的输入,例如,图像,并且输出序列可以是描述输入的文本。
[0023]作为另一个示例,任务可以是图像生成任务,其中,输入是条件输入,并且输出是图像的像素的强度值输入序列。
[0024]作为另一个示例,任务可以是智能体控制任务,其中,输入是观察或表征环境的状
态的其他数据的序列,并且输出定义智能体响应于序列中的最新数据要执行的动作。例如,智能体可以是真实的或模拟的机器人、工业设施的控制系统或控制不同种类的智能体的控制系统。观察可以包括由与智能体(例如,其部分)相关联的传感器捕获的传感器数据,例如,视觉数据、LIDAR数据、声呐数据、智能体配置数据(例如,节点角度)、智能体定向数据等。
[0025]作为另一个示例,任务可以是基因组学任务,其中,输入是表示DNA序列或其他分子序列的段的序列,并且输出用于下游任务的段的嵌入——例如,通过对DNA序列段的数据集使用无监督的学习技术——或下游任务的输出。下游任务的示例包括启动子部位预测、甲基化分析、预测非编码变体的功能效应等等。
[0026]在某些情况下,机器学习任务是多个独立机器学习任务的组合,即,系统配置为执行多个不同的独立机器学习任务,例如,上述机器学习任务中的两个或两个以上。例如,系统可以配置为执行多个独立的自然语言理解任务,其中,网络输入包括要对网络输入执行的独立的自然语言理解任务的标识符。
[0027]为了执行机器学习任务,系统包括注意力本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对网络输入执行机器学习任务以生成网络输出的系统,所述系统包括一个或多个计算机以及存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实施:被配置为执行所述机器学习任务的注意力神经网络,所述注意力神经网络包括多个层,每个层包括注意力子层和前馈子层,所述注意力子层被配置为:接收所述层的输入序列,所述输入序列在一个或多个位置中的每个位置处包括相应的层输入;以及至少部分地通过将注意力机制应用于所述层的所述输入序列来生成受注意输入序列,所述受注意输入序列包括在所述一个或多个位置中的每个位置处的相应的受注意层输入,以及所述前馈层被配置为:接收所述受注意输入序列;以及从所述受注意输入序列生成所述层的输出序列,所述输出序列包括在所述一个或多个位置中的每个位置处的相应的层输出,其中,对于所述多个层中的至少一个层,所述前馈子层是条件计算子层,所述条件计算子层(i)包括多个专家前馈神经网络,并且(ii)被配置为通过执行以下操作生成所述层的所述输出序列,对于所述层的输入序列中的每个所述位置,所述操作包括:接收在该位置处的所述相应的受注意层输入;将门控函数应用于在该位置处的所述相应的受注意层输入,以为所述多个专家前馈神经网络中的每个生成相应的门分数;至少基于所述相应的门分数来从所述多个专家前馈神经网络中选择真子集;使用所述真子集中的每个所述专家前馈神经网络对在该位置处的所述相应的受注意层输入进行处理,以为每个所述专家前馈神经网络生成相应的专家输出;组合所述相应的专家输出,以生成组合专家输出;以及从所述组合专家输出生成在所述位置处的所述相应的层输出。2.根据权利要求1所述的系统,其中,只有所述注意力神经网络中的所述层的真子集具有作为条件计算子层的前馈子层。3.根据权利要求2所述的系统,其中,对于不在所述真子集中的每个层,所述前馈子层使用单个前馈神经网络处理在对该层的层输入中的每个所述位置处的每个相应的受注意层输入。4.根据权利要求1或权利要求2中任一项所述的系统,其中,所述多个层中的所述层被布置在序列中,以及其中,所述序列中的每个第二层具有作为条件计算子层的前馈子层。5.根据权利要求4所述的系统,其中,所述序列包括多个编码器层,之后是多个解码器层。6.根据任一项前述权利要求所述的系统,其中,所述系统包括多个硬件设备,以及其中,实施所述注意力神经网络包括:跨所述多个设备中的两个或两个以上设备对每个条件计算子层进行分片。7.根据权利要求6所述的系统,其中,实施所述注意力神经网络包括:跨所述多个设备中的两个或两个以上设备复制每个注意力子层。8.根据任一项前述权利要求所述的系统,其中,从所述组合专家输出生成所述层输出
包括:将残差连接和归一化应用于在所述位置处的所述组合专家输出,以生成所述输出序列。9.根据任一项前述权利要求所述的系统,其中,至少基于所述相应的门分数来从所述多个专家前馈神经网络中选择真子集包括:在所述多个专家前馈神经网络中最多选择总数量E的专家前馈神经网络中的k个专家前馈神经网络。10.根据权利要求9所述的系统,其中,k为2。11.根据权利要求9或权利要求10中任一项所述的系统,其中,E为至少100。12.根据权利要求11所述的系...

【专利技术属性】
技术研发人员:德米特里
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1