System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
1、本说明书涉及使用神经网络来对网络输入执行机器学习任务。
2、神经网络是采用一层或多层非线性单元来预测所接收的输入的输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作到网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每一层根据相应的参数集的当前值从所接收的输入生成输出。
技术实现思路
1、本说明书描述了一种在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统,该系统使用包括一个或多个注意力层的神经网络来针对所接收的网络输入生成网络输出。一个或多个计算机可以包括一个或多个机器学习加速器,例如,一个或多个tpu、gpu和/或其他asic。
2、取代首先应用注意力机制并且然后使用前馈神经网络来处理注意力机制的输出的是,每个注意力层都包括门控注意力单元,该门控注意力单元对应用于注意力层的输入序列的注意力机制的输出和应用于注意力层的输入序列的一个或多个前馈层的输出进行“门控”。
3、可实现本说明书中所描述的主题的特定实施例,以便实现以下优点中的一者或多者。
4、大型的基于注意力的神经网络(例如,具有transformer架构的神经网络)在许多机器学习任务上产生令人印象深刻的结果。尽管这些神经网络的模型大小快速增长,但是由于transformer在输入长度上的二次复杂度,许多现有系统被限于短的场境大小。该限制从根本上阻止模型处理长期信息,许多复杂机器学习任务的关键属性。
...【技术保护点】
1.一种用于对网络输入执行机器学习任务以生成网络输出的系统,所述系统包括一个或多个计算机和一个或多个存储装置,所述一个或多个存储装置存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实现:
2.如权利要求1所述的系统,所述操作还包括:
3.如权利要求2所述的系统,其中,每个层输入的所述相应的层输出是所述层输入的所述相应的更新后的输出。
4.如权利要求2所述的系统,所述操作还包括:
5.如任一项前述权利要求所述的系统,其中,将注意力机制应用于所述输入序列以生成每个相应的层输入的相应的关注层输入包括:
6.如权利要求5所述的系统,其中,每个层输入的所述相应的键和所述相应的值从通过使用所述一个或多个第三前馈神经网络层处理所述层输入生成的相同共享表示导出。
7.如权利要求5或权利要求6所述的系统,其中,每个查询和键的维数小于所述层输入和所述层输出的维数。
8.如权利要求5至7中任一项所述的系统,其中,包括所述层输入的所述相应的注意力权重集的矩阵A满足:
9.如权利要求8所述
10.如权利要求1至5中任一项所述的系统,其中,所述注意力机制是线性注意力机制。
11.如权利要求1至5中任一项所述的系统,其中,所述注意力机制是部分注意力机制。
12.如权利要求1至5中任一项所述的系统,其中,所述层输入被分割为多个块,并且其中,将注意力机制应用于所述输入序列以生成每个相应的层输入的相应的关注层输入包括:
13.如权利要求12所述的系统,其中,将所述层输入的所述相应的线性关注输入与层输入的所述相应的二次关注输入组合以生成所述层输入的所述关注输入包括将所述层输入的所述相应的线性关注输入与层输入的所述相应的二次关注输入相加以生成所述层输入的所述关注输入。
14.如权利要求12或13所述的系统,其中,使用所述块中的所述层输入的所述相应的查询、键和值来将二次注意力机制应用于所述块中的所述层输入以生成所述块中的每个层输入的相应的二次关注输入包括:
15.如权利要求12至14中任一项所述的系统,其中,通过应用所述线性注意力机制生成的块g中的所述层输入的所述线性关注输入的矩阵满足:
16.如权利要求12至14中任一项所述的系统,其中,所述线性注意力机制是因果线性注意力机制,并且其中,通过应用所述因果线性注意力机制生成的所述块g中的所述层输入的所述线性关注输入的矩阵满足:
17.如权利要求12至16中任一项所述的系统,其中,所述一个或多个第一前馈神经网络层包括每个块的相应的一个或多个第一前馈神经网络层集,并且其中,
18.如也从属于权利要求2的权利要求17所述的系统,其中,所述一个或多个第二前馈神经网络层包括每个块的相应的一个或多个第二前馈神经网络层集,并且其中,
19.如任一项前述权利要求所述的系统,其中,所述神经网络包括一个或多个初始层、所述注意力层的序列和一个或多个输出层。
20.如权利要求19所述的系统,其中,所述初始层包括嵌入层。
21.如权利要求19或权利要求20所述的系统,其中,所述网络输出是序列,其中,所述神经网络在多个时间步中自回归地生成所述网络输出,并且其中,在每个时间步处,所述神经网络处理所述网络输入和所述网络输出的任何已经生成的元素。
22.如权利要求21所述的系统,其中,每个注意力层中的所述注意力机制是因果注意力机制。
23.如也从属于权利要求16的权利要求22所述的系统,其中,每个块内的所述二次注意力机制是因果的。
24.如权利要求19至20所述的系统,其中,所述网络输入是序列,并且其中,每个注意力层中的所述注意力机制是非因果的。
25.一种或多种存储指令的计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机实现如任一项前述权利要求所述的注意力神经网络。
26.一种方法,包括:
...【技术特征摘要】
【国外来华专利技术】
1.一种用于对网络输入执行机器学习任务以生成网络输出的系统,所述系统包括一个或多个计算机和一个或多个存储装置,所述一个或多个存储装置存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实现:
2.如权利要求1所述的系统,所述操作还包括:
3.如权利要求2所述的系统,其中,每个层输入的所述相应的层输出是所述层输入的所述相应的更新后的输出。
4.如权利要求2所述的系统,所述操作还包括:
5.如任一项前述权利要求所述的系统,其中,将注意力机制应用于所述输入序列以生成每个相应的层输入的相应的关注层输入包括:
6.如权利要求5所述的系统,其中,每个层输入的所述相应的键和所述相应的值从通过使用所述一个或多个第三前馈神经网络层处理所述层输入生成的相同共享表示导出。
7.如权利要求5或权利要求6所述的系统,其中,每个查询和键的维数小于所述层输入和所述层输出的维数。
8.如权利要求5至7中任一项所述的系统,其中,包括所述层输入的所述相应的注意力权重集的矩阵a满足:
9.如权利要求8所述的系统,其中,b是相对位置偏差。
10.如权利要求1至5中任一项所述的系统,其中,所述注意力机制是线性注意力机制。
11.如权利要求1至5中任一项所述的系统,其中,所述注意力机制是部分注意力机制。
12.如权利要求1至5中任一项所述的系统,其中,所述层输入被分割为多个块,并且其中,将注意力机制应用于所述输入序列以生成每个相应的层输入的相应的关注层输入包括:
13.如权利要求12所述的系统,其中,将所述层输入的所述相应的线性关注输入与层输入的所述相应的二次关注输入组合以生成所述层输入的所述关注输入包括将所述层输入的所述相应的线性关注输入与层输入的所述相应的二次关注输入相加以生成所述层输入的所述关注输入。
14.如权利要求12或13所述的系统,其中,使用所述块中的所述层输入的所述相应的查询、...
【专利技术属性】
技术研发人员:刘寒骁,华惟哲,戴自航,国·V·勒,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。