System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本说明书涉及使用神经网络转换(transduce)序列。
技术介绍
1、神经网络是采用一个或多个层的非线性单元来针对接收到的输入预测输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作对网络中的下一个层的输入,所述下一个层即下一个隐藏层或输出层。网络的每个层根据相应的参数集合的当前值根据接收到的输入生成输出。
技术实现思路
1、本说明书描述一种系统,该系统被实现为在一个或多个位置上的一个或多个计算机上的计算机程序,该系统从输入序列生成输出序列,该输出序列包括按输出顺序的多个位置中的每个位置处的相应输出,该输入序列包括按输入顺序的多个位置中的每个位置处的相应输入,即,将输入序列转换成输出序列。特别地,系统使用基于自注意力的解码器神经网络生成输出序列。
2、可以实现本说明书中描述的主题的特定实施例,使得实现以下优点中的一个或多个。
3、在本说明书中描述的系统的仅解码器架构可以有效且可扩展地注意比传统的序列转换系统长得多的很长的序列。因此,系统可以更有效地执行需要处理长输入序列、生成长输出序列或两者的序列转换任务。例如,该系统在需要生成多个文档的较长摘要的表达性摘要任务上可能会胜过常规系统。这样的任务和其他长序列转换任务可能需要从包括10,000或更多令牌的输入序列中处理和提取信息,以有效地生成输出序列。但是,因为该系统完全或主要基于注意力的,所以该系统仍与现有技术一样计算高效,或者在许多情况下比现有技术更计算高效。
...【技术保护点】
1.一种用于从输入序列生成输出序列的方法,所述输入序列包括多个输入令牌,所述输出序列包括多个输出令牌,所述方法包括,在多个生成时间步中的每个生成时间步处:
2.根据权利要求1所述的方法,其中,所述一个或多个专家混合层中的每一个选择所述一个或多个专家混合层内的一个或多个专家来处理层输入。
3.根据权利要求1所述的方法,其中,所述一个或多个掩码的自注意力神经网络层被掩码,使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌,并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。
4.根据权利要求1所述的方法,其中,所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。
5.根据权利要求1所述的方法,其中,所述一个或多个掩码的自注意力神经网络层是掩码的多头注意力层。
6.根据权利要求1所述的方法,其中,所述一个或多个掩码的自注意力神经网络层包括至少一个局部注意力层,并且其中,每个局部注意力层包括局部注意力子层,所述局部注意力子层被配置成:
7
8.根据权利要求7所述的方法,其中,获得所述注意力输入包括:
9.根据权利要求1所述的方法,其中,所述输入序列包括来自多个文档的文本,并且其中,所述输出序列是概括所述多个文档的文本。
10.根据权利要求9所述的方法,其中,所述输入序列还包括指定所述多个文档所涉及的主题的文本。
11.根据权利要求1所述的方法,还包括:
12.一种系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行用于从输入序列生成输出序列的操作,所述输入序列包括多个输入令牌,所述输出序列包括多个输出令牌,所述操作包括,在多个生成时间步中的每个生成时间步处:
13.根据权利要求12所述的系统,其中,所述一个或多个掩码的自注意力神经网络层被掩码,使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌,并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。
14.根据权利要求12所述的系统,其中,所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。
15.根据权利要求12所述的系统,其中,所述一个或多个掩码的自注意力神经网络层是掩码的多头注意力层。
16.根据权利要求12所述的系统,其中,所述一个或多个掩码的自注意力神经网络层包括至少一个局部注意力层,并且其中,每个局部注意力层包括局部注意力子层,所述局部注意力子层被配置成:
17.根据权利要求12所述的系统,其中,所述一个或多个掩码的自注意力神经网络层包括至少一个存储器压缩注意力层,并且其中,每个存储器压缩注意力层包括存储器压缩子层,所述存储器压缩子层被配置成:
18.根据权利要求17所述的系统,其中,获得所述注意力输入包括:
19.一个或多个存储指令的非暂时性计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行用于从输入序列生成输出序列的操作,所述输入序列包括多个输入令牌,所述输出序列包括多个输出令牌,所述操作包括,在多个生成时间步中的每个生成时间步处:
20.根据权利要求19所述的一个或多个非暂时性计算机存储介质,其中,所述一个或多个掩码的自注意力神经网络层被掩码,使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌,并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。
21.一种用于从输入序列生成输出序列的方法,所述输入序列包括从包括自然语言令牌的词汇中选择的多个输入令牌,所述输出序列包括多个输出令牌,所述方法包括,在多个生成时间步中的每个生成时间步处:
22.根据权利要求21所述的方法,其中,所述多个掩码的自注意力神经网络层被掩码,使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌,并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。
23.根据权利要求21所述的方法,其中,所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。
24.根据权利要求21所述...
【技术特征摘要】
1.一种用于从输入序列生成输出序列的方法,所述输入序列包括多个输入令牌,所述输出序列包括多个输出令牌,所述方法包括,在多个生成时间步中的每个生成时间步处:
2.根据权利要求1所述的方法,其中,所述一个或多个专家混合层中的每一个选择所述一个或多个专家混合层内的一个或多个专家来处理层输入。
3.根据权利要求1所述的方法,其中,所述一个或多个掩码的自注意力神经网络层被掩码,使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌,并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。
4.根据权利要求1所述的方法,其中,所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。
5.根据权利要求1所述的方法,其中,所述一个或多个掩码的自注意力神经网络层是掩码的多头注意力层。
6.根据权利要求1所述的方法,其中,所述一个或多个掩码的自注意力神经网络层包括至少一个局部注意力层,并且其中,每个局部注意力层包括局部注意力子层,所述局部注意力子层被配置成:
7.根据权利要求1所述的方法,其中,所述一个或多个掩码的自注意力神经网络层包括至少一个存储器压缩注意力层,并且其中,每个存储器压缩注意力层包括存储器压缩子层,所述存储器压缩子层被配置成:
8.根据权利要求7所述的方法,其中,获得所述注意力输入包括:
9.根据权利要求1所述的方法,其中,所述输入序列包括来自多个文档的文本,并且其中,所述输出序列是概括所述多个文档的文本。
10.根据权利要求9所述的方法,其中,所述输入序列还包括指定所述多个文档所涉及的主题的文本。
11.根据权利要求1所述的方法,还包括:
12.一种系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行用于从输入序列生成输出序列的操作,所述输入序列包括多个输入令牌,所述输出序列包括多个输出令牌,所述操作包括,在多个生成时间步中的每个生成时间步处:
13.根据权利要求12所述的系统,其中,所述一个或多个掩码的自注意力神经网络层被掩码,使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌,并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。
14.根据权利要求12所述的系统,其中,所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。
15.根据权利要求12所述的系统,其中,所述一个或多个掩码的自注意力神经网络层是掩码的多头注意力层。
16.根据权利要求12所述的系统,其中,所述一个或多个掩码的自注意力神经网络层包括至少一个局部注意力层,并且其中,每个局部注意力层包括局部注意力子层,所述局部注意力子层被配置成:
17.根据权利要求12所述的系统,其中,所述一个或多个掩码的自注意力神经网络层包括至少一个存储器压缩注意力层,并且其中,每个存储器压缩注意力层包括存储器压缩子层,所述存储器压缩子层被配置成:
18.根据权利要求17所述的系统,其中,获得所述注意力输入包括:
19.一个或多个存储指令的非暂时性计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行用于从输入序列生成输出序列的操作,所述输入序列包括多个输入令牌,所述输出序列包括多个输出令牌,所述操作包括,在多个生成时间步中的每个生成时间步处:
20.根据权利要求19所述的一个或多个非暂时性计算机存储介质,其中,所述一个或多个掩码的自注意力神经网络层被掩码,使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌,并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。
21.一种用于从输入序列生成输出序列的方法,所述输入序列包括从包括自然语言令牌的词汇中选择的多个输入令牌,所述输出序列包括多个输出令牌,所述方法包括,在多个生成时间步中的每个生成时间步处:
22.根据权利要求21所述的方法,其中,所述多个掩码的自注意力神经网络层被掩码,使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌,并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。
23.根据权利要求21所述的方法,其中,所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。
24.根据权利要求21所述的方法,其中,所述多个掩码的自注意力神经网络层是掩码的多头注意力层。
25.根据权利要求21所述的方法,其中,所述多个掩码的自注意力神经网络层包括至少一个局部注意力层,并且其中,每个局部注意力层包括局部注意力子层,所述局部注意力子层被配置成:
26.根据权利要求21所述的方法,其中,所述多个掩码的自注意力神经网络层包括至少一个存储器压缩注意力层,并且其中,每个存储器压缩注意力层包括存储器压缩子层,所述存储器压缩子层被配置成:
27.根据权利要求26所述的方法,其中,获得所述注意力输入包括:
28.根据权利要求21所述的方法,其中,所述输入序列包括来自多个文档的文本,并且其中,所述输出序列是概括所述多个文档的文本。
29.根据权利要求28所述的方法,其中,所述输入序列还包括指定所述多个文档所涉及的主题的文本。
30.根据权利要求21所述的方法,还包括:
31.根据权利要求21所述的方法,其中,所述自注意力解码器神经网络包括一个或多个专家混合层。
32.一种系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行用于从输入序列生成输出序列的操作,所述输入序列包括从包括自然语言令牌的词汇中选择的多个输入令牌,所述输出序列包括多个输出令牌,所述操作包括,在多个生成时间步中的每个生成时间步处:
33.根据权利要求32所述的系统,其中,所述多个掩码的自注意力神经网络层被掩码,使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌,并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。
34.根据权利要求32所述的系统,其中,所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。
35.根据权利要求32所述的系统,其中,所述多个掩码的自注意力神经网络层是掩码的多头注意力层。
36.根据权利要求32所述的系统,其中,所述多个掩码的自注意力神经网络层包括至少一个局部注意力层,并且其中,每个局部注意力层包括局部注意力子层,所述局部注意力子层被配置成:
37.根据权利要求32所述的系统,其中,所述多个掩码的自注意力神经网络层包括至少一个存储器压缩注意力层,并且其中,每个存储器压缩注意力层包括存储器压缩子层,所述存储器压缩子层被配置成:
38.根据权利要求37所述的系统,其中,获得所...
【专利技术属性】
技术研发人员:诺姆·M·沙泽尔,卢卡什·米奇斯瓦夫·凯泽,艾蒂安·波特,穆罕默德·萨利赫,本·大卫·古德里奇,彼得·J·柳,瑞安·赛帕斯,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。