System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
1、本说明书涉及使用神经网络来处理输入以生成输出序列。
2、神经网络是采用一个或多个非线性单元层来预测接收到的输入的输出的机器学习模型。除输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中的下一个层(即,另一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值来从接收到的输入生成输出。
技术实现思路
1、本说明书描述了一种被实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统,所述系统使用解码器神经网络来对网络输入执行机器学习任务。
2、特别地,系统生成输出序列,所述输出序列包括在多个输出时间步中的每一个处来自词元词表的相应词元。
3、在生成输出序列时,系统可以执行“提前退出(early exiting)”。提前退出是指使用解码器神经网络的中间层而不是解码器神经网络的最后一个层的输出来生成输出词元。执行提前退出可以使词元的生成更计算高效,因为不需要执行在中间层之后的任何层的计算。
4、“提前退出”被称为“自适应”的,因为系统仅在满足终止准则时才确定针对给定输出词元使用中间层的输出。如果在生成给定输出词元时中间层中的任一个都不满足终止准则,则系统使用最后一个层的输出来生成给定输出词元。
5、本说明书中描述的主题可以在特定实施例中实现,以便实现以下优点中的一个或多个。
6、基于transformer的大型语言模型(llm)的最新进展已经带来跨许多任务的显著性能改进
7、本说明书的主题的一个或多个实施例的细节在附图和以下描述中进行阐述。
8、本主题的其他特征、方面和优点根据描述、附图和权利要求将变得显而易见。
本文档来自技高网...【技术保护点】
1.一种用于使用解码器神经网络来自回归地生成输出序列的由一个或多个计算机执行的方法,所述输出序列包括在多个输出时间步中的每一个处的来自词元词汇表的相应词元,
2.如权利要求1所述的方法,其中所述输出序列以网络输入为条件。
3.如权利要求2所述的方法,其中所述当前输入序列还包括与所述网络输入相对应的一个或多个输入。
4.如权利要求2所述的方法,所述方法还包括:
5.如任一项前述权利要求所述的方法,其中生成所述当前输入序列中的每个输入的相应隐藏状态包括:
6.如任一项前述权利要求所述的方法,其中通过层的所述序列中的所述层来处理所述输入序列中的所述输入的相应隐藏状态直到满足终止准则包括:
7.如任一项前述权利要求所述的方法,其中通过所述层来处理所述输入的相应隐藏状态包括:一旦在所述序列中的给定层处满足所述终止准则,就避免在该输出时间步处对在所述序列中的所述给定层之后的任何附加层执行任何处理。
8.如任一项前述权利要求所述的方法,其中至少根据所述当前输入序列中的所述最后一个输入的经更新的相应输入隐藏状态来
9.如权利要求1至7中任一项所述的方法,其中至少根据所述当前输入序列中的所述最后一个输入的经更新的相应输入隐藏状态来生成该层的置信度得分包括:
10.如权利要求1至7中任一项所述的方法,其中至少根据所述当前输入序列中的所述最后一个输入的经更新的相应输入隐藏状态来生成该层的置信度得分包括:
11.如权利要求10所述的方法,其中所述提前退出分类器已经被训练,同时保持所述解码器神经网络的参数固定为通过训练所述解码器神经网络来确定的经训练值。
12.如任一项前述权利要求所述的方法,
13.如权利要求12所述的方法,还包括:
14.如权利要求13所述的方法,其中所述递减函数是指数函数。
15.如任一项前述权利要求所述的方法,其中对于所述子集中的每个层,所述输出时间步的相应阈值是基于共享阈值来确定的。
16.如权利要求13至15中任一项所述的方法,还包括:
17.如权利要求16所述的方法,其中基于所述一个或多个容差约束来确定所述共享阈值包括:
18.一种系统,包括:
19.一个或多个计算机可读存储介质,所述一个或多个计算机可读存储介质存储指令,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行如权利要求1至17中任一项所述的方法的相应操作。
...【技术特征摘要】
【国外来华专利技术】
1.一种用于使用解码器神经网络来自回归地生成输出序列的由一个或多个计算机执行的方法,所述输出序列包括在多个输出时间步中的每一个处的来自词元词汇表的相应词元,
2.如权利要求1所述的方法,其中所述输出序列以网络输入为条件。
3.如权利要求2所述的方法,其中所述当前输入序列还包括与所述网络输入相对应的一个或多个输入。
4.如权利要求2所述的方法,所述方法还包括:
5.如任一项前述权利要求所述的方法,其中生成所述当前输入序列中的每个输入的相应隐藏状态包括:
6.如任一项前述权利要求所述的方法,其中通过层的所述序列中的所述层来处理所述输入序列中的所述输入的相应隐藏状态直到满足终止准则包括:
7.如任一项前述权利要求所述的方法,其中通过所述层来处理所述输入的相应隐藏状态包括:一旦在所述序列中的给定层处满足所述终止准则,就避免在该输出时间步处对在所述序列中的所述给定层之后的任何附加层执行任何处理。
8.如任一项前述权利要求所述的方法,其中至少根据所述当前输入序列中的所述最后一个输入的经更新的相应输入隐藏状态来生成该层的置信度得分包括:
9.如权利要求1至7中任一项所述的方法,其中至少根据所述当前输入序列中...
【专利技术属性】
技术研发人员:塔尔·舒斯特,亚当·约书亚·菲施,扎伊·普拉卡什·古普塔,穆斯塔法·德哈尼,达拉·巴赫里,温·国·特兰,郑毅,小唐纳德·阿瑟·梅茨勒,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。