利用全局自注意力神经网络对依赖性建模制造技术

技术编号:37102881 阅读:17 留言:0更新日期:2023-04-01 05:02
本公开提供了用于使用具有并行操作的内容注意力层和位置注意力层的全局自注意力模型来贯穿网络对依赖性进行建模的系统、方法和计算机程序产品。该模型接收包括内容值和上下文位置的输入数据。内容注意力层基于独立于上下文位置应用于内容值的全局注意力操作,针对每个上下文位置生成一个或多个输出特征。位置注意力层基于相应上下文位置的一个或多个内容值和相关联的相邻位置,针对上下文位置中的每个上下文位置生成注意力图。输出是基于由内容注意力层生成的输出特征和由位置注意力层针对每个上下文位置生成的注意力图来确定的。该模型提高了效率,并且可以贯穿深度网络使用。用。用。

【技术实现步骤摘要】
【国外来华专利技术】利用全局自注意力神经网络对依赖性建模


[0001]本公开总体上涉及机器学习架构。更具体地,本公开涉及使用全局自注意力神经网络对依赖性执行建模的系统、方法和计算机程序产品。

技术介绍

[0002]对交互的建模在机器学习中是重要的。注意力已经成为捕获交互的一种常见方法,并且比基于循环的方法更受欢迎。然而,由于与具体化注意力图相关联的大存储器占用和计算需求,注意力操作遭受每个示例的二次方存储器和计算复杂度。事实上,自注意力的大存储器需求已经妨碍了注意力在长序列和多维输入(诸如图像,通常包括数万个像素)中的使用。现有的方法通常将注意力限制到网络的后期阶段,或者将注意力的感受野限制到局部邻域。此外,现有的方法缺乏用于深度神经网络的主干处理所需的效率。

技术实现思路

[0003]本公开的实施例的方面和优点将在以下实施方式中部分阐述,或可从描述中了解,或可通过实施例的实践了解。
[0004]本公开的一个示例方面涉及一种利用全局自注意力对依赖性进行建模的系统。该系统包括一个或多个机器学习模型,每个机器学习模型被配置为接收模型输入并且处理该模型输入以生成模型输出,其中,机器学习模型中的每个机器学习模型包括被配置为彼此并行操作的内容注意力层和位置注意力层。此外,机器学习模型中的每个机器学习模型被配置为执行操作,该操作包括:接收包括输入数据的层输入,该输入数据包括多个内容值,每个内容值与一个或多个上下文位置相关联;由相应内容注意力层基于独立于上下文位置应用于内容值的全局注意力操作针对每个上下文位置生成一个或多个输出特征;由相应位置注意力层基于与相应上下文位置相关联的一个或多个内容值和相对于该相应上下文位置的上下文位置的邻域,针对上下文位置中的每个上下文位置生成注意力图,其中,位置注意力层至少包括注意沿着每个相应上下文位置的列的上下文位置的列关注注意力子层和注意沿着每个相应上下文位置的行的上下文位置的行关注注意力子层;以及至少部分地基于由内容注意力层生成的针对每个上下文位置的一个或多个输出特征以及由位置注意力层针对每个上下文位置生成的注意力图来确定层输出。
[0005]本公开的其他方面涉及各种装置、非暂时性计算机可读介质、计算机实现的方法、用户界面和电子设备。
[0006]参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书并构成其一部分的附图示出了本公开的示例实施例,并与描述一起用于解释相关原理。
附图说明
[0007]针对本领域普通技术人员的实施例的详细讨论在参考附图的说明书中阐述,在附
图中:
[0008]图1描绘了根据本公开的示例实施例的示例自注意力模型的框图,该自注意力模型用于利用全局自注意力对依赖性执行建模。
[0009]图2描绘了根据本公开的示例实施例,利用全局自注意力对依赖性执行建模的示例方法的流程图。
[0010]图3描绘了根据本公开的示例实施例的采用自注意力模型的示例全局自注意力网络的框图。
[0011]图4描绘了根据本公开的示例实施例,将全局自注意力网络与利用空间卷积的网络的性能进行比较的示例结果。
[0012]图5描绘了根据本公开的示例实施例,将全局自注意力网络与其他各种基于注意力的配置进行比较的示例结果。
[0013]图6描绘了根据本公开的示例实施例,将全局自注意力网络的不同变体进行比较的示例结果。
[0014]图7描绘了根据本公开的示例实施例,在全局自注意力网络的不同阶段用自注意力模型代替卷积的示例结果。
[0015]图8描绘了根据本公开的示例实施例的将使用位置注意力层的不同尺寸的邻域进行比较的示例结果。
[0016]图9描绘了根据本公开的示例实施例,将自注意力模型的不同轴向配置进行比较的示例结果。
[0017]图10A描绘了根据本公开的示例实施例的示例计算系统的框图,该示例计算系统利用全局自注意力对依赖性执行建模。
[0018]图10B描绘了根据本公开的示例实施例的示例计算设备的框图,该示例计算设备利用全局自注意力对依赖性执行建模。
[0019]图10C描绘了根据本公开的示例实施例的示例计算设备的框图,该示例计算设备利用全局自注意力对依赖性执行建模。
[0020]不同附图中重复的参考数字旨在标识各种实现方式中的相同特征。
具体实施方式
[0021]概述
[0022]总的来说,本公开涉及利用全局自注意力神经网络对依赖性进行建模。本公开中描述的示例使得能够使用自注意力网络中的完全全局注意力操作来对各种类型的依赖性(例如,长程依赖性、中程依赖性、短程依赖性和/或任何其他类型的依赖性)进行建模,例如,无需来自卷积层的帮助。这种示例实现方式提供了对现有的方法的改进,并且可以被实现为贯穿神经网络提供全局注意力操作。具体而言,与现有的方法相比,本公开的示例提供了改进的性能和降低的计算需求。
[0023]虽然注意力已成为捕获交互的优选方式,但因注意力图,注意力操作遭受每个示例的二次方存储器复杂度。例如,将具有8个头的单个多头注意力层应用于长度为2048的256个序列的批次需要8GB的存储器,这在实践中是难以承受的。此外,自注意力的大存储器需求妨碍了注意力操作在长序列和多维输入(诸如通常包括数万个像素的图像)中的使用。
因此,现有的方法通常将注意力限制在网络的后期阶段,或者将注意力的感受野限制在局部邻域。
[0024]为了解决这些问题,本公开提供了全局自注意力模型作为传统方法的替代方案的示例。在本公开的示例中,全局自注意力模型被配置有彼此并行操作的内容注意力层和位置注意力层。例如,内容注意力层一次注意整段内容(例如,图像),而不考虑内容的空间位置(例如,像素)。位置注意力层对内容的空间位置进行操作。例如,位置注意力层基于与相应空间位置相关联的内容和相对于该相应空间位置的空间位置的邻域对每个空间位置进行操作。位置注意力层可以包括注意沿着相对于相应空间位置的位置邻域中的空间位置的列的空间位置的仅列注意力子层(column

only attention sublayer),以及注意沿着相对于该相应空间位置的位置邻域中的空间位置的行的空间位置的仅行注意力子层(row

only attention sublayer)。与现有的方法相比,本公开中描述的示例实现方式提供了性能改进和降低的计算需求,并且使得能够贯穿整个神经网络针对各种类型的内容(例如,高分辨率图像、视频、长序列、3D传感器数据和其他非常大的输入)利用全局自注意力对长程依赖性进行建模。本公开中描述的示例实验结果示出了所描述的示例实现方式在准确性和效率上胜过卷积和注意力对等物。
[0025]本文所描述的系统、方法和计算机程序产品提供了多种技术效果和益处。作为一个示例,与例如传统的注意力和卷积操作相比,本公开中描述的自注意力模型使用更少的参数和利用更少的计算资源(例如,更少的处理能力、更少的存储器使用、更少的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于使用全局自注意力对依赖性执行建模的计算系统,包括:一个或多个处理器;以及一个或多个非暂时性计算机可读介质,其共同存储:机器学习模型,被配置为接收模型输入并且处理所述模型输入以生成模型输出,其中,所述机器学习模型包括被配置为彼此并行操作的内容注意力层和位置注意力层,并且其中,所述机器学习模型被配置为执行操作,所述操作包括:接收包括输入数据的层输入,所述输入数据包括多个内容值,每个内容值与一个或多个上下文位置相关联;由所述内容注意力层基于独立于所述上下文位置应用于所述内容值的全局注意力操作,针对每个上下文位置生成一个或多个输出特征;由所述位置注意力层基于与相应上下文位置相关联的一个或多个内容值和相对于所述相应上下文位置的上下文位置的邻域,针对所述上下文位置中的每个上下文位置生成注意力图,所述位置注意力层至少包括注意沿着每个相应上下文位置的列的上下文位置的列关注注意力子层和注意沿着每个相应上下文位置的行的上下文位置的行关注注意力子层;以及至少部分地基于由所述内容注意力层生成的针对每个上下文位置的一个或多个输出特征和由所述位置注意力层针对每个上下文位置生成的注意力图来确定层输出。2.根据权利要求1所述的计算系统,其中,所述机器学习模型还包括输入处理层,所述输入处理层生成从所述输入数据导出的多个键、查询和值。3.根据任一前述权利要求所述的计算系统,其中,所述全局注意力操作包括将所述查询、对每行应用了softmax归一化的所述键的矩阵转置以及所述值相乘。4.根据任一前述权利要求所述的计算系统,其中,所述列关注注意力子层和所述行关注注意力子层被配置为彼此并行操作。5.根据任一前述权利要求所述的计算系统,其中,所述位置注意力层包括所述列关注注意力子层,之后是批归一化层,之后是所述行关注注意力子层。6.根据任一前述权利要求所述的计算机系统,其中,所述列关注注意力子层和所述行关注注意力子层各自被配置为针对每个相应上下文位置使用学习的相对位置嵌入。7.根据任一前述权利要求所述的计算系统,其中,所述位置注意力层包括列关注注意力子层,之后是批归一化层,之后是行关注注意力子层,之后是第二批归一化层,之后是时间或深度...

【专利技术属性】
技术研发人员:沈卓然I贝洛贾旭辉陈敬晖R韦穆拉帕利
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1