使用分区注意力处理网络输入制造技术

技术编号：43627210 阅读：36 留言：0更新日期：2024-12-11 15:06

用于使用实现分区注意力的神经网络来处理网络输入的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

技术介绍

1、本说明书涉及使用神经网络处理输入。

2、神经网络是采用一层或多层非线性单元来预测接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中的下一层——即，下一个隐藏层或输出层——的输入。网络的每个层根据参数的相应集合的当前值输入从接收到的输入生成输出。

技术实现思路

1、本说明书描述了一种被实现为一个或多个位所中的一个或多个计算机上的计算机程序的系统，该系统处理被分区为多个不相交分区的网络输入以生成用于机器学习任务的网络输出。

2、例如，网络输入可以是单个单模态张量，并且每个不相交分区可以是张量的不同的非重叠区域。

3、作为另一示例，网络输入可以是包括多个不同模态的多模态输入，并且每个分区可以是多个模态中的一个不同模态。

4、本说明书中描述的主题可以在特定实施例中实现，以便实现以下优点中的一个或多个优点。

5、基于注意力的模型对于多模态处理是有吸引力的，因为来自多个模态的输入可以被连结并馈送到单个主干网络——因此需要非常少的融合工程。然而，所产生的表示贯穿网络是完全纠缠的，这在若干场景中可能是有问题的。

6、例如，对比学习已经被证明是用于利用未标记的数据来改进各种任务上的下游性能的有效技术。在训练期间，多模态对比自监督学习需要每个模态的独立特征来操作，否则学习坍塌（collapse）。然而，因为表示是纠缠的，所以不存在适合用作到对比的输入的独立特征。

7、此外，在推断时，当一个模态缺失时，这些模型不能有效地执行单模态任务或处理输入。

8、本说明书描述了用于控制如何在基于注意力的神经网络内路由来自每个模态的输入以便保持模型模态特定——即仅基于来自单个模态的数据——的内部表示的部分的技术。具体地，本说明书描述了针对每个模态仅在该模态（而不是其他模态）的潜在向量上使用注意力来更新该模态的潜在向量集合而使用来自所有模态的信息来更新融合潜在向量的集合的技术。

9、这允许系统有效地并入对比预训练，以便改进各种下游多模态任务的性能。此外，这允许系统有效地执行单模态推断，或者更一般地，即使来自一个模态的数据丢失，仍然为任务生成准确的输出。

10、在下面的附图和描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，主题的其他特征、方面和优点将变得显而易见。

本文档来自技高网...

【技术保护点】

1.一种由一个或多个计算机执行的方法，所述方法包括：

2.根据权利要求1所述的方法，其中，每个不相交的分区对应于来自多个模态的不同模态。

3.根据权利要求2所述的方法，其中，所述模态包括图像模态、视频模态或两者。

4.根据权利要求2或权利要求3所述的方法，其中，所述模态包括音频模态。

5.根据权利要求2至4中任一项所述的方法，其中，所述模态包括文本模态。

6.根据权利要求2至5中任一项所述的方法，进一步包括：

7.根据任一前述权利要求所述的方法，其中，所述融合潜在词元在所述神经网络的训练期间被学习。

8.根据任一前述权利要求所述的方法，其中，针对每个分区，从该分区生成该分区的潜在词元的相应集合包括：

9.根据权利要求8所述的方法，其中，针对每个分区，从该分区生成该分区的潜在词元的相应集合进一步包括：

10.根据权利要求8或权利要求9所述的方法，其中，针对每个分区，从该分区生成该分区的潜在词元的相应集合进一步包括：

11.根据任一前述权利要求所述的方法，其中：p>

12.根据权利要求11所述的方法，其中，用于所述分区和所述融合潜在词元的所述对应注意力机制共享参数。

13.根据任一前述权利要求所述的方法，其中，处理所述融合潜在词元中的至少一个或多个融合潜在词元以生成表征所述第一网络输入的所述网络输出包括：

14.根据任一前述权利要求所述的方法，其中，处理所述融合潜在词元中的至少一个或多个融合潜在词元以生成表征所述第一网络输入的所述网络输出包括：

15.根据任一前述权利要求所述的方法，其中，处理所述融合潜在词元中的至少一个或多个融合潜在词元以生成表征所述第一网络输入的所述网络输出包括：

16.一种由一个或多个计算机执行的训练神经网络的方法，所述方法包括：

17.根据权利要求16所述的方法，其中，生成所述分区的所述潜在词元的相应集合包括：利用编码器神经网络来处理所述第一网络输入，所述编码器神经网络被训练以生成每个分区的所述潜在词元的相应集合。

18.根据权利要求17所述的方法，其中，

19.根据权利要求16至18中任一项所述的方法，其中，所述融合潜在词元的集合在所述训练期间被学习，并且其中，基于所述损失来训练所述神经网络包括更新所述融合潜在词元的集合。

20.根据权利要求16至19中任一项所述的方法，进一步包括使用无监督数据集使用自监督学习目标或无监督学习目标对所述神经网络进行预训练。

21.根据权利要求16至20中任一项的方法，其中，确定损失包括使用无监督损失函数或自监督损失函数作为辅助损失函数。

22.一种由一个或多个计算机执行的方法，所述方法包括：

23.一种系统，包括一个或多个计算机和一个或多个存储设备，所述一个或多个存储设备存储指令，所述指令在由所述一个或多个计算机执行时，使所述一个或多个计算机执行根据权利要求1至22中任一项所述的相应方法的所述操作。

24.一个或多个计算机存储介质，所述一个或多个计算机存储介质存储指令，所述指令在由一个或多个计算机执行时，使所述一个或多个计算机执行根据权利要求1至22中任一项所述的相应方法的所述操作。

...

【技术特征摘要】
【国外来华专利技术】