System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
1、本说明书涉及使用神经网络处理输入。
2、神经网络是采用一层或多层非线性单元来预测接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中的下一层——即,下一个隐藏层或输出层——的输入。网络的每个层根据参数的相应集合的当前值输入从接收到的输入生成输出。
技术实现思路
1、本说明书描述了一种被实现为一个或多个位所中的一个或多个计算机上的计算机程序的系统,该系统处理被分区为多个不相交分区的网络输入以生成用于机器学习任务的网络输出。
2、例如,网络输入可以是单个单模态张量,并且每个不相交分区可以是张量的不同的非重叠区域。
3、作为另一示例,网络输入可以是包括多个不同模态的多模态输入,并且每个分区可以是多个模态中的一个不同模态。
4、本说明书中描述的主题可以在特定实施例中实现,以便实现以下优点中的一个或多个优点。
5、基于注意力的模型对于多模态处理是有吸引力的,因为来自多个模态的输入可以被连结并馈送到单个主干网络——因此需要非常少的融合工程。然而,所产生的表示贯穿网络是完全纠缠的,这在若干场景中可能是有问题的。
6、例如,对比学习已经被证明是用于利用未标记的数据来改进各种任务上的下游性能的有效技术。在训练期间,多模态对比自监督学习需要每个模态的独立特征来操作,否则学习坍塌(collapse)。然而,因为表示是纠缠的,所以不存在适合用作到对比的输入的独立
7、此外,在推断时,当一个模态缺失时,这些模型不能有效地执行单模态任务或处理输入。
8、本说明书描述了用于控制如何在基于注意力的神经网络内路由来自每个模态的输入以便保持模型模态特定——即仅基于来自单个模态的数据——的内部表示的部分的技术。具体地,本说明书描述了针对每个模态仅在该模态(而不是其他模态)的潜在向量上使用注意力来更新该模态的潜在向量集合而使用来自所有模态的信息来更新融合潜在向量的集合的技术。
9、这允许系统有效地并入对比预训练,以便改进各种下游多模态任务的性能。此外,这允许系统有效地执行单模态推断,或者更一般地,即使来自一个模态的数据丢失,仍然为任务生成准确的输出。
10、在下面的附图和描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求,主题的其他特征、方面和优点将变得显而易见。
本文档来自技高网...【技术保护点】
1.一种由一个或多个计算机执行的方法,所述方法包括:
2.根据权利要求1所述的方法,其中,每个不相交的分区对应于来自多个模态的不同模态。
3.根据权利要求2所述的方法,其中,所述模态包括图像模态、视频模态或两者。
4.根据权利要求2或权利要求3所述的方法,其中,所述模态包括音频模态。
5.根据权利要求2至4中任一项所述的方法,其中,所述模态包括文本模态。
6.根据权利要求2至5中任一项所述的方法,进一步包括:
7.根据任一前述权利要求所述的方法,其中,所述融合潜在词元在所述神经网络的训练期间被学习。
8.根据任一前述权利要求所述的方法,其中,针对每个分区,从该分区生成该分区的潜在词元的相应集合包括:
9.根据权利要求8所述的方法,其中,针对每个分区,从该分区生成该分区的潜在词元的相应集合进一步包括:
10.根据权利要求8或权利要求9所述的方法,其中,针对每个分区,从该分区生成该分区的潜在词元的相应集合进一步包括:
11.根据任一前述权利要求所述的方法,其中:
...【技术特征摘要】
【国外来华专利技术】
1.一种由一个或多个计算机执行的方法,所述方法包括:
2.根据权利要求1所述的方法,其中,每个不相交的分区对应于来自多个模态的不同模态。
3.根据权利要求2所述的方法,其中,所述模态包括图像模态、视频模态或两者。
4.根据权利要求2或权利要求3所述的方法,其中,所述模态包括音频模态。
5.根据权利要求2至4中任一项所述的方法,其中,所述模态包括文本模态。
6.根据权利要求2至5中任一项所述的方法,进一步包括:
7.根据任一前述权利要求所述的方法,其中,所述融合潜在词元在所述神经网络的训练期间被学习。
8.根据任一前述权利要求所述的方法,其中,针对每个分区,从该分区生成该分区的潜在词元的相应集合包括:
9.根据权利要求8所述的方法,其中,针对每个分区,从该分区生成该分区的潜在词元的相应集合进一步包括:
10.根据权利要求8或权利要求9所述的方法,其中,针对每个分区,从该分区生成该分区的潜在词元的相应集合进一步包括:
11.根据任一前述权利要求所述的方法,其中:
12.根据权利要求11所述的方法,其中,用于所述分区和所述融合潜在词元的所述对应注意力机制共享参数。
13.根据任一前述权利要求所述的方法,其中,处理所述融合潜在词元中的至少一个或多个融合潜在词元以生成表征所述第一网络输入的所述网络输出包括:
14.根据任一前述权利要求所述的方法,其中,处理所述融合潜在词元中的至少一个或多个融合潜在词元以生成表征所述第一网络输入的所述网络输出包括:
1...
【专利技术属性】
技术研发人员:阿德里亚·雷卡森斯康丁恩特,詹森·加陈·林,王路宇,让巴普蒂斯特·阿莱拉克,安德鲁·库尔特·耶格莱,若昂·卡雷拉,波利娜·吕克,安托万·米奇,卢卡斯·德弗雷塔斯斯马伊拉,罗斯·赫姆斯莱,安德鲁·西塞曼,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。