使用文本和视觉嵌入的多模态图像分类器制造技术

技术编号:27011436 阅读:36 留言:0更新日期:2021-01-08 17:22
用于实现多模态图像分类器的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一方面,一种方法包括针对多个图像中的每个图像:通过文本生成器模型处理图像以获得描述该图像的内容的短语的集合,其中每个短语是一个或多个术语,通过文本嵌入模型处理短语的集合以获得该图像的预测文本的嵌入,并使用图像嵌入模型处理图像以获得图像的图像像素的嵌入。然后,在图像的预测文本的嵌入和图像的图像像素的嵌入上训练多模态图像分类器,以产生输出分类法的标签作为输出,用于基于作为输入的图像对图像进行分类。

【技术实现步骤摘要】
【国外来华专利技术】使用文本和视觉嵌入的多模态图像分类器优先权申明本申请要求于2018年11月16日提交的美国专利申请序列第62/768,701号的优先权,其全部内容通过引用合并于此。
技术介绍
本说明书涉及图像处理,尤其涉及多模态图像分类器(multimodalimageclassifier)。机器学习图像分类模型将图像像素作为输入并以预定义的分类法产生标签。图像分类通常是一种监督学习问题,它定义目标类的集合(要在图像中标识的对象),并使用标记的训练图像训练模型以识别它们。这样的系统能够对未见数据具有高的预测准确性和普遍性。这些模型可能依赖于像素数据和从像素数据导出的特征(诸如,颜色直方图、纹理和形状)作为训练特征。
技术实现思路
本说明书描述了一种系统,该系统被实现为一个或多个位置中的一个或多个计算机上的计算机程序,该系统使用一种模型来预测图像分类,该模型从图像的预测文本的嵌入和图像的图像像素的嵌入获取特征。该说明书还描述了一种由一个或多个数据处理装置执行的用于预测图像分类的方法,以及一个或多个非暂时性计算机存储介质,该非暂时性计算机存储介质存储指令,当所述指令被一个或多个计算机执行时使所述一个或多个计算机执行用于预测图像分类的操作。根据一个方面,提供了一种方法,该方法包括针对多个图像中的每个图像:通过文本生成器模型处理该图像以获得描述该图像的内容的短语的集合,其中每个短语为一个或多个术语,通过文本嵌入模型处理短语的集合以获得图像的预测文本的嵌入,并使用图像嵌入模型处理图像以获得图像的图像像素的嵌入;在图像的预测文本的嵌入和图像的图像像素的嵌入上训练多模态图像分类器,以产生输出分类法的标签作为输出,以基于作为输入的图像对图像进行分类。可以在装置、系统和计算机程序产品中提供附加方面。在本说明书中描述的主题的特定实施例可以被实现以实现以下优点中的一个或多个。虽然文本信息(例如,围绕图像的文本)可以提供有价值的正交信号,但是机器学习模型通常依赖于像素数据作为输入。此外,对于图像集,文本数据可能是不可获得的。本公开的新颖特征包括从由文本生成器生成的短语生成的图像的文本嵌入,而不需要周围文本作为输入。然后在图像的文本嵌入和像素嵌入上训练多模态图像分类器。使用文本嵌入进行训练导致总体性能优于没有文本嵌入的经训练的模型的总体性能,从而在图像分类领域得到了显著改善。此外,本文描述的系统和方法可以提供语言不可知的和跨语言的文本嵌入。例如,这可以由于在查询-图像对上进行训练来实现。另外地或可替代地,本文描述的系统和方法可以允许对个体局部特性和总体视觉结构两者进行表征。例如,这可以通过在输入数据集上训练网络权重,标识瓶颈层以及提取该层针对任意图像的输出来实现。本公开还可以提供仅需要输入图像来产生部分基于文本特征的预测的系统框架(和关联的方法)。例如,通过将图像的N维文本特征向量与M维视觉特征向量进行拼接(concatenate),本文所述的系统和方法允许表示两个概念的奇异特征向量(singularfeaturevector)。本文所述的系统和方法还可以允许产生跨每个可能的预测短语的概率分布。例如,软最大值(softmax)层可用于产生跨大量查询的概率分布。本说明书的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据描述、附图和权利要求书,本主题的其他特征、方面和优点将变得显而易见。附图说明图1是多模态图像分类系统的图示。图2是用于训练多模态图像分类器的示例过程的流程图。在各个附图中,相同的参考标记和名称指示相同的元件。具体实施方式该专利文档描述了一种框架,该框架包括:文本生成器,其从图像数据生成文本标签,称为短语;以及多模态图像分类器,其从文本生成器获取文本特征,并从图像像素获取视觉特征,以及根据输出分类法产生标签。在一些实现方式中,使用基于web的查询/图像对来训练文本生成器以合并与每个图像关联的上下文信息。在一些实现方式中,文本生成器的输出可超过图像分类器的输出分类法,例如,文本生成器可生成不包括在多模态图像分类器的输出分类法中的短语。这些特征和其他特征在下面更详细地描述。图1是多模态图像分类系统100的图示。多模态图像分类系统100是被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例,其中,实现了以下描述的系统、组件和技术。多模态图像分类系统100被配置为处理图像以生成用于训练多模态图像分类模型110的文本嵌入(embedding)和图像像素嵌入。系统100包括文本生成器120和文本嵌入神经网络122。文本生成器120为图像102中的每个图像生成描述图像的内容的一个或多个术语的短语。文本嵌入神经网络122处理由文本生成器为图像生成的短语,并生成文本嵌入。在一些实现方式中,文本生成器100是在基于web的查询-图像对上训练的神经网络。查询-图像对是与用户针对其选择图像的相应查询配对的图像。在一些实现方式中,长尾查询被包括在查询-图像对中。这导致细粒度和描述性的查询,例如,[2016lamborghiniaventadorwhite],[equestrianstatueofbartolomeoColleoni]等。查询-图像对空间还涵盖了多个视觉概念,包括地标、动物、人造产品、人物、艺术品等。相对于在具有小得多的词汇量大小和/或较少描述性的短语(例如,在有限的图像域中的[goldenretriever],例如“dog.”)的图像数据集上训练的系统,这导致了准确性的技术改进。在一些实现方式中,文本生成器120是具有分类损失的卷积神经网络。一种示例架构是基于ResNet-101的,其后是将ResNet响应投射到低维向量的嵌入层,顶部是一个多路softmax。在一个示例实现方式中,向量具有M个维度,并且其后是K百万路softmax。在一些实现方式中,M为64,且K为4千万。但是,也可以使用其他值。在此特定示例中,文本生成器网络120的特征是其从输入图像预测大量查询(例如4千万个)的能力。为了容纳较大的输出空间,Resnet输出被约简(reduce)到64维瓶颈层。网络120因此可以被概念化为包含三个阶段:学习的权重和偏差的主要训练机制,代表图像嵌入的64维特征层以及产生跨4千万个查询的概率分布的softmax层。在该示例架构中,在推断时,为每个输入图像生成64维嵌入,并且从查询嵌入索引提取顶部N个最可能的查询及其关联的相似性分数。在一些实现方式中,N=3,但是也可以使用N的其他值。由于查询代表上下文信息,因此该过程标识任意图像的相关文本,而不具有web依赖性。此外,嵌入额外地产生了在查询空间中测量图像至图像相似性的方式。对于大规模训练,使用诸如张量处理单元(TensorProcessingUnit)的AI加速器专用电路和采样的softmax损失算法。也可以使用其他适当的训练管道(pipeline),但是,使用的特定管道可能取决于训练语料库的规模。在一些实现方式中,本文档来自技高网...

【技术保护点】
1.一种由一个或多个数据处理装置执行的方法,所述方法包括:/n对于多个图像中的每个图像:/n通过文本生成器模型处理图像以获得描述图像的内容的短语的集合,其中,每个短语是一个或多个术语;/n通过文本嵌入模型处理短语的集合以获得图像的预测文本的嵌入;以及/n使用图像嵌入模型处理图像以获得图像的图像像素的嵌入;/n在图像的预测文本的嵌入和图像的图像像素的嵌入上训练多模态图像分类器,以产生输出分类法的标签作为输出,以基于作为输入的图像对图像进行分类。/n

【技术特征摘要】
【国外来华专利技术】20181116 US 62/768,7011.一种由一个或多个数据处理装置执行的方法,所述方法包括:
对于多个图像中的每个图像:
通过文本生成器模型处理图像以获得描述图像的内容的短语的集合,其中,每个短语是一个或多个术语;
通过文本嵌入模型处理短语的集合以获得图像的预测文本的嵌入;以及
使用图像嵌入模型处理图像以获得图像的图像像素的嵌入;
在图像的预测文本的嵌入和图像的图像像素的嵌入上训练多模态图像分类器,以产生输出分类法的标签作为输出,以基于作为输入的图像对图像进行分类。


2.根据权利要求1所述的方法,其中,所述文本生成器模型是在文本查询-图像对上训练的基于文本查询的模型。


3.根据权利要求1或权利要求2所述的方法,其中,使用图像嵌入模型处理图像以获得图像的图像像素的嵌入包括从预训练的卷积网络的最终完全连接层获得图像特征。


4.根据权利要求1-3中任一项所述的方法,其中,训练多模态图像分类器包括:
将N维文本特征向量与M维视觉特征向量拼接为奇异特征向量;以及
提供奇异特征向量作为多模态分类器的输入。


5.根据权利要求1-4中任一项所述的方法,其中,所述文本生成器模型包括softmax层,所述softmax层产生跨每个可能的预测的短语的概率分布。


6.根据权利要求1所述的方法,其中,所述文本生成器模型使用最近邻过程获得给定图像的短语的集合。


7.一种系统,包括:
数据处理装置;
存储器,与数据处理装置进行数据通信并存储使数据处理装置执行操作的指令,所述操作包括:
对于多个图像中的每个图像:
通过文本生成器模型处理图像以获得描述图像的内容的短语的集合,其中,每个短语是一个或多个术语;
通过文本嵌入模型处理短语的集合以获得图像的预测文本的嵌入;以及
使用图像嵌入模型处理图像以获得图像的图像像素的嵌入;
在图像的预测文本的嵌入和图像的图像像素的嵌入上训练多模态图像分类器,以产生输出分类法的标签作为输出,...

【专利技术属性】
技术研发人员:A富克斯曼李臻M沙K维斯瓦纳坦CT卢A蒂莫费夫C孙C贾
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1