使用文本和视觉嵌入的多模态图像分类器制造技术

技术编号：27011436 阅读：36 留言：0更新日期：2021-01-08 17:22

用于实现多模态图像分类器的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。在一方面，一种方法包括针对多个图像中的每个图像：通过文本生成器模型处理图像以获得描述该图像的内容的短语的集合，其中每个短语是一个或多个术语，通过文本嵌入模型处理短语的集合以获得该图像的预测文本的嵌入，并使用图像嵌入模型处理图像以获得图像的图像像素的嵌入。然后，在图像的预测文本的嵌入和图像的图像像素的嵌入上训练多模态图像分类器，以产生输出分类法的标签作为输出，用于基于作为输入的图像对图像进行分类。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用文本和视觉嵌入的多模态图像分类器优先权申明本申请要求于2018年11月16日提交的美国专利申请序列第62/768,701号的优先权，其全部内容通过引用合并于此。
技术介绍
本说明书涉及图像处理，尤其涉及多模态图像分类器(multimodalimageclassifier)。机器学习图像分类模型将图像像素作为输入并以预定义的分类法产生标签。图像分类通常是一种监督学习问题，它定义目标类的集合(要在图像中标识的对象)，并使用标记的训练图像训练模型以识别它们。这样的系统能够对未见数据具有高的预测准确性和普遍性。这些模型可能依赖于像素数据和从像素数据导出的特征(诸如，颜色直方图、纹理和形状)作为训练特征。
技术实现思路
本说明书描述了一种系统，该系统被实现为一个或多个位置中的一个或多个计算机上的计算机程序，该系统使用一种模型来预测图像分类，该模型从图像的预测文本的嵌入和图像的图像像素的嵌入获取特征。该说明书还描述了一种由一个或多个数据处理装置执行的用于预测图像分类的方法，以及一个或多个非暂时性计算机存储介质，该非暂时性计算机存储介质存储指令，当所述指令被一个或多个计算机执行时使所述一个或多个计算机执行用于预测图像分类的操作。根据一个方面，提供了一种方法，该方法包括针对多个图像中的每个图像：通过文本生成器模型处理该图像以获得描述该图像的内容的短语的集合，其中每个短语为一个或多个术语，通过文本嵌入模型处理短语的集合以获得图像的预测文本的嵌入，并使用图像嵌入模型处理图像以获得图像的图像像素的嵌入；在图像的预测文本的...

【技术保护点】
1.一种由一个或多个数据处理装置执行的方法，所述方法包括：/n对于多个图像中的每个图像：/n通过文本生成器模型处理图像以获得描述图像的内容的短语的集合，其中，每个短语是一个或多个术语；/n通过文本嵌入模型处理短语的集合以获得图像的预测文本的嵌入；以及/n使用图像嵌入模型处理图像以获得图像的图像像素的嵌入；/n在图像的预测文本的嵌入和图像的图像像素的嵌入上训练多模态图像分类器，以产生输出分类法的标签作为输出，以基于作为输入的图像对图像进行分类。/n

【技术特征摘要】
【国外来华专利技术】20181116 US 62/768,7011.一种由一个或多个数据处理装置执行的方法，所述方法包括：
对于多个图像中的每个图像：
通过文本生成器模型处理图像以获得描述图像的内容的短语的集合，其中，每个短语是一个或多个术语；
通过文本嵌入模型处理短语的集合以获得图像的预测文本的嵌入；以及
使用图像嵌入模型处理图像以获得图像的图像像素的嵌入；
在图像的预测文本的嵌入和图像的图像像素的嵌入上训练多模态图像分类器，以产生输出分类法的标签作为输出，以基于作为输入的图像对图像进行分类。

2.根据权利要求1所述的方法，其中，所述文本生成器模型是在文本查询-图像对上训练的基于文本查询的模型。

3.根据权利要求1或权利要求2所述的方法，其中，使用图像嵌入模型处理图像以获得图像的图像像素的嵌入包括从预训练的卷积网络的最终完全连接层获得图像特征。

4.根据权利要求1-3中任一项所述的方法，其中，训练多模态图像分类器包括：
将N维文本特征向量与M维视觉特征向量拼接为奇异特征向量；以及
提供奇异特征向量作为多模态分类器的输入。

5.根据权利要求1-4中任一项所述的方法，其中，所述文本生成器模型包括softmax层，所述softmax层产生跨每个可能的预测的短语的概率分布。

6.根据权利要求1所述的方法，其中，所述文本生成器模型使用最近邻过程获得给定图像的短语的集合。

7.一种系统，包括：
数据处理装置；
存储器，与数据处理装置进行数据通信并存储使数据处理装置执行操作的指令，所述操作包括：
对于多个图像中的每个图像：
通过文本生成器模型处理图像以获得描述图像的内容的短语的集合，其中，每个短语是一个或多个术语；
通过文本嵌入模型处理短语的集合以获得图像的预测文本的嵌入；以及
使用图像嵌入模型处理图像以获得图像的图像像素的嵌入；
在图像的预测文本的嵌入和图像的图像像素的嵌入上训练多模态图像分类器，以产生输出分类法的标签作为输出，...

【专利技术属性】
技术研发人员：A富克斯曼，李臻，M沙，K维斯瓦纳坦，CT卢，A蒂莫费夫，C孙，C贾，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人