提供了一种用于学习多模态特征匹配的计算机实现的方法。该方法包括训练图像编码器以获得编码图像。该方法还包括通过使用加标签图像来在编码图像上训练公共分类器。该方法还包括在将公共分类器保持在固定配置中的同时,通过使用学习的文本嵌入和该学习的文本嵌入的对应标签来训练文本编码器。进一步训练文本编码器以将由文本编码器编码的预测文本嵌入的距离与编码图像上的拟合高斯分布相匹配。距离与编码图像上的拟合高斯分布相匹配。距离与编码图像上的拟合高斯分布相匹配。
【技术实现步骤摘要】
【国外来华专利技术】学习用于半监督学习的未配对多模态特征匹配
技术介绍
[0001]本专利技术一般地涉及机器学习,并且更具体地涉及学习用于半监督学习的未配对多模态特征匹配。
[0002]从一种数据模态生成另一种数据模态是许多机器学习应用中的重要功能。
[0003]通常,应用涉及两个或多个数据模态,其中对于每个模态,存在很少的加标签样本和许多未加标签样本。目标是使用加标签样本来学习模态之间的公共映射。
[0004]在“Text to Image Generative Model using Constrained Embedding Space Mapping”,IEEE International Workshop On Machine Learning For Signal Processing,2017,by Subhajit Chaudhury et al.和“Conditional generation of multi
‑
modal data using constrained embedding space mapping”,International Conference on Machine Learning(ICML)workshop on Implicit Generative Models,2017,by Subhajit Chaudhury et al.中,使用确定性映射方案,其中它们首先计算以迫使在训练期间潜在空间相等。由于潜在空间是确定性的,所以确定性映射方案不能对多模态分布中的不同变化进行建模。此外,确定性映射方案易于过度拟合,因为确定性映射不提供对嵌入和公共潜在空间之间的最大解耦的测量。另外,他们使用配对的训练数据。
[0005]在“Multimodal deep learning,”in Proceedings of the 28th International Conference on Machine Learning(ICML
‑
11),2011,pp.689
–
696,by Jiquan Ngiam et al.中,提出了一种深度学习框架,其使用受限的Boltzmann机器和深度信念网络来学习音频和视频模态的有效特征。然而,它们需要两种模态来推断潜在空间,这限制了从一个模态到另一个模态的数据的条件生成。
[0006]在“Generating images from captions with attention,”Computing Research Repository(CoRR),Vol.abs/1511.02793,2015,by Elman Mansimov et al.中,示出了使用基于注意力的模型来从文本字幕生成图像导致更高质量的样本。然而,它们不能产生双向多模态数据分布。
[0007]在“Generative adversarial text to image synthesis,”in Proceedings of the 33rd International Conference on Machine Learning,Vol.48.2016,ICML
’
16,pp.1060
–
1069,JMLR.org,by Scott Reed et al.中,提出了深度卷积生成对抗网络,其组合自然语言和图像嵌入以便产生合成生成的图像。然而,它们仅能够从图像生成文本,而不能以相反的方式生成。
[0008]在“Joint Multimodal Learning with Deep Generative Models”,International Conference on Learning Representations(ICLR)2017workshop,April24
–
26,2017,Toulon,France by Masahiro Suzuki et al.中,提出了联合分布学习,其通过共享数据模态以创建公共潜在空间,在数据模态上直接使用变化推断。然而,它们的方法不能直接用于条件独立推断。此外,它们的方法需要更多的网络参数,使用更多的数据用于训练,并且必须依赖于用于训练自然图像的对抗模型。
技术实现思路
[0009]根据本专利技术的各方面,提供了一种用于学习多模态特征匹配的计算机实现的方法。该方法包括训练图像编码器以获得编码图像。该方法还包括通过使用加标签图像来在编码图像上训练公共分类器。该方法还包括在将公共分类器保持在固定配置中的同时,通过使用所学习的文本嵌入和所学习的文本嵌入的对应标签来训练文本编码器。文本编码器被进一步训练为将由文本编码器编码的预测文本嵌入的距离与编码图像上的拟合高斯分布相匹配。预测的文本嵌入的距离与编码图像上的拟合高斯分布的匹配迫使未加标签图像具有针对每个类别的软聚类分数,从而利用少量的加标签图像,这导致使用大量数据的改进的多模态匹配性能。
[0010]在实施例中,文本编码器被训练为同时优化公共分类器的交叉熵以及图像域中的拟合高斯分布与预测文本嵌入之间的KL散度。以这种方式,图像和文本嵌入两者中的潜在表示的分布可以与使能跨模态生成和分类的按类别的方式中的相同分布匹配。
[0011]在实施例中,在没有配对数据的情况下训练公共分类器。以这种方式,在图像样本上训练的分类器可用于使用固定分类器来区分文本嵌入样本。这使得能够在不使用在许多实际使用情况中找到应用的成对图像和文本样本的情况下,隐式地将文本嵌入分布在潜在空间中。
[0012]在实施例中,使用交叉熵损失来训练公共分类器。这样,公共分类器可以学习区分相似分类任务的公共文本和图像潜在空间表示,以按类别的方式自动地将两个模态的嵌入对齐在相同的分布中。
[0013]根据本专利技术的其他方面,提供了一种用于学习多模态特征匹配的计算机程序产品。计算机程序产品包括具有体现于其中的程序指令的非瞬态计算机可读存储介质。程序指令可由计算机执行以使计算机执行一种方法。该方法包括训练图像编码器以获得编码图像。该方法还包括通过使用加标签图像来对编码图像训练公共分类器。该方法还包括通过使用所学习的文本嵌入和所学习的文本嵌入的对应标签来训练文本编码器,同时将公共分类器保持在固定配置中。文本编码器被进一步训练以将由文本编码器编码的预测文本嵌入的距离与编码图像上的拟合高斯分布相匹配。
[0014]根据本专利技术的其他方面,提供了一种用于学习多模态特征匹配的计算机处理系统。计算机处理系统包括用于存储程序代码的存储器设备。计算机处理系统还包括处理器设备,其操作地耦合到存储器设备,用于运行程序代码以训练图像编码器来获得编码图像。处理器设备还运行程序代码以通过使用加标签图像来在编码图像上训练公共分类器。处理器装置还运行程序代码以在将共同分类器保持在固定配置中的同时,通过使用学习的文本嵌入和用于学习的文本嵌入的对应标签来训练文本编码器。文本编码器被进一步训练为将由文本编码器编码的预测文本嵌入的距离与编码图像上本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于学习多模态特征匹配的计算机实现的方法,包括:训练图像编码器以获得编码图像;通过使用加标签图像对编码图像训练公共分类器;以及通过使用学习的文本嵌入和用于所述学习的文本嵌入的对应标签,在将所述公共分类器保持在固定配置的同时训练文本编码器,其中所述文本编码器被进一步训练为将由所述文本编码器编码的预测的文本嵌入的距离与所述编码图像上的拟合的高斯分布相匹配。2.根据权利要求1所述的计算机实现的方法,还包括通过利用所述图像编码器使用所述加标签图像并且利用所述文本编码器使用加标签文本来训练所述公共分类器。3.根据权利要求1所述的计算机实现的方法,其中所述文本编码器被训练为同时优化利用所述公共分类器的交叉熵以及在所述拟合的高斯分布与所述预测的文本嵌入之间的KL散度。4.根据权利要求1所述的计算机实现的方法,其中,所述公共分类器是在没有配对数据的情况下训练的。5.根据权利要求1所述的计算机实现的方法,其中,所述公共分类器是使用交叉熵损失训练的。6.根据权利要求1所述的计算机实现的方法,其中,总损失被计算为与所述公共分类器相对应的损失和将超参数乘以与所述图像编码器相对应的损失的结果之和。7.如权利要求1所述的计算机实现的方法,还包括利用所述对应标签最小化所述拟合的高斯分布与所述学习的文本嵌入之间的Kullback
‑
Liebler散度。8.根据权利要求7所述的计算机实现的方法,还包括在公共嵌入空间上执行半监督学习。9.根据权利要求1所述的计算机实现的方法,其中,所述文本编码器将预先训练的文本嵌入与所述图像嵌入一起映射到公共潜在表示,以实现跨模态任务。10.根据权利要求1所述的计算机实现的方法,还包括通过应用于训练文本的预先训练的文本嵌入模型来提取所述文本嵌入。11.根据权利要求1所述的计算机实现的方法,其中所述方法由文本字幕系统执行,所述文本字幕系统利用输出文本描述给输入图像加字幕。12.根据权利要求11所述的计算机实现的方法,还包括响应于所述输出文本描述中的至少一个指示即将发生的碰撞,控制汽车以避免碰撞。13.根据权利要求1所述的计算机实现的方法,其中,所述三元组损失将所述编码图像中的相似编码图像推在一起,并且将所述编码图像中的不相似编码图像分开。14.根据权利要求1所述的计算机实现的方法,其中训练所述文本编码器还包括使用所述公共分类器将所述学习的文本嵌入映射到样本聚类,以将所述学习的文本嵌入分类到多个类别中的相应类别中。15.如权利要求1所述的计算机实现的方法,其中所述文本编码器被训练成使得利用所述固定...
【专利技术属性】
技术研发人员:S,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。