基于多模态预训练的相似图片检索方法、装置及电子设备制造方法及图纸

技术编号：33406871 阅读：34 留言：0更新日期：2022-05-11 23:31

本申请提供了一种多模态预训练的相似图片检索方法、装置及电子设备，该方法包括：获取图片特征编码器，所述图片特征编码器是与文本编码器共同经多模态预训练得到的；基于所述图片特征编码器，获取待检索图片及图片数据库中图片的图片特征；基于所述待检索图片及图片数据库中图片的图片特征，从图片数据库中召回具有与所述待检索图片的特征相似的图片数据，作为召回图片数据；对所述召回图片数据进行排序，将最近邻的数据返回，作为所述待检索图片的检索结果。本申请通过多模态预训练、图片特征提取、相似图片召回、相似性排序，实现从海量的图片数据中，高效且准确的为一张图片检索出一组语义上和内容上相似的图片。一组语义上和内容上相似的图片。一组语义上和内容上相似的图片。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态预训练的相似图片检索方法、装置及电子设备

[0001]本申请涉及计算机应用
，具体而言，涉及一种基于多模态预训练的相似图片检索方法、装置及电子设备。

技术介绍

[0002]随着数据的沉淀，中文内容社区拥有海量的图文内容，图片数据量已达亿级，其图文内容具有种类丰富、语义复杂的特点。语义相似内容的检索和匹配在搜索、推荐、商广等场景具有很强的业务价值，通常，人们使用神经网络打标签和内容表征的方法将语义内容相似的图文数据进行聚合。由于图片规模极其庞大，如何给一张图片从海量图片数据中检索出一组语义上相似的图片就成了一个复杂且重要的问题。
[0003]传统的相似图片检索方法，包括基于感知哈希检索、基于尺度不变特征变换特征检索、基于图片标签检索、基于神经网络的图片特征检索。其中，基于感知哈希检索的方法对于语义相似的图片检索效果很差；基于尺度不变特征变换特征检索的方法对于缺少纹理信息的图片检索效果很差；基于图片标签检索的方法，文本标签准确性较低，且需要人工标注，有很大的人工开销；基于神经网络的图片特征检索方法，通过传统分类任务得到的图像特征提取器的语义表征能力较差，缺乏语义信息的监督训练，而传统的监督学习分类任务需要人工标注数据，对于海量无标注数据则无能为力，故相似图片的检索效果和鲁棒性较差。
[0004]目前，基于图文信息的多模态预训练相似图片检索方法也纷纷出现，例如检索模型的预训练过程采用了ViT模型和BERT模型的双网络进行图片特征提取和文本特征提取，但这类方法中图片特征提取模型使用ViT模型进...

【技术保护点】

【技术特征摘要】
1.一种基于多模态预训练的相似图片检索方法，其特征在于，包括：获取图片特征编码器，所述图片特征编码器是与文本编码器共同经多模态预训练得到的；所述多模态预训练包括基于梯度更新的Query模型和基于动量更新的Key模型对所述图片特征编码器和所述文本编码器进行预训练的第一阶段训练，以及基于梯度更新的Query模型对所述图片特征编码器和所述文本编码器进行预训练的第二阶段训练；其中，所述图片特征编码器的Patch Projection层在所述第一阶段训练中被固定；基于所述图片特征编码器，获取待检索图片及图片数据库中图片的图片特征；基于所述待检索图片及图片数据库中图片的图片特征，从图片数据库中召回具有与所述待检索图片的特征相似的图片数据，作为召回图片数据；对所述召回图片数据进行排序，将最近邻的数据返回，作为所述待检索图片的检索结果。2.根据权利要求1所述的方法，其特征在于，所述多模态预训练之前，还包括：获取图片及其对应的文本信息，构建图片
‑
文本对作为训练数据集；构建多模态预训练模型，所述模型采用双塔模式，包括图片侧的图片特征编码器和文本侧的文本特征编码器，所述图片特征编码器采用ViT模型提取图片特征，所述文本特征编码器采用语言预训练模型BERT提取图片特征。3.根据权利要求1和2所述的方法，其特征在于，所述基于梯度更新的Query模型和基于动量更新的Key模型对所述图片特征编码器和所述文本编码器进行预训练的第一阶段训练，包括：获取所述训练数据集的某一批图片
‑
文本对，并将图片
‑
文本对中的图片加入图片样本队列，将图片
‑
文本对中的文本加入文本样本队列，其中，所述图片样本队列和文本样本队列为固定长度，保持新一批数据进入样本队列的同时旧一批数据出队；将某图片
‑
文本对中的图片输入所述图片特征编码器Query，得到图片特征；将所述图片样本队列的图片输入所述图片特征编码器Query，得到图片样本队列的图片特征，并对所述图片特征和图片样本队列的图片特征进行匹配，计算第一单模态对比学习的损失函数；将所述文本样本队列的文本输入所述文本特征编码器Key，得到文本样本队列的文本特征，并对所述图片特征和文本样本队列的文本特征进行匹配，计算第一跨模态对比学习的损失函数；计算第一总损失函数，并采用梯度下降法更新图片特征编码器Query的参数，所述第一总损失函数为第一单模态对比学习的损失函数和第一跨模态对比学习的损失函数之和；基于所述更新后的图片特征编码器Query的参数，通过动量更新图片特征编码器Key的参数。4.根据权利要求3所述的方法，其特征在于，所述基于梯度更新的Query模型和基于动量更新的Key模型对所述图片特征编码器和所述文本编码器进行预训练的第一阶段训练，还包括：将某图片
‑
文本对中的文本输入文本特征编码器Query，得到文本特征；将所述文本样本队列的文本输入所述文本特征编码器Query，得到文本样本队列的文本特征，并对所述文本特征和文本样本队列的文本特征进行匹配，计算第二单模态对比学
习的损失函数；将所述图片样本队列的图片输入所述图片特征编码器Key，得到图片样本队列的图片特征，并对所述文本特征和图片样本队列的图片特征进行匹配，计算第二跨模态对比学习的损失函数；计算第二总损失函数，并采用梯度下降法更新文本特征编码器Query的参数，所述第二总损失函数为第二单模态对比学习的损失...

【专利技术属性】
技术研发人员：孟凡飞，李飞阳，薛娇，李大海，
申请(专利权)人：智者四海北京技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人