一种基于数据增强的视觉语义嵌入方法及系统技术方案

技术编号：32975632 阅读：11 留言：0更新日期：2022-04-09 11:52

本发明专利技术公开了一种基于数据增强的视觉语义嵌入方法及系统，属于深度学习技术领域。利用第一网络模型对图像进行目标识别选取若干图像区域；利用第二网络模型提取图像区域的细粒度特征，通过微调网络映射得到图像在共同嵌入空间的细粒度表示；进行第一语义图推理并进行统一池化操作；利用第一提取模型提取文本上下文相关的词向量表示；利用第二提取模型进行微调映射至共同嵌入空间，得到文本在共同嵌入空间中的词向量表示；进行第二语义图推理并进行统一池化操作；对所述第一池化结果和第二池化结果进行语义对齐，并且在模型的训练中对数据进行增强。本发明专利技术能够很好的构建模态内语义关联和在共同嵌入子空间中生成统一表征。关联和在共同嵌入子空间中生成统一表征。关联和在共同嵌入子空间中生成统一表征。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据增强的视觉语义嵌入方法及系统

[0001]本专利技术属于深度学习
，具体涉及一种基于数据增强的视觉语义嵌入方法及系统。

技术介绍

[0002]图像
‑
文本跨模态实体分辨的目的是查找具有相同语义的图像
‑
文本对。然而，由于图像和文本是属于不同模态的数据，这给图像和文本的语义对齐带来了巨大的挑战
[0003]图像文本跨模态实体分辨方法可以分为传统方法和深度学习方法。传统方法一般采用统计分析的方法，通过统计分析不同模态信息的分布情况来学习跨模态数据的映射矩阵，实现语义对齐。其中，最具代表性的方法是典型性相关分析(Canonical Correlation Analysis，CCA)。研究者们提出多种的基于CCA的方法，比如KCCA、Multi
‑
view CCA等。
[0004]由于深度神经网络强大的非线性学习能力，目前已经成为各个领域研究的热点课题。在基于深度学习的图像
‑
文本跨模态实体分辨领域，主要可以分为采用视觉语义嵌入的方法和采用跨模态交叉注意力机制的方法。然而，基于跨模态交叉注意力的方法需要增加跨模态计算，这增加了模型的计算量，降低了模型的应用价值。因此，在实际工程应用中，一般都只能采取视觉语义嵌入的方法完成图像
‑
文本跨模态实体分辨任务。现有技术证实，由于图像和文本数据在高层语义分布上是同构的，基于视觉语义嵌入的方法不仅能够实现与基于交叉注意力的方法相近的性能，而且具有较低的计算复杂度。<...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强的视觉语义嵌入方法，其特征在于，包括：接收图像数据和文本数据；利用第一网络模型对图像进行目标识别，并根据置信度选取若干图像区域；利用第二网络模型提取每个所述图像区域的细粒度特征，通过微调网络将所述图像细粒度特征映射到共同嵌入空间，得到图像在共同嵌入空间的细粒度表示；根据所述细粒度表示进行第一语义图推理，获得第一推理结果；对第一推理结果进行统一池化操作，得到第一池化结果；利用第一提取模型提取文本上下文相关的词向量表示；利用第二提取模型对文本上下文相关的词向量表示进行微调映射至共同嵌入空间，得到文本在共同嵌入空间中的词向量表示；根据所述词向量表示进行第二语义图推理，获得第二推理结果；对第二推理结果进行统一池化操作，得到第二池化结果；对所述第一池化结果和第二池化结果进行语义对齐；所述第二网络模型、第一提取模型和第二提取模型均利用数据增强后的数据进行训练。2.根据权利要求1所述的方法，其特征在于，所述第一网络模型为在Visual Genome数据集中预训练的目标识别网络Faster R
‑
CNN。3.根据权利要求1所述的方法，其特征在于，所述第二网络模型为在ImageNet数据集中预训练的Resnet101。4.根据权利要求1所述的方法，其特征在于，所述微调网络为多层感知机连接一层全连接网络。5.根据权利要求1所述的方法，其特征在于，所述第一提取模型为BERT
‑
Base
‑
Uncased模型；所述第二提取模型为Bi
‑
GRU网络模型。6.根据权利要求1
‑
5任一项所述的方法，其特征在于，所述第一语义图推理的方法包括：构建第一全连接语义图，以图片的细粒度特征向量表示作为节点，节点间边的权重采用节点间的相似度表示；采用图卷积神经网络实现第一全连接语义图中节点之间的语义推理。7.根据权利要求6所述的方法，其特征在于，所述第一语义图推理的方法包括：构建第二全连接语义图...

【专利技术属性】
技术研发人员：曹建军，曾志贤，翁年凤，袁震，江春，丁鲲，蒋国权，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人