一种基于数据增强的视觉语义嵌入方法及系统技术方案

技术编号:32975632 阅读:11 留言:0更新日期:2022-04-09 11:52
本发明专利技术公开了一种基于数据增强的视觉语义嵌入方法及系统,属于深度学习技术领域。利用第一网络模型对图像进行目标识别选取若干图像区域;利用第二网络模型提取图像区域的细粒度特征,通过微调网络映射得到图像在共同嵌入空间的细粒度表示;进行第一语义图推理并进行统一池化操作;利用第一提取模型提取文本上下文相关的词向量表示;利用第二提取模型进行微调映射至共同嵌入空间,得到文本在共同嵌入空间中的词向量表示;进行第二语义图推理并进行统一池化操作;对所述第一池化结果和第二池化结果进行语义对齐,并且在模型的训练中对数据进行增强。本发明专利技术能够很好的构建模态内语义关联和在共同嵌入子空间中生成统一表征。关联和在共同嵌入子空间中生成统一表征。关联和在共同嵌入子空间中生成统一表征。

【技术实现步骤摘要】
一种基于数据增强的视觉语义嵌入方法及系统


[0001]本专利技术属于深度学习
,具体涉及一种基于数据增强的视觉语义嵌入方法及系统。

技术介绍

[0002]图像

文本跨模态实体分辨的目的是查找具有相同语义的图像

文本对。然而,由于图像和文本是属于不同模态的数据,这给图像和文本的语义对齐带来了巨大的挑战
[0003]图像文本跨模态实体分辨方法可以分为传统方法和深度学习方法。传统方法一般采用统计分析的方法,通过统计分析不同模态信息的分布情况来学习跨模态数据的映射矩阵,实现语义对齐。其中,最具代表性的方法是典型性相关分析(Canonical Correlation Analysis,CCA)。研究者们提出多种的基于CCA的方法,比如KCCA、Multi

view CCA等。
[0004]由于深度神经网络强大的非线性学习能力,目前已经成为各个领域研究的热点课题。在基于深度学习的图像

文本跨模态实体分辨领域,主要可以分为采用视觉语义嵌入的方法和采用跨模态交叉注意力机制的方法。然而,基于跨模态交叉注意力的方法需要增加跨模态计算,这增加了模型的计算量,降低了模型的应用价值。因此,在实际工程应用中,一般都只能采取视觉语义嵌入的方法完成图像

文本跨模态实体分辨任务。现有技术证实,由于图像和文本数据在高层语义分布上是同构的,基于视觉语义嵌入的方法不仅能够实现与基于交叉注意力的方法相近的性能,而且具有较低的计算复杂度。<br/>[0005]然而,现有的视觉语义嵌入方法存在不能很好的构建模态内语义关联或生成统一表征的问题。现有技术中,虽然设计了极好的池化策略用于生成跨模态数据的全局嵌入表示,实现较好的性能,但是并未构建模态内语义关联,导致细粒度特征语义增强缺失的问题。此外,现有技术虽然构建了模态内语义关联,但是采用Bi

GRU网络或者是一般的特征融合网络对细粒度特征进行特征聚合,并不能在共同嵌入空间中生成较好的统一表征。因此,有必要解决现有视觉语义嵌入模型不能较好构建模态内语义关联和生成统一表征的问题。
[0006]此外,在目前的视觉语义嵌入中采用的视觉语义嵌入模型,因为受数据样本限制等等因素,导致视觉语义嵌入模型的泛化能力较差,使得现有的视觉语义嵌入方法难以很好的构建模态内语义关联或生成统一表征。因此,有必要提出一种适用于视觉语义嵌入的数据增强方法,提高模型的泛化能力。

技术实现思路

[0007]技术问题:针对现有的视觉语义嵌入方法难以很好的构建模态内语义关联或生成统一表征的问题,本专利技术提供一种基于数据增强的视觉语义嵌入方法及系统,通过重新构建视觉语义嵌入的全过程,并通过数据增强提高模型的泛化能力,使得本专利技术能够很好地构建模态内语义关联和生成统一表征。
[0008]技术方案:第一方面,本专利技术提供一种基于数据增强的视觉语义嵌入方法,包括:
[0009]接收图像数据和文本数据;
[0010]利用第一网络模型对图像进行目标识别,并根据置信度选取若干图像区域;利用第二网络模型提取每个所述图像区域的细粒度特征,通过微调网络将所述图像细粒度特征映射到共同嵌入空间,得到图像在共同嵌入空间的细粒度表示;
[0011]根据所述细粒度表示进行第一语义图推理,获得第一推理结果;
[0012]对第一推理结果进行统一池化操作,得到第一池化结果;
[0013]利用第一提取模型提取文本上下文相关的词向量表示;利用第二提取模型对文本上下文相关的词向量表示进行微调映射至共同嵌入空间,得到文本在共同嵌入空间中的词向量表示;
[0014]根据所述词向量表示进行第二语义图推理,获得第二推理结果;
[0015]对第二推理结果进行统一池化操作,得到第二池化结果;
[0016]对所述第一池化结果和第二池化结果进行语义对齐;
[0017]所述第二网络模型、第一提取模型和第二提取模型均利用数据增强后的数据进行训练。
[0018]优选地,所述第一网络模型为在Visual Genome数据集中预训练的目标识别网络Faster R

CNN。
[0019]优选地,所述第二网络模型为在ImageNet数据集中预训练的Resnet101。
[0020]优选地,所述微调网络为多层感知机连接一层全连接网络。
[0021]优选地,所述第一提取模型为BERT

Base

Uncased模型;所述第二提取模型为Bi

GRU网络模型。
[0022]进一步地,所述第一语义图推理的方法包括:
[0023]构建第一全连接语义图,以图片的细粒度特征向量表示作为节点,节点间边的权重采用节点间的相似度表示;
[0024]采用图卷积神经网络实现第一全连接语义图中节点之间的语义推理。
[0025]优选地,所述第一语义图推理的方法包括:
[0026]构建第二全连接语义图,以词的向量表示作为节点,节点间边的权重采用节点间的相似度表示;
[0027]采用图卷积神经网络实现第二全连接语义图中节点之间的语义推理。
[0028]优选地,所述第一池化结果和第二池化结果进行语义对齐包括:
[0029]采用热启动的方式,在训练的第一个epoch采用一般跨模态三元组损失函数;
[0030]剩余的训练中采用难负样本跨模态三元组损失函数。
[0031]优选地,所述数据增强的方法包括图像数据增强和文本数据增强;
[0032]所述图像数据增强包括:每个图像区域都有一定的概率被一个固定的特征向量&lt;mask&gt;所替换,并生成图像数据增强的细粒度特征表示;
[0033]所述文本数据增强包括:
[0034]文本描述中的每个单词都有一定的概率替换为一个固定的非零特征向量;
[0035]文本描述中的每个单词都有一定的概率被移除;
[0036]文本描述中的每个单词都有一定的概率被词典中的另一个单词替换。
[0037]第二方面,本专利技术提供一种基于数据增强的视觉语义嵌入系统,包括:
[0038]数据接收单元,用于接收图像和文本数据;
[0039]图像特征获取单元,利用第一网络模型对图像进行目标识别,并根据置信度选取若干图像区域;利用第二网络模型提取每个所述图像区域的细粒度特征,通过微调网络将所述图像细粒度特征映射到共同嵌入空间,得到图像在共同嵌入空间的细粒度表示;
[0040]第一图推理单元,根据所述细粒度表示进行第一语义图推理,获得第一推理结果;
[0041]第一池化单元,对第一推理结果进行统一池化操作,得到第一池化结果;
[0042]文本特征提取单元,利用第一提取模型提取文本上下文相关的词向量表示;利用第二提取模型对文本上下文相关的词向量表示进行微调映射至共同嵌入空本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强的视觉语义嵌入方法,其特征在于,包括:接收图像数据和文本数据;利用第一网络模型对图像进行目标识别,并根据置信度选取若干图像区域;利用第二网络模型提取每个所述图像区域的细粒度特征,通过微调网络将所述图像细粒度特征映射到共同嵌入空间,得到图像在共同嵌入空间的细粒度表示;根据所述细粒度表示进行第一语义图推理,获得第一推理结果;对第一推理结果进行统一池化操作,得到第一池化结果;利用第一提取模型提取文本上下文相关的词向量表示;利用第二提取模型对文本上下文相关的词向量表示进行微调映射至共同嵌入空间,得到文本在共同嵌入空间中的词向量表示;根据所述词向量表示进行第二语义图推理,获得第二推理结果;对第二推理结果进行统一池化操作,得到第二池化结果;对所述第一池化结果和第二池化结果进行语义对齐;所述第二网络模型、第一提取模型和第二提取模型均利用数据增强后的数据进行训练。2.根据权利要求1所述的方法,其特征在于,所述第一网络模型为在Visual Genome数据集中预训练的目标识别网络Faster R

CNN。3.根据权利要求1所述的方法,其特征在于,所述第二网络模型为在ImageNet数据集中预训练的Resnet101。4.根据权利要求1所述的方法,其特征在于,所述微调网络为多层感知机连接一层全连接网络。5.根据权利要求1所述的方法,其特征在于,所述第一提取模型为BERT

Base

Uncased模型;所述第二提取模型为Bi

GRU网络模型。6.根据权利要求1

5任一项所述的方法,其特征在于,所述第一语义图推理的方法包括:构建第一全连接语义图,以图片的细粒度特征向量表示作为节点,节点间边的权重采用节点间的相似度表示;采用图卷积神经网络实现第一全连接语义图中节点之间的语义推理。7.根据权利要求6所述的方法,其特征在于,所述第一语义图推理的方法包括:构建第二全连接语义图...

【专利技术属性】
技术研发人员:曹建军曾志贤翁年凤袁震江春丁鲲蒋国权
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1