本发明专利技术公开了基于可信度自适应匹配网络的跨模态图像文本检索方法,属于计算机多媒体领域,包括以下步骤:S1:给定图像‑文本数据集,进行数据准备,包括图像特征抽取以及文本的分词和id表示,S2:构建可信度自适应匹配网络模型,S3:模型在训练集上充分训练,S4:检索性能测试。该基于可信度自适应匹配网络的跨模态图像文本检索方法通过引入可信度评估可以有效解决传统的细粒度检索方法中的相似度估计偏差问题,获得了性能上的提升,在Flickr30k上,图像检索文本任务上最大可以提升1.7%(Recall@5),文本检索图像任务上最大可以提升7.7%(Recall@5),在MSCOCO上,图像检索文本可以最大提升1.3%,而在文本检索图像上可以提升2.8%。
Cross modal image text retrieval method based on credibility adaptive matching network
【技术实现步骤摘要】
基于可信度自适应匹配网络的跨模态图像文本检索方法
本专利技术涉及计算机多媒体领域,具体为基于可信度自适应匹配网络的跨模态图像文本检索方法。
技术介绍
随着互联网和多媒体技术的快速发展,跨媒体数据以前所未有的速度增长,给人类行为研究带来了巨大的挑战和要求。跨模态图像-文本检索旨在挖掘图像和文本之间的潜在语义关联关系,有助于大规模跨模态数据的关联分析。但是由于图像和文本数据之间天然存在的异构鸿沟,使得跨模态信息检索变得极具挑战。为了解决模态差异带来的异构鸿沟,目前的跨模态图像-文本检索技术通常采用信息嵌入技术来解决。具体来说,图像和文本首先各自表示为隐藏空间的向量特征,然后通过嵌入技术在一个共享的潜在语义空间中进行语义信息对齐,使得相似的图像和文本互相靠近,而不相似的图像文本互相分离。为了将图像特征和文本在共享空间实现对齐匹配,目前的工作可以分为两种方法:一对一粗粒度匹配和多对多细粒度匹配。一对一匹配的核心思想是图像和文本可以看成是语义空间中的点,距离相近的点表示关联的图像和文本语义相似,而距离较远的点表示不相似。所以这种方式通常学习两个独立的向量来表示图像信息和文本信息,然后通过线性变换或者非线性变换使得两者在共享空间中进行匹配。但是这种方式忽略了语义特征表达的复杂性,一维向量不足以充分表示图像和文本的语义信息量,属于粗粒度匹配方法。另外一种方式是多对多细粒度匹配,它的原理是图像和文本是一种高层语义表达的载体,可以看成是许多底层语义的复杂组会,比如一段文本是由不同的词汇构成,每个词有不同的意思,单独的一个词可能意思不清楚,但是组合起来就能形成语义清楚的一句话;又比如图像是由不同的对象区域组成(对象区域指出现了有语义表达意义的实体的像素块)。基于这一原理,跨模态检索技术从细粒度特征匹配出发,实现了通过词和图像区域之间的关联匹配来实现图像和文本的特征匹配。尽管目前的细粒度匹配方法取得了令人兴奋的进展,但是目前基于注意力模型的细粒度匹配模型只能将匹配的语义线索关联在一起。也就说是,目前的细粒度匹配模型是基于图像和文本中能够匹配的信息进行匹配的,而没有考虑到那些不能或者部分匹配的信息,而这种忽视造成了相似度估计的一种偏差。比如说明书附图图4所展示的例子,文本1和文本2都包含了图像的全部信息,即一个男人抱着一个婴儿,但是文本2还包含了图像不具备的语义“吃”,而这个信息在目前的匹配模型中并没有考虑到。综合来看,目前的匹配模型还是在尽力挖掘可匹配信息来估计两者的相似度,对于那些无法匹配的信息,模型并没有加以重视,而这种不匹配信息对于相似度的估计是必不可少的,仍然需要进一步的研究。为此,提出基于可信度自适应匹配网络的跨模态图像文本检索方法。
技术实现思路
本专利技术的目的在于提供基于可信度自适应匹配网络的跨模态图像文本检索方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:基于可信度自适应匹配网络的跨模态图像文本检索方法,包括以下步骤:S1:给定图像-文本数据集,进行数据准备,包括图像特征抽取以及文本的分词和id表示,具体为以下内容:图像特征表示:采用基于深度学习的对象检测模型FasterR-CNN来抽取图像信息;具体来说,将给定图像,I,输入到FasterR-CNN中,FasterR-CNN会自动检测图像中出现实体的区域,通过极大抑制法,抽取了36个区域特征,并通过线性变换得到图像特征表示,用V={vi∈Rd|i∈[1,36]}表示,其中每个vi都是一个1024维度的向量;为了便于下文描述,称V为图像的局部特征集,也可以通过平均池化操作得到图像的全局特征,即文本特征表示:采用双向门控循环单元(Bi-GRU)来抽取每个词的特征;给定含有m个词的文本,Bi-GRU可以从两个方向(前向和后向)得到每个词的特征,用和分别表示第j个词的前向特征和后向特征;然后将这两种特征平均得到最终的每个词的特征,用tj来表示,则有用大写T={tj|j∈[1,m],tj∈Rd}表示词特征集合,其中每个tj特征维度是1024;进一步地,将第一个词的后向特征和最后一个词的前向特征平均得到文本特征,即S2:构建可信度自适应匹配网络模型,具体为以下内容:本专利技术提出的基于可信度自适应匹配网络的跨模态特征匹配方法首先使用注意力模型捕捉词和图像区域的依赖关系,然后使用一种模态的全局信息去监督另外一种模态的局部信息,使得在做相似度估计的时候不遗漏不匹配的关键语义信息;不同于别的方法只用注意力模型来捕捉局部的细粒度关系,本专利技术的方法引入了可信度匹配网络来对这种局部关系的建模方式进行可信度的评价,使得最终的相似度估计能够考虑不配对的语义信息;此外,本专利技术的基于可信度的自适应匹配网络可以构建在不同的局部关系建模模型之上;这里,具体阐述两种:基于图像空间的可信度自适应匹配网络以及基于文本空间的可信度自适应匹配网络;基于图像空间的可信度自适应匹配网络(如图2所示):首先使用注意力模型得到局部关系;具体来说,从S1的跨模态特征表示方法中,得到了图像的区域特征集合V={vi∈Rd|i∈[1,n]}以及文本的词特征集合{tj|j∈[1,m],tj∈Rd},利用cosine函数计算每个区域vi和每个词tj的关系,即sij=cosine(vi,tj);经过规范化后的关系系数为可以给每个vi计算得到文本上下文信息,其中接着,为每个vi定义一个相关性得分,使用文本的全局特征来衡量每个vi的可信度,并把可信度得分加权到相关性得分中来得到最终的相似性估计;vi的可信度可以定义为其中sigmoid是一个带有sigmoid激活函数的门控非线性层;则图像I和文本S的相似度可以为:基于文本空间的可信度自适应匹配网络(如图3所示);首先利用cosine函数计算每个区域vi和每个词tj的关系,即sij=cosine(vi,tj);经过规范化后的关系系数为可以给每个tj计算得到图像上下文信息,其中接着,为每个tj定义一个相关性得分,使用图像的全局特征来衡量每个tj的可信度,并把可信度得分加权到相关性得分中来得到最终的相似性估计;tj的可信度可以定义为其中sigmoid是一个带有sigmoid激活函数的门控非线性层;则图像I和文本S的相似度可以为:S3:模型在训练集上充分训练,具体为以下内容:初始化可信度自适应匹配网络所有可学参数,每次从训练集中随机采样一个128个图像文本对(实际操作时拿到的数据是图像的特征和经过id化后的文本组成的一对数据),组成一个batch数据,输入到可信自适应匹配网络中得到一个128x128维的相似度评分矩阵,矩阵的每个元素表示图像和文本的相似度得分;然后使用基于最难负例的三元组损失函数(tripletloss)训练模型,损失函数中Δ是一个可调参数,默认设置为0.2;网络使用Adam作为优化器进行训练,Flickr30k上学习率设置为2e-4,训练15轮后衰减为2e-5,总共训练30轮;COCO上学习率设置为5e-4,训练10轮后衰减为5e-5,总共训练20轮;
...
【技术保护点】
1.基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于,包括以下步骤:/nS1:给定图像-文本数据集,进行数据准备,包括图像特征抽取以及文本的分词和id表示,具体为以下内容:/n图像特征表示:采用基于深度学习的对象检测模型Faster R-CNN来抽取图像信息;具体来说,将给定图像,I,输入到Faster R-CNN中,Faster R-CNN会自动检测图像中出现实体的区域,通过极大抑制法,抽取了36个区域特征,并通过线性变换得到图像特征表示,用V={v
【技术特征摘要】
1.基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于,包括以下步骤:
S1:给定图像-文本数据集,进行数据准备,包括图像特征抽取以及文本的分词和id表示,具体为以下内容:
图像特征表示:采用基于深度学习的对象检测模型FasterR-CNN来抽取图像信息;具体来说,将给定图像,I,输入到FasterR-CNN中,FasterR-CNN会自动检测图像中出现实体的区域,通过极大抑制法,抽取了36个区域特征,并通过线性变换得到图像特征表示,用V={vi∈Rd|i∈[1,36]}表示,其中每个vi都是一个1024维度的向量;为了便于下文描述,称V为图像的局部特征集,也可以通过平均池化操作得到图像的全局特征,即
文本特征表示:采用双向门控循环单元来抽取每个词的特征;给定含有m个词的文本,Bi-GRU可以从两个方向得到每个词的特征,用和分别表示第j个词的前向特征和后向特征;然后将这两种特征平均得到最终的每个词的特征,用tj来表示,则有用大写T={tj|j∈[1,m],tj∈Rd}表示词特征集合,其中每个tj特征维度是1024;进一步地,将第一个词的后向特征和最后一个词的前向特征平均得到文本特征,即
S2:构建可信度自适应匹配网络模型,具体为以下内容:
本发明提出的基于可信度自适应匹配网络的跨模态特征匹配方法首先使用注意力模型捕捉词和图像区域的依赖关系,然后使用一种模态的全局信息去监督另外一种模态的局部信息,使得在做相似度估计的时候不遗漏不匹配的关键语义信息;不同于别的方法只用注意力模型来捕捉局部的细粒度关系,本发明的方法引入了可信度匹配网络来对这种局部关系的建模方式进行可信度的评价,使得最终的相似度估计能够考虑不配对的语义信息;此外,本发明的基于可信度的自适应匹配网络可以构建在不同的局部关系建模模型之上;这里,具体阐述两种:基于图像空间的可信度自适应匹配网络以及基于文本空间的可信度自适应匹配网络;
基于图像空间的可信度自适应匹配网络:首先使用注意力模型得到局部关系;具体来说,从S1的跨模态特征表示方法中,得到了图像的区域特征集合V={vi∈Rd|i∈[1,n]}以及文本的词特征集合{tj|j∈[1,m],tj∈Rd},利用cosine函数计算每个区域vi和每个词tj的关系,即sij=cosine(vi,tj);经过规范化后的关系系数为可以给每个vi计算得到文本上下文信息,其中接着,为每个vi定义一个相关性得分,使用文本的全局特征来衡量每个vi的可信度,并把可信度得分加权到相关性得分中来得到最终的相似性估计;vi的可信度可以定义为其中sigmoid是一个带有sigmoid激活函数的门控非线性层;则图像I和文本S的相似度可以为:
基于文本空间的可信度自适应匹配网络;首先利用cosine函数计算每个区域vi和每个词tj的关系,即sij=cosine(vi,tj);经过规范化后的关系系数为可以给每个tj计算得到图像上下文信息,其中接着,为每个tj定义一个相关性得分,使用图像的全局特征来衡量每个tj的可信度,并把可信度得分加权到相关性得分中来得到最终的相似性估计;tj的可信度可以定义为其中sigmoid是一个带有sigmoid激活函数的门控非线性层;则图像I和文本S的相似度可以为:
S3:模型在训练集上充分训练,具体为以下内容:
初始化可信度自适应匹配网络所有可学参...
【专利技术属性】
技术研发人员:丁贵广,陈辉,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。