一种多模态图文匹配模型及其构建方法、装置及应用制造方法及图纸

技术编号:37221610 阅读:21 留言:0更新日期:2023-04-20 23:07
本方案提出了一种多模态图文匹配模型及其构建方法、装置及应用,包括以下步骤:获取至少一组图像数据与文本数据标注后送入多模态图文匹配模型中;所述多模态图文匹配模型由特征提取层、多模态特征交互层和特征对齐层组成,特征提取层对图像数据与文本数据进行特征提取得到图像特征、文本特征;将图像特征与文本特征进行特征交互并计算之间的相似度得到第一相似度、第二相似度;使用第二相似度对第一相似度进行偏差校验完成模型的构建。本方案可以对图文数据进行匹配,且计算量小、精准度高。高。高。

【技术实现步骤摘要】
一种多模态图文匹配模型及其构建方法、装置及应用


[0001]本申请涉及图像处理、机器学习领域,特别是涉及一种多模态图文匹配模型及其构建方法、装置及应用。

技术介绍

[0002]在城市市容治理的过程中由于不同的信息收集渠道会产生大量的图像或者文本的案卷数据,这些图像数据和文本数据是存在互相关联的,如何在城市治理过程中将图像数据和文本数据进行有效关联以用来从而给基层治理提供参考,提升城市治理水平是现有技术没办法解决的,此外,图像数据与文本数据的规模庞大,给数据分析和数据管理带来了较大压力。
[0003]目前将图像数据和文本数据进行关联匹配主要是基于多模态的图文匹配技术,将多种单模态的特征直接进行拼接,然后送入transformer进行自注意力和交叉注意力的多模态特征学习,这种直接在多模态上做特征交互的方式计算及其复杂,极大的增加了模型的计算量使得模型收敛缓慢难以学习;或者是直接将图像编码器作为切入点,使用图像检测器提取图像数据的目标特征或者感兴趣区域之后直接与文本特征进行特征对齐,此类方法在使用图像检测器提取图像中所有可能的目标特征时,会使得最后提取的特征包含许多与文本特征无关的信息,而使用目标检测器提取感兴趣区域之后再与文本特征进行匹配则会丢失与文本特征对齐图像中的目标细粒度特征,以上这些问题会造成多模态图文关联匹配的准确率较低,所以,亟需一种匹配准确率高的多模态图文匹配方法。

技术实现思路

[0004]本申请方案提供一种多模态图文匹配模型及其构建方法、装置及应用,可以高准确率的进行图文匹配,且计算量小。
[0005]第一方面,本申请提供一种多模态图文匹配模型的构建方法,包括以下步骤:
[0006]获取至少一组图像数据与文本数据,对相匹配的图像数据与文本数据进行标记,构建一个多模态图文匹配模型,将标注好的图像数据与文本数据作为训练样本送入所述多模态图文匹配模型中;
[0007]所述多模态图文匹配模型由特征提取层、多模态特征交互层和特征对齐层组成,将所述图像数据输入到特征提取层得到图像特征,对所述文本数据进行预处理得到预处理文本数据,将文本数据输入到特征提取层得到文本特征,将所述预处理文本数据输入到特征提取层得到预处理文本特征;
[0008]将所述文本特征与所述图像特征输入到所述多模态特征交互层中,在所述多模态特征交互层中生成一个特征交互嵌入向量,将所述文本特征与所述图像特征分别与所述特征交互嵌入向量进行拼接得到拼接文本特征与拼接图像特征,再将所述拼接文本特征与所述拼接图像特征进行交互学习得到交互文本特征与交互图像特征;
[0009]计算交互文本特征与图像特征之间的相似度得到第一相似度,计算交互图像特征
与预处理文本特征之间的相似度得到第二相似度,使用所述第二相似度与所述第一相似度进行偏差校验得到偏差损失,再获取图像特征与文本特征之间的相似度损失,使用所述偏差损失与所述相似度损失对所述多模态图文匹配模型进行收敛完成模型的构建。
[0010]第二方面,本申请提出一种多模态图文匹配模型,使用第一方面所述的方法进行构建得到。
[0011]第三方面,本申请提出一种多模态图文匹配方法,包括以下步骤:
[0012]获取待匹配图像数据和待匹配文本数据,将所述待匹配图像数据与待匹配文本数据输入到构建好的多模态图文匹配模型中,所述多模态图文匹配模型中的特征提取层对待匹配图像数据进行特征提取得到图像特征,对所述待匹配文本数据进行预处理得到预处理文本数据,将所述文本数据与所述预处理文本数据输入到特征提取层得到文本特征和预处理文本特征;
[0013]将所述文本特征与所述图像特征输入到多模态图文匹配模型的多模态特征交互层中,在所述多模态特征交互层中生成一个特征交互嵌入向量,将所述文本特征与所述图像特征分别与所述特征交互嵌入向量进行拼接得到拼接文本特征与拼接图像特征,再将所述拼接文本特征与所述拼接特征进行交互学习得到交互文本特征与交互图像特征;
[0014]计算所述交互文本特征与图像特征之间的相似度得到第一相似度,计算交互图像特征与预处理文本特征之间的相似度得到第二相似度,根据第一相似度和第二相似度进行特征对齐得到图文匹配结果。
[0015]第四方面,本申请提出一种多模态图文匹配模型的构建装置,包括:
[0016]获取模块:获取至少一组图像数据与文本数据,对相匹配的图像数据与文本数据进行标记,构建一个多模态图文匹配模型,将标注好的图像数据与文本数据作为训练样本送入所述多模态图文匹配模型中;
[0017]第一计算模块:所述多模态图文匹配模型由特征提取层、多模态特征交互层和特征对齐层组成,将所述图像数据输入到特征提取层得到图像特征,对所述文本数据进行预处理得到预处理文本数据,将文本数据输入到特征提取层得到文本特征,将所述预处理文本数据输入到特征提取层得到预处理文本特征;
[0018]第二计算模块:将所述文本特征与所述图像特征输入到所述多模态特征交互层中,在所述多模态特征交互层中生成一个特征交互嵌入向量,将所述文本特征与所述图像特征分别与所述特征交互嵌入向量进行拼接得到拼接文本特征与拼接图像特征,再将所述拼接文本特征与所述拼接图像特征进行交互学习得到交互文本特征与交互图像特征;
[0019]校验模块:计算交互文本特征与图像特征之间的相似度得到第一相似度,计算交互图像特征与预处理文本特征之间的相似度得到第二相似度,使用所述第二相似度与所述第一相似度进行偏差校验得到偏差损失,再获取图像特征与文本特征之间的相似度损失,使用所述偏差损失与所述相似度损失对所述多模态图文匹配模型进行收敛完成模型的构建。
[0020]第五方面,本申请提出一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种多模态图文匹配模型的构建方法或一种多模态图文匹配方法。
[0021]第六方面,本申请提出一种可读存储介质,所述可读存储介质中存储有计算机程
序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括一种多模态图文匹配模型的构建方法或一种多模态图文匹配方法。
[0022]相较现有技术,本技术方案具有以下特点和有益效果:
[0023]本方案在多模态特征交互层中生成一个特征交互嵌入向量,利用特征交互嵌入向量协助文本数据与图像数据两种模态的数据进行交互,计算时单个模态只与学习中间输入的神经元去计算,从而达到减少计算量的效果;本方案采用构建相似度度量公式的方法计算图像特征与文本特征之间的相似度,提高文本中关键词汇在对齐图像特征中的相似度权值,提高多模态之间重要特征关联程度,同时降低文本中无效词汇在特征对齐中的影响;本方案采用预处理文本特征与交互图像特征中存在非相似特征的概率作为惩罚系数来对模型的参数进行纠偏,进一步提高图文匹配的准确率。
[0024]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态图文匹配模型的构建方法,其特征在于,包括以下步骤:获取至少一组图像数据与文本数据,对相匹配的图像数据与文本数据进行标记,构建一个多模态图文匹配模型,将标注好的图像数据与文本数据作为训练样本送入所述多模态图文匹配模型中;所述多模态图文匹配模型由特征提取层、多模态特征交互层和特征对齐层组成,将所述图像数据输入到特征提取层得到图像特征,对所述文本数据进行预处理得到预处理文本数据,将文本数据输入到特征提取层得到文本特征,将所述预处理文本数据输入到特征提取层得到预处理文本特征;将所述文本特征与所述图像特征输入到所述多模态特征交互层中,在所述多模态特征交互层中生成一个特征交互嵌入向量,将所述文本特征与所述图像特征分别与所述特征交互嵌入向量进行拼接得到拼接文本特征与拼接图像特征,再将所述拼接文本特征与所述拼接图像特征进行交互学习得到交互文本特征与交互图像特征;计算交互文本特征与图像特征之间的相似度得到第一相似度,计算交互图像特征与预处理文本特征之间的相似度得到第二相似度,使用所述第二相似度与所述第一相似度进行偏差校验得到偏差损失,再获取图像特征与文本特征之间的相似度损失,使用所述偏差损失与所述相似度损失对所述多模态图文匹配模型进行收敛完成模型的构建。2.根据权利要求1所述的一种多模态图文匹配模型的构建方法,其特征在于,所述特征提取层包括文本编码器与图像编码器,所述文本编码器分别对所述文本数据与预处理文本数据进行编码得到文本特征与预处理文本特征,所述图像编码器先将图像数据分割成多块编码区域,并提取出多块编码区域中感兴趣区域的编码特征,将每一感兴趣区域的编码特征利用均值池化和尺度变换操作得到图像特征。3.根据权利要求1所述的一种多模态图文匹配模型的构建方法,其特征在于,在“在所述多模态特征交互层中生成一个特征交互嵌入向量”步骤中,使用线性映射层的方式生成所述特征交互嵌入向量,所述特征交互嵌入向量的维度小于文本特征和图像特征,将所述特征交互嵌入向量作为共享向量与所述文本特征和图像特征进行多模态交互学习。4.根据权利要求1所述的一种多模态图文匹配模型的构建方法,其特征在于,在“将所述文本特征与所述图像特征分别与所述特征交互嵌入向量进行拼接得到拼接文本特征与拼接图像特征”步骤中,在所述多模态特征交互层中包含transformer网络层,使用transformer网络层的自注意力机制对与所述特征交互嵌入向量拼接的文本特征中的token信息进行建模,再将建模后的所有token信息进行拼接得到拼接文本特征,使用transformer网络的自注意力机制对与所述特征交互嵌入向量拼接的图像特征中的token信息进行建模,再将建模后的所有token信息进行拼接得到拼接图像特征。5.根据权利要求1所述的一种多模态图文匹配模型的构建方法,其特征在于,在“将所述拼接文本特征与所述拼接图像特征进行交互学习得到交互文本特征与交互图像特征”步骤中,在所述多模态特征交互层中包含transformer网络层,使用transformer网络层的自注意力机制对所述拼接文本特征与所述拼接图像特征进行特征交互学习,得到交互文本特征与交互图像特征。6.根据权利要求1所述的一种多模态图文匹配模型的构建方法,其特征在于,在“计算交互文本特征与图像特征之间的相似度得到第一相似度”步骤中,定义一个相似度度量公
式,使用所述相似度度量公式计算图像特征的区域特征与交互文本特征的关联度得到多个相似度特征,将相似度特征作为图像计算...

【专利技术属性】
技术研发人员:葛俊彭大蒙曹喆张香伟陈思瑶
申请(专利权)人:城云科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1