一种多模态图文匹配模型及其构建方法、装置及应用制造方法及图纸

技术编号：37221610 阅读：21 留言：0更新日期：2023-04-20 23:07

本方案提出了一种多模态图文匹配模型及其构建方法、装置及应用，包括以下步骤：获取至少一组图像数据与文本数据标注后送入多模态图文匹配模型中；所述多模态图文匹配模型由特征提取层、多模态特征交互层和特征对齐层组成，特征提取层对图像数据与文本数据进行特征提取得到图像特征、文本特征；将图像特征与文本特征进行特征交互并计算之间的相似度得到第一相似度、第二相似度；使用第二相似度对第一相似度进行偏差校验完成模型的构建。本方案可以对图文数据进行匹配，且计算量小、精准度高。高。高。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态图文匹配模型及其构建方法、装置及应用

[0001]本申请涉及图像处理、机器学习领域，特别是涉及一种多模态图文匹配模型及其构建方法、装置及应用。

技术介绍

[0002]在城市市容治理的过程中由于不同的信息收集渠道会产生大量的图像或者文本的案卷数据，这些图像数据和文本数据是存在互相关联的，如何在城市治理过程中将图像数据和文本数据进行有效关联以用来从而给基层治理提供参考，提升城市治理水平是现有技术没办法解决的，此外，图像数据与文本数据的规模庞大，给数据分析和数据管理带来了较大压力。
[0003]目前将图像数据和文本数据进行关联匹配主要是基于多模态的图文匹配技术，将多种单模态的特征直接进行拼接，然后送入transformer进行自注意力和交叉注意力的多模态特征学习，这种直接在多模态上做特征交互的方式计算及其复杂，极大的增加了模型的计算量使得模型收敛缓慢难以学习；或者是直接将图像编码器作为切入点，使用图像检测器提取图像数据的目标特征或者感兴趣区域之后直接与文本特征进行特征对齐，此类方法在使用图像检测器提取图像中所有可能的目标特征时，会使得最后提取的特征包含许多与文本特征无关的信息，而使用目标检测器提取感兴趣区域之后再与文本特征进行匹配则会丢失与文本特征对齐图像中的目标细粒度特征，以上这些问题会造成多模态图文关联匹配的准确率较低，所以，亟需一种匹配准确率高的多模态图文匹配方法。

技术实现思路

[0004]本申请方案提供一种多模态图文匹配模型及其构建方法、装置及应用，可以高准确率的进行图文匹配，且...

【技术保护点】

【技术特征摘要】
1.一种多模态图文匹配模型的构建方法，其特征在于，包括以下步骤：获取至少一组图像数据与文本数据，对相匹配的图像数据与文本数据进行标记，构建一个多模态图文匹配模型，将标注好的图像数据与文本数据作为训练样本送入所述多模态图文匹配模型中；所述多模态图文匹配模型由特征提取层、多模态特征交互层和特征对齐层组成，将所述图像数据输入到特征提取层得到图像特征，对所述文本数据进行预处理得到预处理文本数据，将文本数据输入到特征提取层得到文本特征，将所述预处理文本数据输入到特征提取层得到预处理文本特征；将所述文本特征与所述图像特征输入到所述多模态特征交互层中，在所述多模态特征交互层中生成一个特征交互嵌入向量，将所述文本特征与所述图像特征分别与所述特征交互嵌入向量进行拼接得到拼接文本特征与拼接图像特征，再将所述拼接文本特征与所述拼接图像特征进行交互学习得到交互文本特征与交互图像特征；计算交互文本特征与图像特征之间的相似度得到第一相似度，计算交互图像特征与预处理文本特征之间的相似度得到第二相似度，使用所述第二相似度与所述第一相似度进行偏差校验得到偏差损失，再获取图像特征与文本特征之间的相似度损失，使用所述偏差损失与所述相似度损失对所述多模态图文匹配模型进行收敛完成模型的构建。2.根据权利要求1所述的一种多模态图文匹配模型的构建方法，其特征在于，所述特征提取层包括文本编码器与图像编码器，所述文本编码器分别对所述文本数据与预处理文本数据进行编码得到文本特征与预处理文本特征，所述图像编码器先将图像数据分割成多块编码区域，并提取出多块编码区域中感兴趣区域的编码特征，将每一感兴趣区域的编码特征利用均值池化和尺度变换操作得到图像特征。3.根据权利要求1所述的一种多模态图文匹配模型的构建方法，其特征在于，在“在所述多模态特征交互层中生成一个特征交互嵌入向量”步骤中，使用线性映射层的方式生成所述特征交互嵌入向量，所述特征交互嵌入向量的维度小于文本特征和图像特征，将所述特征交互嵌入向量作为共享向量与所述文本特征和图像特征进行多模态交互学习。4.根据权利要求1所述的一种多模态图文匹配模型的构建方法，其特征在于，在“将所述文本特征与所述图像特征分别与所述特征交互嵌入向量进行拼接得到拼接文本特征与拼接图像特征”步骤中，在所述多模态特征交互层中包含transformer网络层，使用transformer网络层的自注意力机制对与所述特征交互嵌入向量拼接的文本特征中的token信息进行建模，再将建模后的所有token信息进行拼接得到拼接文本特征，使用transformer网络的自注意力机制对与所述特征交互嵌入向量拼接的图像特征中的token信息进行建模，再将建模后的所有token信息进行拼接得到拼接图像特征。5.根据权利要求1所述的一种多模态图文匹配模型的构建方法，其特征在于，在“将所述拼接文本特征与所述拼接图像特征进行交互学习得到交互文本特征与交互图像特征”步骤中，在所述多模态特征交互层中包含transformer网络层，使用transformer网络层的自注意力机制对所述拼接文本特征与所述拼接图像特征进行特征交互学习，得到交互文本特征与交互图像特征。6.根据权利要求1所述的一种多模态图文匹配模型的构建方法，其特征在于，在“计算交互文本特征与图像特征之间的相似度得到第一相似度”步骤中，定义一个相似度度量公
式，使用所述相似度度量公式计算图像特征的区域特征与交互文本特征的关联度得到多个相似度特征，将相似度特征作为图像计算...

【专利技术属性】
技术研发人员：葛俊，彭大蒙，曹喆，张香伟，陈思瑶，
申请(专利权)人：城云科技中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人