图文匹配方法、装置、设备以及存储介质制造方法及图纸

技术编号：30320862 阅读：14 留言：0更新日期：2021-10-09 23:40

本公开提供一种图文匹配方法、装置、设备以及存储介质，涉及网络信息处理技术领域，以至少解决现有技术中无法准确图文匹配结果的问题。该方法包括：获取待分析图像和待分析文本；将待分析图像和待分析文本输入到预先训练好的图文匹配模型，获取图像模态内特征序列和图像短语序列，以及文本模态内特征序列和文本短语序列；图像模态内特征序列包括待分析图像中多个区域的图像模态内特征；文本模态内特征序列包括与待分析文本中每个词语的文本模态内特征；对图像模态内特征序列、图像短语序列、文本模态内特征序列和文本短语序列进行对齐处理，确定待分析图像和待分析文本的匹配结果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
图文匹配方法、装置、设备以及存储介质

[0001]本公开涉及网络信息处理
，尤其涉及一种图文匹配方法、装置、设备以及存储介质。

技术介绍

[0002]随着多媒体技术的发展，多媒体数据的模态也呈现多种多样的形式，如：图像、文本、音频等。通常，就用户的阅读习惯或浏览习惯而言，图像和文本结合的多媒体数据呈现方式更容易被接受。而图像和文本的结合，则需要以图文匹配为基础。
[0003]现有技术中，图文匹配通常采用以下两种方式实现。第一种是基于图像和文本的全局相似性，得到图像和文本的匹配结果。第二种是基于注意力模型，得到图像和文本匹配结果。但是，第一种基于全局相似性实现，而全局相似性是通过图像和文本的局部聚合得到的，局部聚合的方式将会丢失图像和文本的其它信息，使得匹配结果地准确率较低；第二种方式基于注意力模型，而注意力模型只是将孤立信息进行简单对齐，这样，将忽略了与文本相关的词或者图像中各个区域聚合的结果，使得得到的图像和文本的关系不够全面。因此，如何获得高准确率的图文匹配结果至关重要。

技术实现思路

[0004]本公开提供一种图文匹配方法、装置、设备以及存储介质，以至少解决现有技术中图文匹配准确率低的问题。本公开的技术方案如下：
[0005]根据本公开的第一方面，提供一种图文匹配方法，该图文匹配方法包括：获取待分析图像和待分析文本；将待分析图像和待分析文本输入到预先训练好的图文匹配模型，获取图像模态内特征序列和图像短语序列，以及文本模态内特征序列和文本短语序列；图像模态内特征序列包括待分析...

【技术保护点】

【技术特征摘要】
1.一种图文匹配方法，其特征在于，包括：获取待分析图像和待分析文本；将所述待分析图像和所述待分析文本输入到预先训练好的图文匹配模型，获取图像模态内特征序列和图像短语序列，以及文本模态内特征序列和文本短语序列；所述图像模态内特征序列包括所述待分析图像中多个区域的图像模态内特征；所述文本模态内特征序列包括与所述待分析文本中每个词语的文本模态内特征；对所述图像模态内特征序列、所述图像短语序列、所述文本模态内特征序列和所述文本短语序列进行对齐处理，确定所述待分析图像和所述待分析文本的匹配结果。2.根据权利要求1所述的图文匹配方法，其特征在于，所述获取图像模态内特征序列和图像短语序列，包括：对所述待分析图像进行特征提取，得到多个区域中每个区域的区域特征；对所述每个区域的区域特征进行第一全连接处理，得到所述每个区域对应的图像特征；对所述图像特征序列进行第一注意力处理和第一前向反馈处理，得到所述图像模态内特征序列；所述图像特征序列包括所述每个区域对应的图像特征；对所述图像模态内特征序列进行第二注意力处理，得到第一特征序列；循环执行第一操作，得到多个图像短语，并生成包括多个图像短语的所述图像短语序列；所述第一操作为：对目标图像短语和所述第一特征序列进行第三注意力处理和第二前向反馈处理，得到一个图像短语；首次执行第一操作时，目标图像短语是预设图像短语；非首次执行所述第一操作时，目标图像短语是上一次得到的图像短语。3.根据权利要求1所述的图文匹配方法，其特征在于，所述获取文本模态内特征序列和文本短语序列，包括：对所述待分析文本中的每个词语进行第一编码处理，得到所述每个词语的文本特征；对所述文本特征序列进行第二编码处理、第二全连接处理和第一归一处理，得到所述文本模态内特征序列；所述文本模态内特征序列包括多个模态内特征；一个模态内特征对应一个词语；所述文本特征序列包括所述每个词语的文本特征；对所述文本模态内特征序列进行卷积处理、池化处理和第三全连接处理，得到文本全局特征；循环执行第二操作，得到多个文本短语，并生成包括多个文本短语的所述文本短语序列；所述第二操作为：对目标文本短语、所述文本全局特征和所述文本模态内特征序列进行第一数据处理，得到一个文本短语；首次执行第二操作时，目标文本短语是预设文本短语；非首次执行所述第二操作时，目标文本短语是上一次得到的文本短语。4.根据权利要求1所述的图文匹配方法，其特征在于，所述对所述图像模态内特征序列、所述图像短语序列、所述文本模态内特征序列和所述文本短语...

【专利技术属性】
技术研发人员：陈益如，丁文奎，魏曦，张天柱，张勇东，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人