图文匹配方法、装置、设备以及存储介质制造方法及图纸

技术编号:30320862 阅读:14 留言:0更新日期:2021-10-09 23:40
本公开提供一种图文匹配方法、装置、设备以及存储介质,涉及网络信息处理技术领域,以至少解决现有技术中无法准确图文匹配结果的问题。该方法包括:获取待分析图像和待分析文本;将待分析图像和待分析文本输入到预先训练好的图文匹配模型,获取图像模态内特征序列和图像短语序列,以及文本模态内特征序列和文本短语序列;图像模态内特征序列包括待分析图像中多个区域的图像模态内特征;文本模态内特征序列包括与待分析文本中每个词语的文本模态内特征;对图像模态内特征序列、图像短语序列、文本模态内特征序列和文本短语序列进行对齐处理,确定待分析图像和待分析文本的匹配结果。果。果。

【技术实现步骤摘要】
图文匹配方法、装置、设备以及存储介质


[0001]本公开涉及网络信息处理
,尤其涉及一种图文匹配方法、装置、设备以及存储介质。

技术介绍

[0002]随着多媒体技术的发展,多媒体数据的模态也呈现多种多样的形式,如:图像、文本、音频等。通常,就用户的阅读习惯或浏览习惯而言,图像和文本结合的多媒体数据呈现方式更容易被接受。而图像和文本的结合,则需要以图文匹配为基础。
[0003]现有技术中,图文匹配通常采用以下两种方式实现。第一种是基于图像和文本的全局相似性,得到图像和文本的匹配结果。第二种是基于注意力模型,得到图像和文本匹配结果。但是,第一种基于全局相似性实现,而全局相似性是通过图像和文本的局部聚合得到的,局部聚合的方式将会丢失图像和文本的其它信息,使得匹配结果地准确率较低;第二种方式基于注意力模型,而注意力模型只是将孤立信息进行简单对齐,这样,将忽略了与文本相关的词或者图像中各个区域聚合的结果,使得得到的图像和文本的关系不够全面。因此,如何获得高准确率的图文匹配结果至关重要。

技术实现思路

[0004]本公开提供一种图文匹配方法、装置、设备以及存储介质,以至少解决现有技术中图文匹配准确率低的问题。本公开的技术方案如下:
[0005]根据本公开的第一方面,提供一种图文匹配方法,该图文匹配方法包括:获取待分析图像和待分析文本;将待分析图像和待分析文本输入到预先训练好的图文匹配模型,获取图像模态内特征序列和图像短语序列,以及文本模态内特征序列和文本短语序列;图像模态内特征序列包括待分析图像中多个区域的图像模态内特征;文本模态内特征序列包括与待分析文本中每个词语的文本模态内特征;对图像模态内特征序列、图像短语序列、文本模态内特征序列和文本短语序列进行对齐处理,确定待分析图像和待分析文本的匹配结果。
[0006]可选的,获取图像模态内特征序列和图像短语序列,包括:对待分析图像进行特征提取,得到多个区域中每个区域的区域特征;对每个区域的区域特征进行第一全连接处理,得到每个区域对应的图像特征;对图像特征序列进行第一注意力处理和第一前向反馈处理,得到图像模态内特征序列;图像特征序列包括每个区域对应的图像特征;对图像模态内特征序列进行第二注意力处理,得到第一特征序列;循环执行第一操作,得到多个图像短语,并生成包括多个图像短语的图像短语序列;第一操作为:对目标图像短语和第一特征序列进行第三注意力处理和第二前向反馈处理,得到一个图像短语;首次执行第一操作时,目标图像短语是预设图像短语;非首次执行第一操作时,目标图像短语是上一次得到的图像短语。
[0007]可选的,获取文本模态内特征序列和文本短语序列,包括:对待分析文本中的每个
词语进行第一编码处理,得到每个词语的文本特征;对文本特征序列进行第二编码处理、第二全连接处理和第一归一处理,得到文本模态内特征序列;文本模态内特征序列包括多个模态内特征;一个模态内特征对应一个词语;文本特征序列包括每个词语的文本特征;对文本模态内特征序列进行卷积处理、池化处理和第三全连接处理,得到文本全局特征;循环执行第二操作,得到多个文本短语,并生成包括多个文本短语的文本短语序列;第二操作为:对目标文本短语、文本全局特征和文本模态内特征序列进行第一数据处理,得到一个文本短语;首次执行第二操作时,目标文本短语是预设文本短语;非首次执行第二操作时,目标文本短语是上一次得到的文本短语。
[0008]可选的,对图像模态内特征序列、图像短语序列、文本模态内特征序列和文本短语序列进行对齐处理,得到待分析图像和待分析文本的匹配结果,包括:确定待分析图像和待分析文本对应的全局对齐向量和局部对齐向量序列;根据全局对齐向量和局部对齐向量序列,创建构造图;对构造图进行图卷积处理,得到卷积后的构造图;对卷积后的构造图中的全局对齐向量进行第四全连接处理,得到匹配结果。
[0009]可选的,确定图像数据和待分析文本对应的全局对齐向量,包括:生成包含有图像模态内特征序列和图像短语序列的图像合并序列;对文本全局特征和图像合并序列进行第二数据处理,得到全局对齐向量。
[0010]可选的,确定图像数据和待分析文本对应的局部对齐向量序列,包括:生成包含有图像模态内特征序列和图像短语序列的图像合并序列;生成包含有文本模态内特征序列和文本短语序列的文本合并序列;对图像合并序列和文本合并序列进行相似度处理、第三归一处理和第三数据处理,得到局部对齐向量序列。
[0011]可选的,该图文匹配方法,还包括:确定第一参数、第二参数和第三参数,第一参数为待分析图像和待分析文本的标准匹配结果,第二参数为待分析图像和与待分析图像最不匹配的待分析文本的匹配结果,第三参数为待分析文本和与待分析文本最不匹配的待分析图像的匹配结果;根据第一参数、第二参数和第三参数,确定损失值;根据损失值对训练模型进行训练,以调整训练模型的参数,得到图文匹配模型。
[0012]根据本公开的第二方面,提供一种图文匹配装置,该图文匹配装置包括获取模块和处理模块。获取模块,被配置为获取待分析图像和待分析文本;处理模块,被配置为将待分析图像和待分析文本输入到预先训练好的图文匹配模型,获取图像模态内特征序列和图像短语序列,以及文本模态内特征序列和文本短语序列;图像模态内特征序列包括待分析图像中多个区域的图像模态内特征;文本模态内特征序列包括与待分析文本中每个词语的文本模态内特征;处理模块,还被配置为对图像模态内特征序列、图像短语序列、文本模态内特征序列和文本短语序列进行对齐处理,确定待分析图像和待分析文本的匹配结果。
[0013]可选的,处理模块,还被配置为对待分析图像进行特征提取,得到多个区域中每个区域的区域特征;处理模块,还被配置为对每个区域的区域特征进行第一全连接处理,得到每个区域对应的图像特征;处理模块,还被配置为对图像特征序列进行第一注意力处理和第一前向反馈处理,得到图像模态内特征序列;图像特征序列包括每个区域对应的图像特征;处理模块,还被配置为对图像模态内特征序列进行第二注意力处理,得到第一特征序列;处理模块,还被配置为循环执行第一操作,得到多个图像短语,并生成包括多个图像短语的图像短语序列;第一操作为:对目标图像短语和第一特征序列进行第三注意力处理和
第二前向反馈处理,得到一个图像短语;首次执行第一操作时,目标图像短语是预设图像短语;非首次执行第一操作时,目标图像短语是上一次得到的图像短语。
[0014]可选的,处理模块,还被配置为对待分析文本中的每个词语进行第一编码处理,得到每个词语的文本特征;处理模块,还被配置为对文本特征序列进行第二编码处理、第二全连接处理和第一归一处理,得到文本模态内特征序列;文本模态内特征序列包括多个模态内特征;一个模态内特征对应一个词语;文本特征序列包括每个词语的文本特征;处理模块,还被配置为对文本模态内特征序列进行卷积处理、池化处理和第三全连接处理,得到文本全局特征;处理模块,还被配置为循环执行第二操作,得到多个文本短语,并生成包括多个文本短语的文本短语序列;第二操作为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图文匹配方法,其特征在于,包括:获取待分析图像和待分析文本;将所述待分析图像和所述待分析文本输入到预先训练好的图文匹配模型,获取图像模态内特征序列和图像短语序列,以及文本模态内特征序列和文本短语序列;所述图像模态内特征序列包括所述待分析图像中多个区域的图像模态内特征;所述文本模态内特征序列包括与所述待分析文本中每个词语的文本模态内特征;对所述图像模态内特征序列、所述图像短语序列、所述文本模态内特征序列和所述文本短语序列进行对齐处理,确定所述待分析图像和所述待分析文本的匹配结果。2.根据权利要求1所述的图文匹配方法,其特征在于,所述获取图像模态内特征序列和图像短语序列,包括:对所述待分析图像进行特征提取,得到多个区域中每个区域的区域特征;对所述每个区域的区域特征进行第一全连接处理,得到所述每个区域对应的图像特征;对所述图像特征序列进行第一注意力处理和第一前向反馈处理,得到所述图像模态内特征序列;所述图像特征序列包括所述每个区域对应的图像特征;对所述图像模态内特征序列进行第二注意力处理,得到第一特征序列;循环执行第一操作,得到多个图像短语,并生成包括多个图像短语的所述图像短语序列;所述第一操作为:对目标图像短语和所述第一特征序列进行第三注意力处理和第二前向反馈处理,得到一个图像短语;首次执行第一操作时,目标图像短语是预设图像短语;非首次执行所述第一操作时,目标图像短语是上一次得到的图像短语。3.根据权利要求1所述的图文匹配方法,其特征在于,所述获取文本模态内特征序列和文本短语序列,包括:对所述待分析文本中的每个词语进行第一编码处理,得到所述每个词语的文本特征;对所述文本特征序列进行第二编码处理、第二全连接处理和第一归一处理,得到所述文本模态内特征序列;所述文本模态内特征序列包括多个模态内特征;一个模态内特征对应一个词语;所述文本特征序列包括所述每个词语的文本特征;对所述文本模态内特征序列进行卷积处理、池化处理和第三全连接处理,得到文本全局特征;循环执行第二操作,得到多个文本短语,并生成包括多个文本短语的所述文本短语序列;所述第二操作为:对目标文本短语、所述文本全局特征和所述文本模态内特征序列进行第一数据处理,得到一个文本短语;首次执行第二操作时,目标文本短语是预设文本短语;非首次执行所述第二操作时,目标文本短语是上一次得到的文本短语。4.根据权利要求1所述的图文匹配方法,其特征在于,所述对所述图像模态内特征序列、所述图像短语序列、所述文本模态内特征序列和所述文本短语...

【专利技术属性】
技术研发人员:陈益如丁文奎魏曦张天柱张勇东
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1