双引擎驱动的多模态数据检索方法、设备及系统技术方案

技术编号:35920943 阅读:19 留言:0更新日期:2022-12-10 11:05
本发明专利技术公开了一种双引擎驱动的多模态数据检索方法、设备及系统,属于多模态数据综合检索领域,包括步骤:S1,以多模态数据为输入,判断多模态数据的语义标签,构建语义标签库;构建统一特征空间,提取不同模态数据在同一特征空间下的特征向量,构建特征向量库;S2,以多模态检索条件为输入,通过多模态数据智能处理方法分别得到检索条件的语义标签和特征向量,基于语义标签库和特征向量库,利用跨模态语义标签检索引擎和跨模态特征向量检索引擎在多模态数据库中完成符合检索条件的多模态数据的查询,经过排序后推送搜索结果。本发明专利技术支持一种模态数据输入检索出包含结果的所有模态数据,能够有效实现不同类型数据中查询结果的全面精准召回。全面精准召回。全面精准召回。

【技术实现步骤摘要】
双引擎驱动的多模态数据检索方法、设备及系统


[0001]本专利技术涉及多模态数据综合检索
,更为具体的,涉及一种双引擎驱动的多模态数据检索方法、设备及系统。

技术介绍

[0002]随着互联网上数据规模的不断壮大,数据类型越来越呈现多样化的特点,用户感兴趣的数据模态不再单一,用户的检索需求也越来越呈现出从单一模态到跨模态的发展态势。模态是指数据的表达形式,包括文本、图像、视频和音频等。近年来,用户通常希望以适合自己的方式来获得需求的数据。传统的单模态检索无法解决二者的兼容问题,因为它们只能以相同的方式返回原始数据进行查询,不能满足检索需求。多模态检索可以利用各类数据查询不同形式的信息,执行多模态检索的关键问题是需要考虑到不同形式的数据之间的语义相似性。
[0003]多模态检索是建立不同模态的网络结构,以实现不同模态数据之间的检索,查询和检索结果的模态不一定相同,例如通过图像检索文本、通过音频检索视频等等。与传统的多模态检索不同,现有关于多模态检索的研究关键是将不同模态的数据映射到公共空间并在两者之间建立关系模型。多模态检索研究面临的主要问题是如何填补不同模态数据之间的“语义鸿沟”,以建立多模态数据的通用表示。
[0004]目前,多模态检索大体上分为两种方法,一种是语义标签检索,通过识别文本、图像、视频、音频等不同模态数据,给出文本语义标签并通过哈希编码进行存储,通过对查询条件解析,得到查询条件中的隐含标签信息到库中进行标签查询,进而得到不同模态的检索结果;另一种是特征向量检索,通过将文本、图像、视频、音频等不同模态数据进行特征提取转换为特征向量进行存储,查询时将查询条件也转化为特征向量,通过特征向量的相似度计算得到不同模态的检索结果。
[0005]语义标签检索是目前较为成熟的多模态检索方法。语义信息是查询时保留下来的重要信息,不同形式的数据具有不同的特征空间,但它们拥有相同的语义空间,具有相同语义的数据在各种模态下的形式都具有关联性。语义信息不仅可以用于表示多模态之间的关联程度,而且可以表示各个模态内部的联系。为了获得良好的检索结果,可以利用嵌入方法同时保留语义和原始特征信息。有学者提出潜在的语义稀疏散列方法,该方法结合稀疏编码和矩阵分解来获得潜在的共享语义空间。在深度方法中,通常用卷积神经网络来生成图像,而语义部分则将每个单词进行特征嵌入,并通过文字CNN或递归神经网络来生成文本。语义信息的缺乏导致检索结果有限。部分回归方法专注于保留语义信息。而忽略了多模态信息中各标签之间的相关性。此外,它们将公共空间固定为标签空间,在数据规模较大时效率较低。
[0006]向量检索是在一个给定向量数据集合中,检索出与查询向量最相近的Top k个向量。向量检索的核心问题是如何将不同模态的数据映射到一个统一的特征空间。多模态联合表示是解决这一问题的有效手段。多模态学习是利用多模态数据,挖掘模态之间的关联
性,并为每个模态提取更具有判别性的特征表示建立相关模型。传统的多模态表示大多简单拼接各模态特征,忽略了模态之间的关联信息。多模态学习方法可以分为基于协同训练的方法和基于协同正则化的方法。通过多模态学习可以获得文本、图像、音频、视频等模态数据的统一特征空间,可通过向量相似度计算召回最相近的结果。向量检索在检索的准确度上更多地依赖联合特征表示的质量。
[0007]目前来看,基于语义标签的多模态检索技术较为成熟,但在场景、事件相关的多模态检索结果上存在不足;基于特征向量的多模态检索技术近几年应用广泛,但对实体类多模态检索结果的准确度还需进一步提高。

技术实现思路

[0008]本专利技术的目的在于克服现有技术的不足,提供一种双引擎驱动的多模态数据检索方法、设备及系统,支持文本、图像、视频、音频中的一种模态数据输入检索出包含结果的所有模态数据,能够有效实现文本、图像、音频、视频等不同类型数据中查询结果的全面精准召回。
[0009]本专利技术的目的是通过以下方案实现的:
[0010]一种双引擎驱动的多模态数据检索方法,包括如下步骤:
[0011]S1,多模态数据智能处理:多模态智能识别,以多模态数据为输入,通过智能识别方法判断多模态数据的语义标签,并通过倒排索引方法构建语义标签库;多模态特征提取,构建统一特征空间,提取不同模态数据在同一特征空间下的特征向量,并构建特征向量库;
[0012]S2,双引擎跨模态检索:以多模态检索条件为输入,通过多模态数据智能处理方法分别得到检索条件的语义标签和特征向量,基于语义标签库和特征向量库,利用跨模态语义标签检索引擎和跨模态特征向量检索引擎在多模态数据库中完成符合检索条件的多模态数据的查询,经过排序后推送搜索结果。
[0013]进一步地,所述跨模态语义标签检索引擎,包括倒排索引构建步骤和语义标签式查询步骤;
[0014]倒排索引构建通过标签词典构建、倒排列表构建方法形成倒排索引表;
[0015]语义标签式查询以倒排索引表为基础,结合步骤S1中多模态数据智能处理获得查询条件的语义标签,通过标签哈希编码和标签比对,完成与查询条件相符合的多模态数据搜索。
[0016]进一步地,所述跨模态特征向量检索引擎,包括分层可导航图构建步骤和特征向量式查询步骤;
[0017]分层可导航图构建通过近邻节点数设置、底层近邻图构建、节点层次计算、顶层近邻图构建方法,形成分层导航图,为快速的特征向量检索提供基础;
[0018]特征向量式查询以分层可导航图为基础,结合步骤S1中多模态数据智能处理获得查询条件的特征向量,从最顶层开始通过特征向量相似度比对查找到最近节点,并按照连接距离逐渐减小的规则逐层向下查询,完成与查询条件最相似的多模态数据搜索。
[0019]进一步地,在步骤S1中,所述多模态数据包括文本、图像、视频和音频。
[0020]进一步地,在步骤S1中,所述智能识别方法包括基于深度神经网络的智能识别方法。
[0021]进一步地,在步骤S1中,所述智能识别方法包括关键帧提取方法、目标检测方法、目标识别方法、文字识别方法、实体识别方法和语音识别方法。
[0022]进一步地,在步骤S1中,通过联合特征提取方法构建统一特征空间;通过分层可导航小世界图方法构建特征向量库。
[0023]进一步地,在步骤S1中,所述多模态特征提取首先通过对比学习方法构建联合表示模型,形成多模态数据统一特征空间,对多模态数据完成特征向量提取,并存储在特征向量库中。
[0024]一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载并执行如上任一项所述的方法。
[0025]一种双引擎驱动的多模态数据检索系统,包括如上所述的计算机设备。
[0026]本专利技术的有益效果包括:
[0027](1)本专利技术技术方案实现了多源异构数据下的多模态搜索,设计了多模态数据智能处理和双引擎跨模态检索两个模块,支持以文本、图像、视频、音频等不同模态数据作为查本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种双引擎驱动的多模态数据检索方法,其特征在于,包括如下步骤:S1,多模态数据智能处理:多模态智能识别,以多模态数据为输入,通过智能识别方法判断多模态数据的语义标签,并通过倒排索引方法构建语义标签库;多模态特征提取,构建统一特征空间,提取不同模态数据在同一特征空间下的特征向量,并构建特征向量库;S2,双引擎跨模态检索:以多模态检索条件为输入,通过多模态数据智能处理方法分别得到检索条件的语义标签和特征向量,基于语义标签库和特征向量库,利用跨模态语义标签检索引擎和跨模态特征向量检索引擎在多模态数据库中完成符合检索条件的多模态数据的查询,经过排序后推送搜索结果。2.根据权利要求1所述的双引擎驱动的多模态数据检索方法,其特征在于,所述跨模态语义标签检索引擎,包括倒排索引构建步骤和语义标签式查询步骤;倒排索引构建通过标签词典构建、倒排列表构建方法形成倒排索引表;语义标签式查询以倒排索引表为基础,结合步骤S1中多模态数据智能处理获得查询条件的语义标签,通过标签哈希编码和标签比对,完成与查询条件相符合的多模态数据搜索。3.根据权利要求1所述的双引擎驱动的多模态数据检索方法,其特征在于,所述跨模态特征向量检索引擎,包括分层可导航图构建步骤和特征向量式查询步骤;分层可导航图构建通过近邻节点数设置、底层近邻图构建、节点层次计算、顶层近邻图构建方法,形成分层导航图,为快速的特征向量检索提供基础;特征向量式查询以分层可导航图为基础,结合步骤S1中多模态数据...

【专利技术属性】
技术研发人员:潘磊廖泓舟崔莹代翔戴礼灿
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1