多模态检索特征库构建方法、多模态检索方法及相关装置制造方法及图纸

技术编号：43041195 阅读：6 留言：0更新日期：2024-10-22 14:27

本申请公开了一种多模态检索特征库构建方法、多模态检索方法及相关装置，涉及多模态检索技术领域，方法包括：获取多模态数据；对多模态数据包含的每个模态的数据获取多个维度的特征，得到每个模态的数据对应的特征集；将每个特征集中的特征融合；将多个模态的数据分别对应的融合特征融合，得到多模态融合特征；将多模态融合特征存储至多模态检索特征库；在构建好特征库后，获取查询数据，并将其处理成查询特征；从多模态检索特征库中确定与查询特征相似度最高的N个特征，将N个特征对应的多模态数据确定为检索结果并输出。本申请公开的特征库构建方法可构建出高质量的多模态检索特征库，本申请提供的检索方法具有较高的检索召回率和检索准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及多模态检索，尤其涉及一种多模态检索特征库构建方法、多模态检索方法及相关装置。

技术介绍

1、多模态数据检索技术是一种输入查询数据，经检索后可以返回与之相关的多种模态的数据的技术。

2、目前的多模态检索方法多为基于特征的检索方法，即，将查询数据处理成查询特征，在构建的多模态检索特征库中找到与查询特征相似的特征，根据与查询特征相似的特征找到对应的多模态数据，进而输出找到的多模态数据。

3、经由上述过程不难发现，多模态检索特征库至关重要，多模态检索特征库的质量直接影响检索效果，而如何构建出高质量的多模态检索特征库是目前亟需解决的问题。

技术实现思路

1、有鉴于此，本申请提供了一种多模态检索特征库构建方法、多模态检索方法及相关装置，用以构建出高质量的多模态检索特征库，进而在检索时，获得较高的检索召回率和检索准确度，其技术方案如下：

2、本申请第一方面提供一种多模态检索特征库构建方法包括：

3、获取多模态数据，其中，所述多模态数据包含的多个模态的数据相关；

4、对所述多模态数据包含的每个模态的数据获取多个维度的特征，得到所述多模态数据包含的每个模态的数据对应的特征集；其中，任一个模态的数据对应的特征集包含如下三个层面中的一个层面或多个层面的特征：视觉层面、听觉层面和内容层面；

5、将所述多模态数据包含的每个模态的数据对应的特征集中的特征融合，得到所述多模态数据包含的每个模态的数据对应的目标特征；

7、将所述多模态数据对应的目标特征存储至多模态检索特征库。

8、在一种可能的实现方式中，针对任一个模态的数据，若该模态的数据为文本，则对应的特征集包括内容层面的特征，若该模态的数据为图像，则对应的特征集中包括视觉层面和内容层面的特征，若该模态的数据为音频，则对应的特征集中包括听觉层面和内容层面的特征，若该模态的数据为视频，则对应的特征集中包含视觉层面、听觉层面和内容层面的特征。

9、在一种可能的实现方式中，所述对所述多模态数据包含的每个模态的数据获取多个维度的特征，得到所述多模态数据包含的每个模态的数据对应的特征集，包括：

10、针对所述多模态数据包含的每个模态的数据：

11、若该模态的数据为文本，则根据该模态的数据，获取多个维度的特征，得到该模态的数据对应的特征集；

12、若该模态的数据为图像、音频或视频，则将该模态的数据处理成其他模态的数据，根据该模态的数据和该模态的数据的处理结果获取多个维度的特征，得到该模态的数据对应的特征集。

13、在一种可能的实现方式中，所述若该模态的数据为文本，则根据该模态的数据，获取多个维度的特征，包括：

14、若所述文本所属的语种不是指定语种，则将所述文本翻译成指定语种，得到所述文本的翻译文本；

15、对所述文本和所述文本的翻译文本分别进行分词处理，得到所述文本的分词结果以及所述文本的翻译文本的分词结果；

16、对所述文本的翻译文本分别进行要素信息识别和语义信息提取，得到所述文本的翻译文本的要素信息和语义信息；

17、对所述文本、所述文本的分词结果、所述文本的翻译文本、所述文本的翻译文本的分词结果、所述文本的翻译文本的要素信息、所述文本的翻译文本的语义信息分别进行特征提取，得到多个维度的特征。

18、在一种可能的实现方式中，所述若该模态的数据为图像、音频或视频，则将该模态的数据处理成其他模态的数据，根据该模态的数据和该模态的数据的处理结果获取多个维度的特征，包括：

19、若该模态的数据为图像，则对所述图像进行内容识别，得到所述图像的内容文本，根据所述图像以及所述图像的内容文本获取多个维度的特征；

20、若该模态的数据为音频，则对所述音频进行转写，得到所述音频的内容文本，根据所述音频以及所述音频的内容文本获取多个维度的特征；

21、若该模态的数据为视频，则将所述视频拆分为音频和多个图像，根据所述视频以及拆分得到的音频和多个图像获取多个维度的特征。

22、在一种可能的实现方式中，所述根据所述图像以及所述图像的内容文本获取多个维度的特征，包括：

23、若所述图像的内容文本所属的语种不是指定语种，则将所述图像的内容文本翻译成指定语种，得到所述图像的内容翻译文本；

24、对所述图像的内容文本和内容翻译文本分别进行分词处理，得到所述图像的内容文本的分词结果以及所述图像的内容翻译文本的分词结果；

25、对所述图像的内容翻译文本分别进行要素信息识别和语义信息提取，得到所述图像的内容翻译文本的要素信息和语义信息；

26、对所述图像的内容文本、所述图像的内容文本的分词结果、所述图像的内容翻译文本、所述图像的内容翻译文本的分词结果、所述图像的内容翻译文本的要素信息、所述图像的内容翻译文本的语义信息分别进行特征提取，得到内容层面的多个维度的特征，并对所述图像进行特征提取，得到视觉层面的特征。

27、在一种可能的实现方式中，所述根据所述音频以及所述音频的内容文本获取多个维度的特征，包括：

28、若所述音频的内容文本所属的语种不是指定语种，则将所述音频的内容文本翻译成指定语种，得到所述音频的内容翻译文本；

29、对所述音频的内容文本和内容翻译文本分别进行分词处理，得到所述音频的内容文本的分词结果以及所述音频的内容翻译文本的分词结果；

30、对所述音频的内容翻译文本分别进行要素信息识别和语义信息提取，得到所述音频的内容翻译文本的要素信息和语义信息；

31、对所述音频的内容文本、所述音频的内容文本的分词结果、所述音频的内容翻译文本、所述音频的内容翻译文本的分词结果、所述音频的内容翻译文本的要素信息、所述音频的内容翻译文本的语义信息分别进行特征提取，得到内容层面的多个维度的特征，并对所述音频进行特征提取，得到听觉层面的特征。

32、在一种可能的实现方式中，所述根据所述视频以及拆分得到的音频和多个图像获取多个维度的特征，包括：

33、对拆分得到的音频进行转写，得到拆分得到的音频的内容文本；若拆分得到的音频的内容文本所属的语种不是指定语种，则将拆分得到的音频的内容文本翻译成指定语种，得到拆分得到的音频的内容翻译文本；

34、针对拆分得到的每个图像，对该图像进行内容识别，得到该图像的内容文本，若该图像的内容文本所属的语种不是指定语种，则将该图像的内容文本翻译成指定语种，得到该图像的内容翻译文本；

35、根据所述视频获取视频视觉层面的特征；根据拆分得到的每个图像获取图像视觉层面的特征；根据拆分得到的音频获取听觉层面的特征；根据拆分得到的音频的内容文本和内容翻译文本，获取音频内容层面的特征；根据拆分得到的本文档来自技高网...

【技术保护点】

1.一种多模态检索特征库构建方法，其特征在于，包括：

2.根据权利要求1所述的多模态检索特征库构建方法，其特征在于，针对任一个模态的数据，若该模态的数据为文本，则对应的特征集包括内容层面的特征，若该模态的数据为图像，则对应的特征集中包括视觉层面和内容层面的特征，若该模态的数据为音频，则对应的特征集中包括听觉层面和内容层面的特征，若该模态的数据为视频，则对应的特征集中包含视觉层面、听觉层面和内容层面的特征。

3.根据权利要求2所述的多模态检索特征库构建方法，其特征在于，所述对所述多模态数据包含的每个模态的数据获取多个维度的特征，得到所述多模态数据包含的每个模态的数据对应的特征集，包括：

4.根据权利要求3所述的多模态检索特征库构建方法，其特征在于，所述若该模态的数据为文本，则根据该模态的数据，获取多个维度的特征，包括：

5.根据权利要求3所述的多模态检索特征库构建方法，其特征在于，所述若该模态的数据为图像、音频或视频，则将该模态的数据处理成其他模态的数据，根据该模态的数据和该模态的数据的处理结果获取多个维度的特征，包括：

7.根据权利要求5所述的多模态检索特征库构建方法，其特征在于，所述根据所述音频以及所述音频的内容文本获取多个维度的特征，包括：

8.根据权利要求5所述的多模态检索特征库构建方法，其特征在于，所述根据所述视频以及拆分得到的音频和多个图像获取多个维度的特征，包括：

9.根据权利要求1所述的多模态检索特征库构建方法，其特征在于，所述将所述多模态数据包含的多个模态的数据分别对应的目标特征融合，得到所述多模态数据对应的目标特征，包括：

10.一种多模态检索方法，其特征在于，包括：

11.根据权利要10所述的多模态检索方法，其特征在于，还包括：

12.一种多模态检索特征库构建装置，其特征在于，包括：数据获取模块、特征获取模块、第一特征融合模块、第二特征融合模块和特征存储模块；

13.一种多模态检索装置，其特征在于，包括：查询数据获取模块、查询数据处理模块、多模态检索模块和检索结果输出模块；

14.一种电子设备，其特征在于，包括至少一个处理器和与所述处理器连接的存储器，其中：

15.一种计算机存储介质，其特征在于，所述存储介质承载有一个或多个计算机程序，当所述一个或多个计算机程序被电子设备执行时，能够使所述电子设备能够实现如权利要求1~9中任意一项所述的多模态检索特征库构建方法，和/或，实现如权利要求10~11中任意一项所述的多模态检索方法的步骤。

16.一种计算机程序产品，其特征在于，包括计算机可读指令，当所述计算机可读指令在电子设备上运行时，使得所述电子设备能够实现如权利要求1~9中任意一项所述的多模态检索特征库构建方法，和/或，实现如权利要求10~11中任意一项所述的多模态检索方法的步骤。

...

【技术特征摘要】

1.一种多模态检索特征库构建方法，其特征在于，包括：

4.根据权利要求3所述的多模态检索特征库构建方法，其特征在于，所述若该模态的数据为文本，则根据该模态的数据，获取多个维度的特征，包括：

6.根据权利要求5所述的多模态检索特征库构建方法，其特征在于，所述根据所述图像以及所述图像的内容文本获取多个维度的特征，包括：

7.根据权利要求5所述的多模态检索特征库构建方法，其特征在于，所述根据所述音频以及所述音频的内容文本获取多个维度的特征，包括：

8.根据权利要求5所述的多模态检索特征库构建方法，...

【专利技术属性】
技术研发人员：石程强，王梦忠，蔡勇，
申请(专利权)人：讯飞智元信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人