一种基于大数据的图文检索方法及系统技术方案

技术编号：44222269 阅读：3 留言：0更新日期：2025-02-11 13:29

本申请提供一种基于大数据的图文检索方法及系统，获取待检索的图文模态数据；分别对图像模态数据和文本模态数据进行特征提取，得到对应的图像特征表示和文本特征表示，通过图像特征表示和文本特征表示确定图文模态融合熵；依据图文模态融合熵确定文本描述阵列和图像描述阵列，根据文本描述阵列和图像描述阵列进行注意转换，进而得到二维模态空间下的局部图文融合特征和全局图文融合特征；对局部图文融合特征和全局图文融合特征进行拼接，得到图像模态信息和文本模态信息之间的融合模态表示，基于融合模态表示进行图文检索。采用上述方案可以将图像模态信息和文本模态信息进行模态融合，以提高图文检索时的检索性能。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图文检索，更具体地说，本申请涉及一种基于大数据的图文检索方法及系统。

技术介绍

1、基于大数据的图文检索技术融合了计算机视觉、自然语言处理和机器学习领域的最新进展，通过分析和处理大规模图像和文本数据，帮助用户从海量信息中快速找到相关内容，这种方法广泛应用于电子商务、社交媒体、数字图书馆等领域，为用户带来更丰富和直观的检索体验。

2、基于大数据的图文检索技术的核心在于对图像和文本的特征提取和融合，通常采用深度学习模型(如卷积神经网络和transformer架构)进行处理。特征提取后，系统构建一个统一的多模态表示空间，使图像和文本可以在同一维度上进行比较和检索。最终，系统通过计算查询与数据集中各项内容之间的相似度，为用户提供最相关的结果。现有技术中，在图文检索时，因为图像数据和文本数据的异质性使得特征提取和融合变得复杂，不同的数据类型和来源会产生巨大的特征差异，增加了图文检索的难度。因此，如何将图像模态信息和文本模态信息进行模态融合，以提高图文检索时的检索性能是业界面临的难题。

技术实现思路

1、本申请提供一种基于大数据的图文检索方法及系统，可以将图像模态信息和文本模态信息进行模态融合，以提高图文检索时的检索性能。

2、第一方面，本申请提供一种基于大数据的图文检索方法，包括如下步骤：

3、获取待检索的图文模态数据；

4、分别对所述图文模态数据中的图像模态数据和文本模态数据进行特征提取，得到对应的图像特征表示和文本特征表示，通过所

5、依据所述图文模态融合熵确定所述图像特征表示对应的文本描述阵列，依据所述图文模态融合熵确定所述文本特征表示对应的图像描述阵列，根据所述文本描述阵列和所述图像描述阵列进行注意转换，进而得到二维模态空间下的局部图文融合特征和全局图文融合特征；

6、对所述局部图文融合特征和所述全局图文融合特征进行拼接，得到图像模态信息和文本模态信息之间的融合模态表示，基于所述融合模态表示进行图文检索。

7、在一些实施例中，分别对所述图文模态数据中的图像模态数据和文本模态数据进行特征提取，得到对应的图像特征表示和文本特征表示具体包括：

8、将所述图文模态数据中的图像模态数据转换为图像模态向量；

9、将所述图像模态向量输入到卷积神经网络中进行特征提取，得到对应的图像特征表示；

10、将所述图文模态数据中的文本模态数据转换为文本模态向量；

11、将所述文本模态向量输入到深度学习模型中进行特征提取，得到对应的文本特征表示。

12、在一些实施例中，依据所述图文模态融合熵确定所述图像特征表示对应的文本描述阵列具体包括：

13、对于所述图像特征表示中每个图像特征向量，获取图像特征向量对应的所有图文模态融合熵取值；

14、根据图像特征向量对应的所有图文模态融合熵取值和所述文本特征表示确定所述图像特征向量对应的文本描述，进而得到每个图像特征向量对应的文本描述；

15、通过所有图像特征向量对应的文本描述确定所述图像特征表示对应的文本描述阵列。

16、在一些实施例中，依据所述图文模态融合熵确定所述文本特征表示对应的图像描述阵列具体包括：

17、对于所述文本特征表示中每个文本特征向量，获取文本特征向量对应的所有图文模态融合熵取值；

18、根据文本特征向量对应的所有图文模态融合熵取值和所述图像特征表示确定所述文本特征向量对应的图像描述，进而得到每个文本特征向量对应的图像描述；

19、通过所有文本特征向量对应的图像描述确定所述文本特征表示对应的图像描述阵列。

20、在一些实施例中，根据所述文本描述阵列和所述图像描述阵列进行注意转换，进而得到二维模态空间下的局部图文融合特征和全局图文融合特征具体包括：

21、根据所述文本描述阵列确定每个文本描述在图文融合时的局部注意力权重；

22、依据所有文本描述在图文融合时的局部注意力权重将所述文本描述阵列转换为融合文本模态信息时的局部图像特征：

23、根据所述图像描述阵列确定每个图像描述在图文融合时的局部注意力权重；

24、依据所有图像描述在图文融合时的局部注意力权重将所述图像描述阵列转换为融合图像模态信息时的局部文本特征：

25、通过所述局部图像特征和所述局部文本特征构造二维模态空间下的局部图文融合特征；

26、根据所述文本描述阵列确定每个文本描述在图文融合时的全局注意力权重；

27、依据所有文本描述在图文融合时的全局注意力权重将所述文本描述阵列转换为融合文本模态信息时的全局图像特征：

28、根据所述图像描述阵列确定每个图像描述在图文融合时的全局注意力权重；

29、依据所有图像描述在图文融合时的全局注意力权重将所述图像描述阵列转换为融合图像模态信息时的全局文本特征：

30、通过所述全局图像特征和所述全局文本特征构造二维模态空间下的全局图文融合特征。

31、在一些实施例中，对所述局部图文融合特征和所述全局图文融合特征进行拼接，得到图像模态信息和文本模态信息之间的融合模态表示具体包括：

32、将所述局部图文融合特征中的局部图像特征和所述全局图文融合特征中的全局图像特征进行拼接，得到最终图像表示；

33、将所述局部图文融合特征中的局部文本特征和所述全局图文融合特征中的全局文本特征进行拼接，得到最终文本表示；

34、根据所述最终图像表示和所述最终文本表示确定图像模态信息和文本模态信息之间的融合模态表示。

35、在一些实施例中，基于所述融合模态表示进行图文检索是使用所述融合模态表示构建图文索引进行图文检索。

36、第二方面，本申请提供一种基于大数据的图文检索系统，包括有图文融合单元，所述图文融合单元包括：

37、获取模块，用于获取待检索的图文模态数据；

38、处理模块，用于分别对所述图文模态数据中的图像模态数据和文本模态数据进行特征提取，得到对应的图像特征表示和文本特征表示，通过所述图像特征表示和所述文本特征表示确定图像模态信息和文本模态信息之间的图文模态融合熵；

39、所述处理模块，还用于依据所述图文模态融合熵确定所述图像特征表示对应的文本描述阵列，依据所述图文模态融合熵确定所述文本特征表示对应的图像描述阵列，根据所述文本描述阵列和所述图像描述阵列进行注意转换，进而得到二维模态空间下的局部图文融合特征和全局图文融合特征；

40、检索模块，用于对所述局部图文融合特征和所述全局图文融合特征进行拼接，得到图像模态信息和文本模态信息之间的融合模态表示，基于所述融合模态表示进行图文检索。

41、第三方面，本申请提供一种计算机设备，所述计算机本文档来自技高网...

【技术保护点】

1.一种基于大数据的图文检索方法，其特征在于，包括如下步骤：

2.如权利要求1所述的方法，其特征在于，分别对所述图文模态数据中的图像模态数据和文本模态数据进行特征提取，得到对应的图像特征表示和文本特征表示具体包括：

3.如权利要求1所述的方法，其特征在于，依据所述图文模态融合熵确定所述图像特征表示对应的文本描述阵列具体包括：

4.如权利要求1所述的方法，其特征在于，依据所述图文模态融合熵确定所述文本特征表示对应的图像描述阵列具体包括：

5.如权利要求1所述的方法，其特征在于，根据所述文本描述阵列和所述图像描述阵列进行注意转换，进而得到二维模态空间下的局部图文融合特征和全局图文融合特征具体包括：

6.如权利要求1所述的方法，其特征在于，对所述局部图文融合特征和所述全局图文融合特征进行拼接，得到图像模态信息和文本模态信息之间的融合模态表示具体包括：

7.如权利要求1所述的方法，其特征在于，基于所述融合模态表示进行图文检索是使用所述融合模态表示构建图文索引进行图文检索。

8.一种基于大数据的图文检索系统

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序，使得所述计算机设备执行权利要求1至7中任一项所述的基于大数据的图文检索方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令或代码，当指令或代码在计算机上运行时，使得计算机执行时实现如权利要求1至7中任一项所述的基于大数据的图文检索方法。

...

【技术特征摘要】

1.一种基于大数据的图文检索方法，其特征在于，包括如下步骤：

3.如权利要求1所述的方法，其特征在于，依据所述图文模态融合熵确定所述图像特征表示对应的文本描述阵列具体包括：

4.如权利要求1所述的方法，其特征在于，依据所述图文模态融合熵确定所述文本特征表示对应的图像描述阵列具体包括：

6.如权利要求1所述的方法，其特征在于，对所述局部图文融合特征和所述全局图文融合特征进行拼接，得到...

【专利技术属性】
技术研发人员：刘金金，夏元清，单芳芳，刘伎昭，张书钦，樊畅畅，
申请(专利权)人：中原工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人