System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度学习的跨模态图像文本检索方法技术_技高网
当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于深度学习的跨模态图像文本检索方法技术

技术编号:44079930 阅读:2 留言:0更新日期:2025-01-17 16:13
本发明专利技术公开了一种基于深度学习的跨模态图像文本检索方法,提出了一种新颖的跨模态特征提取与对齐框架,通过学习图像和文本在共同特征空间中的语义表示来进行高效的跨模态检索,该框架包含多个模块,在特征提取阶段,文本编码采用BERT Tokenizer和BERT Embedding,图像特征提取结合Faster R‑CNN与ResNet‑101模型,确保图像与文本特征的维度一致性。在特征对齐阶段,通过I2T Attention和T2I Attention模块实现图像与文本特征的细粒度语义对齐,显著提升跨模态匹配的精度在相关性评分阶段,通过计算图像特征与文本特征之间的相似度得分,生成相关性评分矩阵,进一步通过归一化与注意力重新分配优化特征对齐效果。在优化阶段,本系统创新性地采用共享语义与排序损失策略,并集成OpenCLIP模型框架,通过对比学习从未标注的大规模数据中高效挖掘图像与文本的语义关系,显现出强大的迁移学习能力和推断精度。

【技术实现步骤摘要】

本专利技术涉及一种用于图像和文本跨模态检索的多模态特征对齐方法,具体涉及基于深度学习的跨模态图像文本检索方法,属于人工智能、计算机视觉和自然语言处理。


技术介绍

1、随着人工智能和大数据技术的蓬勃发展,多模态数据已成为各行业的关键资源,尤其在电商、媒体、教育和医疗等领域,图像与文本数据的结合使用显得尤为重要。有效的跨模态图像文本检索模型对于提高信息检索效率、增强数据分析能力、推动应用智能化发展具有重要意义。第一,多模态数据的重要性体现在其能够提供更全面的信息。多源多模态数据通过相互支持、补充和修正,能够提供更准确的信息,增加信息呈现和表达的鲁棒性。例如,在医学诊断和气象预测等领域,多源数据融合与集成是提高数据分析质量的重要基础。第二,跨模态图像文本检索软件的必要性在于其能够提升用户体验和工作效率。在面对海量数据时,用户可以快速定位到与查询文本相关的图像,或者从图像中检索出相应的文本信息,极大地提高了信息检索的速度和准确性。然而,在现阶段,跨模态图像文本检索技术仍面临一些挑战和不足:

2、第一,现有的图像与文本数据关联检索技术仍处于起步阶段,主要依赖于单一模态的检索方法,如基于文本的搜索或基于图像的搜索,这限制了数据的综合利用效率。第二,尽管大规模多模态预训练模型为图文检索带来了显著的性能提升,但在细粒度的跨模态语义对齐上的表现还有很大提升空间,尤其是在实际工业界的应用中。第三,现有的图文检索模型在面对更具挑战性的候选集时,性能会出现显著下降,这表明当前的基准测试可能不足以验证跨模态细粒度语义理解的真实模型能力。>

3、面对这些挑战,研究人员尝试了多种方法来改善跨模态图像文本检索技术:

4、第一,基于传统统计分析技术和基于深度学习的技术被广泛用于跨模态数据的特征提取和内容相关性度量。第二,哈希编码方法通过将多媒体数据转化为二进制编码,提高了检索速度并缩减了存储空间,尤其在深度哈希方法中,检索准确性和效率达到了很好的平衡。第三,生成对抗网络(gan)被用于通过文本数据生成图像数据来检索图像,有效地降低了跨模态差异。第四,交叉注意力(ca)方法通过考虑密集的成对跨模态交互,提取特征,并倾向于获得高准确率的检索结果。


技术实现思路

1、为了提升图像和文本跨模态检索的准确性和效率,关键在于理解不同模态数据间的语义关联,并创建能够适应多样化数据特征的跨模态知识共享体系,学习图像和文本之间的不变和动态特征表示。具体而言,为了获得跨模态检索中的不变特征表示,在特征提取阶段,设计了一个基于bert和resnet的多模态特征提取模块,用于获取文本和图像的深层特征表示,并将来自不同数据源的文本和图像特征合并为统一和高维的特征表示。这一阶段的核心在于捕捉文本的语义信息和图像的视觉内容,为后续的跨模态对齐打下基础。在获得了稳定的跨模态特征表示之后,相关性评分阶段通过设计基于交叉注意力机制的特征对齐策略,将图像和文本的动态关联信息与静态语义信息相结合,增强跨模态特征嵌入。这一阶段的核心在于通过细粒度的特征对齐提升跨模态检索的精度,利用图像到文本的注意力(i2t attention)和文本到图像的注意力(t2i attention)来捕捉图像中与文本最相关的部分,以及文本中与图像最相关的词语。在优化阶段,设计了一个基于相似度评分和排序损失的检索优化模块。使用openclip模型增强特征提取的深度与迁移学习能力,从大规模未标注数据中捕捉图像和文本的关系。相比传统方法,openclip在语义对齐上具有显著优势。通过对数据库图片预提取openclip特征,结合快慢模型的动态调度,提高检索速度,同时保障高精度。这一阶段的核心在于利用来自查询图像或文本的数据对模型参数进行微调,确保得到的模型参数能够捕捉到跨模态数据分布的独特特征,并优化模型以最大化相关图像和文本的相似度,同时最小化不相关对的相似度。通过这种方式,模型能够在特征空间中实现更准确的图像和文本匹配,提升跨模态检索的整体性能。

2、一种基于深度学习的跨模态图像文本检索方法,包括特征提取阶段,相关性评分阶段和优化阶段。

3、所述特征提取阶段:旨在从图像和文本中提取深层次的特征表示,以便在后续处理中实现有效的跨模态语义对齐。在此阶段,通过bert模型对文本进行编码,获取其丰富的语义特征,同时利用faster r-cnn和resnet-101对图像进行分析,提取图像的视觉特征,确保两种模态的特征能够在一个统一的特征空间中进行比较和对齐。

4、所述相关性评分阶段:旨在评估和量化图像特征与文本特征之间的相似度,生成相关性评分矩阵。在此阶段,通过i2t attention和t2i attention机制,模型能够识别图像和文本之间的细粒度关联,捕捉图像中与文本最相关的部分以及文本中与图像最相关的词语,从而为每个图像-文本对计算出一个相似度得分,为最终的检索结果提供依据。

5、所述优化阶段:旨在通过相似度评分和排序损失对模型进行微调,以优化跨模态检索的性能。在此阶段,模型参数根据查询图像或文本的数据进行调整,确保模型能够捕捉到跨模态数据分布的独特特征,并最大化相关图像和文本对的相似度,同时最小化不相关对的相似度。这一过程涉及到对模型进行细致的调整,以提高检索的准确性和效率,确保在实际应用中能够快速准确地返回最相关的检索结果。

6、作为本专利技术的一种改进,所述特征提取阶段包括文本特征提取模块、图像特征提取模块和图像与文本特征对齐模块。对resnet-101的全连接层进行了修改,以实现图片文本维度的统一(对齐过程)。直接使用bert模型替代了传统的i-gru方法,以实现上下文的提取。bert模型理论上更为优越,能够提供更深层次的文本特征表示,从而增强跨态检索的性能。

7、所述文本特征提取模块,旨在从输入文本中提取深层次的语义特征,以便在后续处理中实现有效的跨模态语义对齐。在跨模态数据处理中,往往缺乏有效的对齐机制,导致图像和文本特征之间的关联性不强。本专利技术通过引入图像与文本特征对齐模块,实现了细粒度的跨模态对齐,使得模型能够更准确地识别和匹配图像和文本之间的相关性,提升了跨模态检索的效果。首先,该模块通过加载预训练的bert模型和分词器,将文本转换为模型可理解的格式。具体来说,该模块包含两个主要部分:berttokenizer和bertmodel。

8、其中,berttokenizer用于将输入的自然语言文本进行编码,包括分词、添加特殊标记(如[cls]和[sep])、填充等操作,以便将文本转换为模型可以接受的输入格式。计算公式如下:

9、inputs=tokenizer(text,returntensors=pt,padding=true,truncation=true)

10、其中,text表示输入的文本列表,inputs是编码后的pytorch张量,包含了输入文本的inputids、attentionmask等信息,用于后续的模型输入。

11、接着,ber本文档来自技高网...

【技术保护点】

1.一种基于深度学习的跨模态图像文本检索方法,其特征在于:所述方法包括如下步骤:

2.如权利要求1所述的基于深度学习的跨模态图像文本检索方法,其特征在于:所述特征提取阶段包括文本特征提取模块、图像特征提取模块;

3.如权利要求2所述的基于深度学习的跨模态图像文本检索方法,其特征在于:

4.如权利要求2所述的基于深度学习的跨模态图像文本检索方法,其特征在于:所述相关性评分阶段包括预分配注意力模块,计算相关度评分模块,提取文本与图像共享特征模块,计算相关度模块,

5.如权利要求1所述的基于深度学习的跨模态图像文本检索方法,其特征在于:所述优化阶段包括损失函数的定义与计算、损失的计算与反向传播;

6.如权利要求5所述的基于深度学习的跨模态图像文本检索方法,其特征在于:

7.如权利要求5所述的基于深度学习的跨模态图像文本检索方法,其特征在于:所述优化阶段进一步采用OpenCLIP模型来增强特征提取的深度和准确性,该模型能够将图像或文本转化为嵌入向量,这些特征向量随后用于计算图像和文本之间的相似度。

8.如权利要求5所述的基于深度学习的跨模态图像文本检索方法,其特征在于:所述优化阶段还包括快慢模型策略,快模型用于快速筛选出潜在的相关图像或文本,慢模型用于精细化调整和优化模型参数,以提高检索的准确性和相关性。

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现如上述权利要求1至6中的任意一项所述的基于深度学习的跨模态图像文本检索方法。

10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于:该计算机指令被处理器执行时实现如权利要求1-6中任一项所述的基于深度学习的跨模态图像文本检索方法。

...

【技术特征摘要】

1.一种基于深度学习的跨模态图像文本检索方法,其特征在于:所述方法包括如下步骤:

2.如权利要求1所述的基于深度学习的跨模态图像文本检索方法,其特征在于:所述特征提取阶段包括文本特征提取模块、图像特征提取模块;

3.如权利要求2所述的基于深度学习的跨模态图像文本检索方法,其特征在于:

4.如权利要求2所述的基于深度学习的跨模态图像文本检索方法,其特征在于:所述相关性评分阶段包括预分配注意力模块,计算相关度评分模块,提取文本与图像共享特征模块,计算相关度模块,

5.如权利要求1所述的基于深度学习的跨模态图像文本检索方法,其特征在于:所述优化阶段包括损失函数的定义与计算、损失的计算与反向传播;

6.如权利要求5所述的基于深度学习的跨模态图像文本检索方法,其特征在于:

7.如权利要求5所述的基于深度学习的跨模态图像文本检索...

【专利技术属性】
技术研发人员:何子恒倪庆剑
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1