视频文本跨模态检索方法及装置制造方法及图纸

技术编号：43794393 阅读：16 留言：0更新日期：2024-12-24 16:25

本发明专利技术提供一种视频文本跨模态检索方法及装置，属于数据处理领域。该方法包括：获取目标数据集中的原始数据；其中，原始数据中包括视频数据及其对应的文本数据；对原始数据进行预处理，得到多模态特征嵌入向量；对多模态特征嵌入向量进行特征提取，得到视频特征和文本特征；其中，视频特征包括视频全局特征和视频局部特征；分别对视频全局特征、视频局部特征和文本特征进行嵌入学习，得到视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间；基于视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间进行视频文本跨模态检索。本发明专利技术通过联合视觉、文本以及局部关系进行空间嵌入学习，能更加精确高效地实现跨模态检索。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，尤其涉及一视频文本跨模态检索方法及装置。

技术介绍

1、随着互联网技术的飞速发展，视频成为了信息传播的主要载体之一。视频内容的爆炸式增长，使得常规检索已不能满足人们日益变化的搜索需求。因此，视频-文本跨模态检索应运而生。目前跨模态检索的方法主要有三种：基于跨模态特征向量匹配的检索方法、基于注意力机制的跨模态交互检索方法以及基于视觉和文本特征的对齐融合检索方法。

2、然而，在目前跨模态检索方法中，基于跨模态特征向量匹配的检索方法存在以下问题：传统的视频-文本跨模态检索方法视觉模态具备图像模态所不具备的时空特性，往往忽略或关注不够，限制了对视频模态信息的挖掘，进而影响提取准确率；提取过程过度关注全局特征，忽略了局部细节，导致检索准确率不高。基于注意力机制的跨模态交互检索方法存在以下问题：主要采用单一规模，低分辨率的视觉与文本特征间的注意力机制互动模型，在提取特征时，缺乏细粒度特征交互，导致处理效率低，且精度不足；可能产生噪声干扰，对检索性能造成负面影响，同时增加计算成本。基于视觉和文本特征的对齐融合检索方法存在以下问题：对细粒度区域视觉信息的利用不足，导致匹配精度降低；在融合视频-文本跨模态中，不同模态间的纠缠机制相比注意力机制跨模态交互检索更为复杂；使用图卷积网络(graph convolutional network，gcn)在构建完整时空关系图时计算成本过高，效率较低。

3、因此，亟需一种跨模态检索方法，以解决现阶段进行跨模态检索时准确率低、效率低以及成本高的问题。