System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一视频文本跨模态检索方法及装置。
技术介绍
1、随着互联网技术的飞速发展,视频成为了信息传播的主要载体之一。视频内容的爆炸式增长,使得常规检索已不能满足人们日益变化的搜索需求。因此,视频-文本跨模态检索应运而生。目前跨模态检索的方法主要有三种:基于跨模态特征向量匹配的检索方法、基于注意力机制的跨模态交互检索方法以及基于视觉和文本特征的对齐融合检索方法。
2、然而,在目前跨模态检索方法中,基于跨模态特征向量匹配的检索方法存在以下问题:传统的视频-文本跨模态检索方法视觉模态具备图像模态所不具备的时空特性,往往忽略或关注不够,限制了对视频模态信息的挖掘,进而影响提取准确率;提取过程过度关注全局特征,忽略了局部细节,导致检索准确率不高。基于注意力机制的跨模态交互检索方法存在以下问题:主要采用单一规模,低分辨率的视觉与文本特征间的注意力机制互动模型,在提取特征时,缺乏细粒度特征交互,导致处理效率低,且精度不足;可能产生噪声干扰,对检索性能造成负面影响,同时增加计算成本。基于视觉和文本特征的对齐融合检索方法存在以下问题:对细粒度区域视觉信息的利用不足,导致匹配精度降低;在融合视频-文本跨模态中,不同模态间的纠缠机制相比注意力机制跨模态交互检索更为复杂;使用图卷积网络(graph convolutional network,gcn)在构建完整时空关系图时计算成本过高,效率较低。
3、因此,亟需一种跨模态检索方法,以解决现阶段进行跨模态检索时准确率低、效率低以及成本高的问题。
/>技术实现思路
1、本专利技术实施例提供了一种视频文本跨模态检索方法及装置,以解决现阶段进行跨模态检索时准确率低、效率低以及成本高的问题。
2、第一方面,本专利技术实施例提供了一种视频文本跨模态检索方法,包括:
3、获取目标数据集中的原始数据;其中,原始数据中包括视频数据及其对应的文本数据;
4、对原始数据进行预处理,得到多模态特征嵌入向量;
5、对多模态特征嵌入向量进行特征提取,得到视频特征和文本特征;其中,视频特征包括视频全局特征和视频局部特征;
6、分别对视频全局特征、视频局部特征和文本特征进行嵌入学习,得到视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间;
7、基于视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间进行视频文本跨模态检索。
8、在一种可能的实现方式中,对视频局部特征进行嵌入学习,得到视频局部关系嵌入空间,包括:
9、将视频局部特征中任意一帧中检测置信度最高的候选区域作为该帧的视觉表征;
10、基于视觉表征,对视频局部特征每一帧内部包含的实体间的数据流进行处理;
11、基于视觉表征,对视频局部特征每一帧之间的数据流进行处理;
12、根据处理后的视频局部特征每一帧内部包含的实体间的数据流和视频局部特征每一帧之间的数据流,得到视频局部关系嵌入空间。
13、在一种可能的实现方式中,基于视觉表征,对视频局部特征每一帧内部包含的实体间的数据流进行处理,包括:
14、针对跨模态跳跃连接网络中的每个跳跃连接融合模块,执行以下步骤:
15、将文本表征输入到任意一个跳跃连接融合模块中的自注意力层中,得到经过自注意力层后的文本表征;其中,文本表征基于文本数据确定;
16、将视频局部特征中用于表征每一帧内部包含的实体间的数据流的视觉表征与经过自注意力层后的文本特征进行融合,得到融合后的第一表征;
17、将融合后的第一表征通过该跳跃连接融合模块中的前馈网络,得到带视觉模态注意力的第一文本表征;
18、将带视觉模态注意力的第一文本表征和视频局部特征中用于表征每一帧内部包含的实体间的数据流的视觉表征输入到该跳跃连接融合模块中的跨模态连接注意力模块,得到该跳跃连接融合模块对应的第一多模态表征;
19、在得到跨模态跳跃连接网络中的每个跳跃连接融合模块对应的第一多模态表征之后,将各第一多模态表征进行残差连接,以确定视频局部特征中每一帧与视频局部特征整体之间的关联关系。
20、在一种可能的实现方式中,基于视觉表征,对视频局部特征每一帧之间的数据流进行处理,包括:
21、针对跨模态跳跃连接网络中的每个跳跃连接融合模块,执行以下步骤:
22、在帧级别的空间上,将文本表征输入到任意一个跳跃连接融合模块中的自注意力层中,得到经过自注意力层后的文本表征;
23、将视频局部特征中用于表征每一帧的视觉表征与经过自注意力层后的文本特征进行融合,得到融合后的第二表征;
24、将融合后的第二表征通过该跳跃连接融合模块中的前馈网络,得到带视觉模态注意力的第二文本表征;
25、将带视觉模态注意力的第二文本表征和视频局部特征中用于表征每一帧的视觉表征输入到该跳跃连接融合模块中的跨模态连接注意力模块,得到该跳跃连接融合模块对应的第二多模态表征;
26、在得到跨模态跳跃连接网络中的每个跳跃连接融合模块对应的第二多模态表征之后,将各第二多模态表征进行残差连接,以得到包括时空信息的视频局部关系信息。
27、在一种可能的实现方式中,根据处理后的视频局部特征每一帧内部包含的实体间的数据流和视频局部特征每一帧之间的数据流,得到视频局部关系嵌入空间,包括:
28、将视频局部特征中每一帧与视频局部特征整体之间的关联关系,和包括时空信息的视频局部关系信息进行特征聚合,得到视频局部关系嵌入空间。
29、在一种可能的实现方式中,基于视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间进行视频文本跨模态检索,包括:
30、将视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间映射至联合嵌入空间中进行联合嵌入学习,得到经过联合嵌入学习后的视觉-文本跨模态特征;
31、将经过联合嵌入学习后的视觉-文本跨模态特征通过跨模态编码器,将跨模态编码器的输出结果,用于视频文本跨模态检索。
32、在一种可能的实现方式中,将视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间映射至联合嵌入空间中进行联合嵌入学习,得到经过联合嵌入学习后的视觉-文本跨模态特征,包括:
33、在联合嵌入空间中,基于视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间得到全局视频-文本和局部关系-文本,计算全局视频-文本和局部关系-文本之间的余弦相似度、计算铰链基础的三元排名损失,并基于超参数的平衡优化余弦相似度的度量。
34、在一种可能的实现方式中,对原始数据进行预处理,得到多模态特征嵌入向量,包括:
35、提取视频数据的关键帧;
36、将关键帧及其对应的文本数据输入到预训练模型中,得到多模态特征嵌入向量。
37、在一种可能的实现方式中,对多模态特征嵌入向量进行特征提取,得到视频特征和文本特征,包括:
本文档来自技高网...【技术保护点】
1.一种视频文本跨模态检索方法,其特征在于,包括:
2.根据权利要求1所述的视频文本跨模态检索方法,其特征在于,所述对所述视频局部特征进行嵌入学习,得到视频局部关系嵌入空间,包括:
3.根据权利要求2所述的视频文本跨模态检索方法,其特征在于,所述基于所述视觉表征,对所述视频局部特征每一帧内部包含的实体间的数据流进行处理,包括:
4.根据权利要求3所述的视频文本跨模态检索方法,其特征在于,所述基于所述视觉表征,对所述视频局部特征每一帧之间的数据流进行处理,包括:
5.根据权利要求4所述的视频文本跨模态检索方法,其特征在于,所述根据处理后的所述视频局部特征每一帧内部包含的实体间的数据流和所述视频局部特征每一帧之间的数据流,得到视频局部关系嵌入空间,包括:
6.根据权利要求1所述的视频文本跨模态检索方法,其特征在于,所述基于所述视频嵌入空间、所述视频局部关系嵌入空间和所述文本嵌入空间进行视频文本跨模态检索,包括:
7.根据权利要求6所述的视频文本跨模态检索方法,其特征在于,所述将所述视频嵌入空间、所述视频局部关系嵌
8.根据权利要求1所述的视频文本跨模态检索方法,其特征在于,所述对所述原始数据进行预处理,得到多模态特征嵌入向量,包括:
9.根据权利要求1所述的视频文本跨模态检索方法,其特征在于,所述对所述多模态特征嵌入向量进行特征提取,得到视频特征和文本特征,包括:
10.一种视频文本跨模态检索装置,其特征在于,包括:
...【技术特征摘要】
1.一种视频文本跨模态检索方法,其特征在于,包括:
2.根据权利要求1所述的视频文本跨模态检索方法,其特征在于,所述对所述视频局部特征进行嵌入学习,得到视频局部关系嵌入空间,包括:
3.根据权利要求2所述的视频文本跨模态检索方法,其特征在于,所述基于所述视觉表征,对所述视频局部特征每一帧内部包含的实体间的数据流进行处理,包括:
4.根据权利要求3所述的视频文本跨模态检索方法,其特征在于,所述基于所述视觉表征,对所述视频局部特征每一帧之间的数据流进行处理,包括:
5.根据权利要求4所述的视频文本跨模态检索方法,其特征在于,所述根据处理后的所述视频局部特征每一帧内部包含的实体间的数据流和所述视频局部特征每一帧之间的数据流,得到视频局部关系嵌入空间,包括:
6.根据...
【专利技术属性】
技术研发人员:彭姣,辛锐,吴军英,欧中洪,王玉贞,宋美娜,贺月,朱一凡,陈曦,吕帅,常永娟,郑朴原,卢艳艳,尹晓宇,李涛,马子淇,张鹏飞,李士林,
申请(专利权)人:国网河北省电力有限公司信息通信分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。