文本视频检索方法、装置、设备及存储介质制造方法及图纸

技术编号：39324252 阅读：9 留言：0更新日期：2023-11-12 16:03

本申请涉及计算机领域，特别涉及了人工智能领域，提供了一种文本视频检索方法、装置、设备及存储介质。该方法包括：分别对表征检索信息的第一对象，以及对检索集中的各第二对象进行特征提取，获得相应的第一特征集与各第二特征集；其中，当第一对象或各第二对象为视频时，将各视觉原型的原型特征作为一个第一特征或一个第二特征；通过匹配第一特征集与各第二特征集，获得与第一对象关联的目标检索对象。利用每个视频块对不同视觉原型的关注度，基于各视频块的目标视频特征及各目标视频特征对同一视觉原型的贡献程度，生成能够表征视频中丰富信息的多个原型特征，以达到降低视频与文本之间的映射模糊性，提高检索准确率。提高检索准确率。提高检索准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本视频检索方法、装置、设备及存储介质

[0001]本申请涉及计算机领域，特别涉及了人工智能领域，提供了一种文本视频检索方法、装置、设备及存储介质。

技术介绍

[0002]视频
‑
文本检索(Video
‑
Text Retrieval)是计算机视觉和语言领域的一个经典任务，要求根据文本检索视频，或根据视频检索文本。目前常用基于专家模型或基于端到端训练的文本
‑
视频检索模型，执行文本
‑
视频的跨模态检索任务。其中，专家模型指的是预先在不同场景(如，人脸识别、场景识别、对象识别等)下训练好的模型。
[0003]上述检索方法集中于挖掘文本与视频间的关系，将待检索视频的一个视觉特征分别与检索集中各个文本的文本特征进行匹配，获得描述了视频内容的文本，或者与文本描述相符的视频。
[0004]视频包含了丰富的实例对象及各实例对象产生的事件信息，但文本却只描述了视频的一部分信息。因此，文本与视频之间存在着多对多的映射关系。然而，采用上述检索方法获得的视觉特征，难以涵盖视频中丰富的实例对象与事件信息，引发了视频与文本间的映射模糊性的问题，导致检索准确率低。

技术实现思路

[0005]本申请实施例提供了一种文本视频检索方法、装置、设备及存储介质，以解决因视频内容的挖掘深度不够，所引发的检索准确率低的问题。
[0006]第一方面，本申请实施例提供了一种文本视频检索方法，包括：
[0007]分别对表征检索信息的第一对象，以及...

【技术保护点】

【技术特征摘要】
1.一种文本视频检索方法，其特征在于，包括：分别对表征检索信息的第一对象，以及对检索集中的各第二对象进行特征提取，获得相应的第一特征集与各第二特征集；其中，当所述第一对象或所述各第二对象为视频时，采用以下方式进行特征提取：对所述视频采样获得的多个采样帧图像进行分块，得到视频块组，并通过对所述视频块组进行全局特征提取，获得相应的目标视频特征集；针对每个视频原型，执行以下操作：基于获得的各目标视频特征及其各自相对一个视觉原型的贡献程度，确定所述一个视觉原型的原型特征，并将所述原型特征作为一个第一特征或一个第二特征；其中，每个视觉原型表征：所述多个采样帧图像中各实例对象产生的跨帧全局事件；将所述第一特征集分别与所述各第二特征集进行匹配，并将匹配成功的第二特征集所对应的第二对象，确定为与所述第一对象关联的目标检索对象。2.如权利要求1所述的方法，其特征在于，所述基于获得的各目标视频特征及其各自相对一个视觉原型的贡献程度，确定所述一个视觉原型的原型特征，包括：将所述各目标视频特征分别与各自相对所述一个视觉原型的贡献程度相乘，得到所述各目标视频特征各自相对所述一个视觉原型的贡献评估特征；将各贡献评估特征之和，确定为所述一个视觉原型的原型特征。3.如权利要求2所述的方法，其特征在于，针对所述各目标视频特征分别执行以下操作，确定各自相对各视觉原型的贡献程度：通过文本
‑
视频检索模型的线性层，对一个目标视频特征进行映射，获得相应视频块对所述各视觉原型各自的贡献值；通过所述文本
‑
视频检索模型的非线性激活函数层对各贡献值进行激活，确定所述一个目标视频特征对所述各视觉原型的贡献程度。4.如权利要求1～3任一项所述的方法，其特征在于，所述将所述第一特征集分别与所述各第二特征集进行匹配，包括：分别将所述第一特征集与所述各第二特征集映射到同一特征空间中，获得相应的第一特征表示集与各第二特征表示集；基于所述第一特征表示集与所述各第二特征表示集，分别获得各第一特征表示与各第二特征表示间的相似度；将相似度符合筛选规则的第二特征表示所对应的第二特征集，作为匹配成功的第二特征集。5.如权利要求1～3任一项所述的方法，其特征在于，所述通过对所述视频块组进行全局特征提取，获得相应的目标视频特征集，包括：基于所述视频块组中各视频块及其关联的时空信息，获得相应的位置特征集；对所述位置特征集进行时间维度的特征提取，获得相应的时间上下文特征集；对所述时间上下文特征集进行空间维度的特征提取，获得相应的空间上下文特征集，并将各空间上下文特征集作为相应的目标视频特征集。6.如权利要求5所述的方法，其特征在于，所述基于所述视频块组中各视频块及其关联的时空信息，获得相应的位置特征集，包括：
对所述视频块组进行特征提取，获得所述各视频块各自的初始视频特征；通过对各初始视频特征及相应视频块的时空信息进行位置编码，获得所述位置特征集。7.如权利要求1～3任一项所述的方法，其特征在于，所述文本
‑
视频检索模型是采用循环迭代方式，分别对多个训练样本集执行以下操作得到的，其中，每次迭代包括：依次读取一个训练样本集中的各个第三对象，其中，每读取一个表征样本检索信息的第三对象，执行以下操作：分别对一个第三对象，以及对样本检索集中的各第四对象进行特征提取，获得相应的第三特征集与各第四特征集，并分别对所述第三特征集与所述各第四特征集进行匹配，获得所述第三对象与所述各第四对象间的相似度；其中，当所述第三对象或所述各第四对象为样本视频时，基于各样本视频块的样本视频特征及其各自相对一个样本视觉原型的贡献程度，分别获得各样本视觉原型的原型特征，并将各视觉原...

【专利技术属性】
技术研发人员：林城梽，张均，梁俊卫，沈春华，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人