视频查询方法、装置、介质和计算设备制造方法及图纸

技术编号：40175067 阅读：21 留言：0更新日期：2024-01-26 23:43

本公开的实施方式提供了一种视频查询方法、装置、计算设备和存储介质，涉及通信领域。该视频查询方法包括：响应于用户触发的视频查询请求，获得视频查询请求中的查询文本；基于预设的多个视频模态，提取至少一个候选视频分别对应的视频特征；根据至少一个候选视频分别对应的视频特征，选择满足查询文本对应目标相似条件的目标视频，并输出目标视频。通过从多个视频模态进行视频特征的提取，可以获得更准确的视频特征，进而提高各候选视频的特征表达的效果。在各候选视频的视频特征具备更准确的表征效果基础上，通过各候选视频的视频特征完成目标视频的选择，可以提高视频选择精度，获得更准确的目标视频。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的实施方式涉及通信领域，更具体地，本公开的实施方式涉及一种视频查询方法、装置、计算设备和存储介质。

技术介绍

1、本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、视频检索领域中，一般是将候选视频的图像帧作为信息表征，获得的视频特征。将查询文本作为查询内容的表征，获得文本特征。通过将视频特征和文本特征进行相似性计算，获得与查询文本相似度最高的目标视频。

3、但是，在实际应用中，通过查询文本从候选视频中查询的目标视频的准确度并不高。

技术实现思路

1、本公开提供一种视频查询方法、装置、计算设备和存储介质，以解决通过查询文本从候选视频中查询的目标视频的准确度不高的技术问题。

2、在本公开实施方式的第一方面中，提供了一种视频查询方法，包括：

3、响应于用户触发的视频查询请求，获得所述视频查询请求中的查询文本；

4、基于预设的多个视频模态，提取至少一个候选视频分别对应的视频特征；

5、根据至少一个所述候选视频分别对应的视频特征，选择满足所述查询文本对应目标相似条件的目标视频，并输出所述目标视频。

6、在本公开的一个实施例中，所述基于预设的多个视频模态，提取至少一个候选视频分别对应的视频特征，包括：

7、基于所述预设的多个视频模态，提取所述候选视频在所述多个视频模态分别对应的模态特征；

8、将所述候选视频在所述多个视频模态分别对应

9、在本公开的又一个实施例中，所述预设的多个视频模态包括画面模态和声音模态，所述基于所述预设的多个视频模态，提取所述候选视频在所述多个视频模态分别对应的模态特征，包括：

10、提取所述候选视频在所述画面模态对应的视频帧特征；

11、提取所述候选视频在所述声音模态对应的音频特征。

12、在本公开的又一个实施例中，所述提取所述候选视频在所述画面模态对应的视频帧特征，包括：

13、确定所述候选视频在所述画面模态对应的多个图像帧；

14、通过图像编码器，提取所述候选视频的多个所述图像帧分别对应的图像特征，并基于多个所述图像帧分别对应的图像特征确定所述视频帧特征；

15、所述提取所述候选视频在所述声音模态对应的音频特征，包括：

16、通过语音编码器，提取所述候选视频的音频信号对应的音频特征。

17、在本公开的又一个实施例中，所述根据至少一个所述候选视频分别对应的视频特征，选择满足所述查询文本对应目标相似条件的目标视频，并输出所述目标视频，包括：

18、提取所述查询文本的文本特征；

19、根据所述至少一个候选视频分别对应的视频特征，计算所述候选视频的视频特征和所述文本特征之间的目标相似度，获得所述至少一个候选视频分别对应的目标相似度；

20、根据所述至少一个候选视频分别对应的目标相似度，选择满足所述查询文本对应目标相似条件的目标视频。

21、在本公开的又一个实施例中，所述计算所述候选视频的视频特征和所述文本特征之间的目标相似度，包括：

22、计算所述文本特征和所述候选视频在所述多个视频模态分别对应的模态特征之间的特征相似度；

23、根据多个所述视频模态分别对应的特征相似度，确定所述查询文本与所述候选视频的目标相似度。

24、在本公开的又一个实施例中，所述多个视频模态包括画面模态和声音模态，所述计算所述文本特征和所述候选视频在所述多个视频模态分别对应的模态特征之间的特征相似度，包括：

25、确定所述候选视频在所述画面模态对应的视频帧特征和在所述声音模态对应的音频特征；

26、计算所述文本特征和所述视频帧特征之间的文本画面相似度；

27、计算所述文本特征和所述音频特征之间的文本声音相似度。

28、在本公开的又一个实施例中，所述文本特征包括语句特征和词特征，所述计算所述文本特征和所述视频帧特征之间的文本画面相似度，包括：

29、通过注意力机制算法，计算所述文本特征中语句特征和所述视频帧特征之间的语句画面相似度；

30、通过所述注意力机制算法，计算所述文本特征中词特征和所述视频帧特征之间的词画面相似度；

31、将所述语句画面相似度和所述词画面相似度加权求和，获得文本画面相似度矩阵；

32、将所述文本画面相似度矩阵和所述文本特征进行距离计算，获得所述文本画面相似度。

33、在本公开的又一个实施例中，所述通过注意力机制算法，计算所述文本特征中语句特征和所述视频帧特征之间的语句画面相似度，包括：

34、确定所述注意力机制算法对应的查询公式、键公式和值公式并确定所述候选视频的视频帧特征；

35、利用所述查询公式，计算所述语句特征和所述视频帧特征对应的语句查询特征；

36、利用所述键公式，计算所述语句特征和所述视频帧特征对应的键特征；

37、利用所述值公式，计算所述语句特征和所述视频帧特征之间的值特征；

38、基于所述语句查询特征、所述键特征和所述值特征，结合所述注意力机制算法的输出公式，计算所述视频帧特征的语句输出特征；

39、通过前馈层，对所述语句输出特征进行前馈计算，获得语句前馈特征；

40、将所述语句输出特征和语句前馈特征相加求和，获得所述语句画面相似度。

41、在本公开的又一个实施例中，所述通过所述注意力机制算法，计算所述文本特征中词特征和所述视频帧特征之间的词画面相似度，包括：

42、利用所述查询公式，计算所述词特征和所述视频帧特征之间的词查询特征；

43、根据所述词查询特征，对所述键特征进行转换计算，获得目标键特征；

44、通过所述词查询特征、所述目标键特征和所述值特征，结合所述注意力机制算法的输出公式，计算所述视频帧特征的词输出特征；

45、根据所述目标键特征和所述词输出特征，计算词画面特征；

46、通过前馈层，对所述词画面特征进行前馈计算，获得词前馈特征；

47、将所述词画面特征和所述词前馈特征相加求和，获得所述词画面相似度。

48、在本公开的又一个实施例中，所述计算所述文本特征和所述音频特征之间的文本声音相似度，包括：

49、通过归一化层对所述声音模态对应的音频特征进行归一化计算，获得归一化后的音频特征；

50、通过线性层，对于所述归一化后的音频特征进行线性计算，获得目标音频特征；

51、通过所述目标音频特征和所述文本特征进行距离计算，获得所述文本声音相似度。

52、在本公开的又一个实施例中，所述根据多个所述视频模态分别对应的特征相似度，本文档来自技高网...

【技术保护点】

1.一种视频查询方法，包括：

2.根据权利要求1所述的方法，其中，所述基于预设的多个视频模态，提取至少一个候选视频分别对应的视频特征，包括：

3.根据权利要求2所述的方法，其中，所述预设的多个视频模态包括画面模态和声音模态，所述基于所述预设的多个视频模态，提取所述候选视频在所述多个视频模态分别对应的模态特征，包括：

4.根据权利要求1-3任一项所述的方法，其中，所述根据至少一个所述候选视频分别对应的视频特征，选择满足所述查询文本对应目标相似条件的目标视频，并输出所述目标视频，包括：

5.根据权利要求4所述的方法，其中，所述计算所述候选视频的视频特征和所述文本特征之间的目标相似度，包括：

6.根据权利要求5所述的方法，其中，所述多个视频模态包括画面模态和声音模态，所述计算所述文本特征和所述候选视频在所述多个视频模态分别对应的模态特征之间的特征相似度，包括：

7.根据权利要求6所述的方法，其中，所述文本特征包括语句特征和词特征，所述计算所述文本特征和所述视频帧特征之间的文本画面相似度，包括：

8.一种视频查询装置，其中，包括：

9.一种计算设备，包括：处理器，以及与所述处理器通信连接的存储器；

10.一种存储介质，所述存储介质中存储有计算机程序指令，所述计算机程序指令被执行时，实现如权利要求1至7任一项所述的视频查询方法。

...

【技术特征摘要】

1.一种视频查询方法，包括：

2.根据权利要求1所述的方法，其中，所述基于预设的多个视频模态，提取至少一个候选视频分别对应的视频特征，包括：

5.根据权利要求4所述的方法，其中，所述计算所述候选视频的视频特征和所述文本特征之间的...

【专利技术属性】
技术研发人员：王树栋，李文君，赵栋，
申请(专利权)人：网易传媒科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人