视频检索方法及装置制造方法及图纸

技术编号：44590491 阅读：8 留言：0更新日期：2025-03-14 12:49

本申请实施例了提供一种视频检索方法，该视频检索方法包括：获取输入的查询文本；利用大语言模型将所述查询文本拆分为多个分镜文本；利用所述大语言模型基于所述分镜文本进行分镜设计，基于所述分镜设计形成若干个检索条件，其中，所述分镜设计包括期望匹配的视频片段画面内容和期望出现的实体描述；基于所述检索条件从视频检索系统中获取视频检索结果。本申请实施例的技术方案可以提高对用户输入文本的理解程度，提高视频素材检索的精准度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及人工智能，尤其涉及一种视频检索方法、装置、计算机设备、计算机可读存储介质、计算机程序产品。

技术介绍

1、视频检索，是指通过特定的方式，在海量视频数据中找到符合用户需求的视频内容的过程。目前，视频检索一般是根据用户输入的查询关键词进行检索，返回与查询关键词相匹配的视频内容。

2、然而，目前根据关键词进行视频检索的方法，无法准确地理解用户意图，导致检索出来的视频素材与用户想要的结果不够匹配，检索的准确性较低，用户体验较差。

3、需要说明的是，上述内容并不必然是现有技术，也不用于限制本申请的专利保护范围。

技术实现思路

1、本申请实施例提供一种视频检索方法、装置、计算机设备、计算机可读存储介质、计算机程序产品，以解决或缓解上面提出的一项或更多项技术问题。

2、本申请实施例的一个方面提供了一种视频检索方法，所述方法包括：

3、获取输入的查询文本；

4、利用大语言模型将所述查询文本拆分为多个分镜文本；

5、利用所述大语言模型基于所述分镜文本进行分镜设计，基于所述分镜设计形成若干个检索条件，其中，所述分镜设计包括期望匹配的视频片段画面内容和期望出现的实体描述；

6、基于所述检索条件从视频检索系统中获取视频检索结果。

7、可选地，基于所述分镜设计形成若干个检索条件，包括：

8、获取所述分镜文本的限定条件，其中，所述限定条件包括返回的视频时长限定条件和匹配的素材库类型限定条件；

9、基于所述分镜文本的限定条件和所述分镜设计形成若干个检索条件。

10、可选地，所述方法还包括：

11、重复执行所述利用所述大语言模型基于所述分镜文本进行分镜设计，基于所述分镜设计形成若干个检索条件的步骤，以针对每个分镜设计形成至少两组检索条件，其中，至少一组检索条件用于进行降级检索。

12、可选地，基于所述检索条件从视频检索系统中获取视频检索结果，包括：

13、基于所述检索条件从视频检索系统中进行粗粒度召回，得到粗粒度召回结果；

14、对所述粗粒度召回结果进行多个维度评分，得到每一所述粗粒度召回结果的多个维度评分结果；

15、基于所述多个维度评分结果对所述粗粒度召回结果进行排序，并基于排序结果得到所述视频检索结果。

16、可选地，对所述粗粒度召回结果进行多个维度评分，得到每一所述粗粒度召回结果的多个维度评分结果，包括：

17、获取所述粗粒度召回结果的实体匹配度、画面匹配度、画面质量和检索条件优先级；

18、基于所述实体匹配度、所述画面匹配度、所述画面质量和所述检索条件优先级确定每一所述粗粒度召回结果的多个维度评分结果。

19、可选地，基于所述检索条件从视频检索系统中进行粗粒度召回，得到粗粒度召回结果，包括：

20、基于所述检索条件确定检索的所有实体约束；

21、召回符合所有实体约束的第一视频检索结果；

22、在所述第一视频检索结果的数量小于预设数量的情况下，召回符合部分实体约束的第二视频检索结果。

23、可选地，所述方法还包括：

24、确定所述第一视频检索结果和所述第二视频检索结果的总数；

25、在所述总数小于所述预设数量的情况下，切换至下一个检索条件进行检索。

26、可选地，所述视频检索系统包括多个视频切片和每一所述视频切片的向量特征，所述视频检索系统用于根据所述向量特征进行检索结果的召回。

27、可选地，所述视频检索系统还包括所述视频切片包括的实体信息，所述检索系统还用于根据所述实体信息进行检索结果的召回。

28、本申请实施例的另一个方面提供了一种视频检索装置，所述装置包括：

29、获取模块，用于获取输入的查询文本；

30、拆分模块，用于利用大语言模型将所述查询文本拆分为多个分镜文本；

31、设计模块，用于利用所述大语言模型基于所述分镜文本进行分镜设计，基于所述分镜设计形成若干个检索条件，其中，所述分镜设计包括期望匹配的视频片段画面内容和期望出现的实体描述；

32、检索模块，用于基于所述检索条件从视频检索系统中获取视频检索结果。

33、本申请实施例的另一个方面提供了一种计算机设备，包括：至少一个处理器；及与所述至少一个处理器通信连接的存储器；其中：所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

34、本申请实施例的另一个方面提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机指令，所述计算机指令被处理器执行时实现如上所述的方法。

35、本申请实施例的另一个方面提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述的方法。

36、本申请实施例采用上述技术方案可以包括如下优势：

37、通过获取输入的查询文本，利用大语言模型将查询文本拆分为多个分镜文本；利用大语言模型基于分镜文本进行分镜设计，基于分镜设计形成若干个检索条件，分镜设计包括期望匹配的视频片段画面内容和期望出现的实体描述；基于检索条件从视频检索系统中获取视频检索结果。可知，本申请实施例可以基于大语言模型对用户输入的查询文本进行智能化的分镜，提升视频的整体连贯性和表现力；同时也可以提高对用户输入文本的理解程度，提高视频素材检索的精准度。

本文档来自技高网...

【技术保护点】

1.一种视频检索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于所述分镜设计形成若干个检索条件，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，基于所述检索条件从视频检索系统中获取视频检索结果，包括：

5.根据权利要求4所述的方法，其特征在于，对所述粗粒度召回结果进行多个维度评分，得到每一所述粗粒度召回结果的多个维度评分结果，包括：

6.根据权利要求4所述的方法，其特征在于，基于所述检索条件从视频检索系统中进行粗粒度召回，得到粗粒度召回结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述视频检索系统包括多个视频切片和每一所述视频切片的向量特征，所述视频检索系统用于根据所述向量特征进行检索结果的召回。

9.根据权利要求8所述的方法，其特征在于，所述视频检索系统还包括所述视频切片包括的实体信息，所述检索系统还用于根据所述

10.一种视频检索装置，其特征在于，所述装置包括：

11.一种计算机设备，其特征在于，包括：

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1至9中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至9中任一项所述方法的步骤。

...

【技术特征摘要】