System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多模态信息提示的视频定位方法、装置、设备及介质制造方法及图纸_技高网
当前位置: 首页 > 专利查询>清华大学专利>正文

基于多模态信息提示的视频定位方法、装置、设备及介质制造方法及图纸

技术编号:41585056 阅读:19 留言:0更新日期:2024-06-06 23:59
本发明专利技术提供了一种基于多模态信息提示的视频定位方法、装置、设备及介质,具体涉及视频定位技术领域,通过对待定位视频的音频和视频帧进行文本化处理,得到语音提示文本和视觉提示文本;确定对待定位视频执行视频定位任务的提示文本和查询文本;将提示文本和查询文本输入至大语言模型中,结合时间边界感知提示策略,输出定位结果。上述视频定位方法通过有效整合视频中的语音信息和视觉信息,并结合时间边界感知提示策略进行时序推理,不仅使输出的定位结果具有可解释性,还提高了视频定位的效果。同时,上述方法利用大语言模型强大的推理能力,无需训练也无需处理视频的原始特征,是一种轻量可泛化的方法。

【技术实现步骤摘要】

本专利技术涉及视频定位,特别是涉及一种基于多模态信息提示的视频定位方法、装置、设备及介质


技术介绍

1、目前主要通过使用不同的视频语言任务进行预训练,以提高视频语义定位任务的性能。但现有的视频片段语义定位方法,需要面向特定的数据集进行专门训练,因此处理长视频时需要大量的计算成本,而且受数据集偏差影响大,跨域泛化的能力较差,无法较好地零训练地迁移到新的场景。

2、基于此,本专利技术提出一种基于多模态信息提示的视频定位方法以解决上述问题。


技术实现思路

1、本专利技术提供一种基于多模态信息提示的视频定位方法、装置、设备及介质,以解决现有视频定位方法的定位效果不佳的问题。

2、在本专利技术实施例第一方面提出一种基于多模态信息提示的视频定位方法,所述方法包括:

3、对待定位视频的音频和视频帧进行文本化处理,得到语音提示文本和视觉提示文本,所述语音提示文本为语音转录句与对应时间段的格式文本,所述视觉提示文本为图像标注和对应时间点的格式文本;

4、确定对所述待定位视频执行视频定位任务的提示文本和查询文本,所述提示文本包括任务提示文本、所述语音提示文本和所述视觉提示文本;

5、将所述提示文本和所述查询文本输入至大语言模型中,结合时间边界感知提示策略,输出定位结果,其中定位结果为所述查询文本在所述待定位视频中的开始时刻和结束时刻。

6、可选地,对待定位视频的视频帧进行文本化处理,得到视觉提示文本,包括:

7、对所述待定位视频中的多个视频场景分别进行采样,得到多个第一视频帧;

8、通过图像标注模型对多个所述第一视频帧进行图像文本标注,得到第一图像标注和对应第一时间点的格式文本作为所述视觉文本提示,所述第一时间点为所述第一视频帧在所述待定位视频中的时刻。

9、可选地,对待定位视频的视频帧进行文本化处理,得到视觉提示文本,包括:

10、基于所述语音转录句对应的时间段,获取所述时间段的中间时刻作为第二时间点;

11、基于所述第二时间点,获取所述第二时间点在所述待定位视频对应的第二视频帧;

12、通过图像标注模型对所述第二视频帧进行图像文本标注,得到第二图像标注和对应时间点的格式文本作为所述视觉文本提示。

13、可选地,所述任务提示文本包括所述待定位视频的定位任务描述文本;

14、基于所述大语言模型的上下文学习能力,所述大语言模型通过所述定位任务描述文本确定需要完成的任务。

15、可选地,通过所述时间边界感知提示策略使所述大语言模型在嘈杂的上下文中进行时序推理并完成所述视频定位任务,所述时间边界感知提示策略包括多尺度降噪思维链,所述多尺度降噪思维链约束所述大语言模型分步骤进行时序推理,输出定位结果,具体包括以下步骤:

16、通过第一提示文本使所述大语言模型全局理解所述待定位视频的整体内容,得到所述待定位视频的内容摘要;

17、通过第二提示文本提示所述大语言模型评估所述语音提示文本和所述视觉提示文本对于所述视频定位任务的有效性,以使所述大语言模型自适应地平衡所述语音提示文本和所述视觉提示文本之间的信息差异;

18、通过第三提示文本提示所述大语言模型针对所述查询文本输出对应的开始时刻和结束时刻,并基于所述开始时刻和所述结束时刻对所述待定位视频进行分段处理,得到多个分段视频以及对应的时间段,并结合所述查询文本对每个所述分段视频进行总结和匹配,确定与所述查询文本相匹配的分段视频;

19、将与所述查询文本相匹配的所述分段视频对应的所述时间段作为所述定位结果。

20、可选地,所述时间边界感知提示策略还包括有效性准则,所述有效性准则提示所述大语言模型在执行所述视频定位任务过程中输入输出的文本格式,包括:

21、基于第一准则,使所述大语言模型按照所述多尺度降噪思维链的推理步骤进行推理,并且输出内容为可以被自动处理的json格式;

22、基于第二准则,提示所述大语言模型对每个所述视频定位任务进行约束,使每个所述视频定位任务输出唯一的所述定位结果,且所述定位结果中的起始时间不能超过预测的结束时间;

23、基于第三准则,提示所述大语言模型遵循上下文学习的格式与所述多尺度降噪思维链的推理步骤进行学习。

24、可选地,所述时间边界感知提示策略还包括单样本上下文学习作为示例,所述单样本上下文学习为一个固定的学习样本,以使所述大语言模型遵循单样本的输入输出格式进行时序推理。

25、在本专利技术实施例第二方面提出一种基于多模态信息提示的视频定位装置,所述装置包括:

26、文本化处理模块,用于对待定位视频的音频和视频帧进行文本化处理,得到语音提示文本和视觉提示文本,所述语音提示文本为语音转录句与对应时间段的格式文本,所述视觉提示文本为图像标注和对应时间点的格式文本;

27、确定模块,用于确定对所述待定位视频执行视频定位任务的提示文本和查询文本,所述提示文本包括任务提示文本、所述语音提示文本和所述视觉提示文本;

28、定位结果获取模块,用于将所述提示文本和所述查询文本输入至大语言模型中,结合时间边界感知提示策略,输出定位结果,其中定位结果为所述查询文本在所述待定位视频中的开始时刻和结束时刻。

29、其中,所述文本化处理模块还包括:

30、采样子模块,用于对所述待定位视频中的多个视频场景分别进行采样,得到多个第一视频帧;

31、第一图像标注子模块,用于通过图像标注模型对多个所述第一视频帧进行图像文本标注,得到第一图像标注和对应第一时间点的格式文本作为所述视觉文本提示,所述第一时间点为所述第一视频帧在所述待定位视频中的时刻。

32、其中,所述文本化处理模块还包括:

33、中间时刻获取子模块,用于基于所述语音转录句对应的时间段,获取所述时间段的中间时刻作为第二时间点;

34、第二视频帧获取子模块,用于基于所述第二时间点,获取所述第二时间点在所述待定位视频对应的第二视频帧;

35、第二图像标注子模块,用于通过图像标注模型对所述第二视频帧进行图像文本标注,得到第二图像标注和对应时间点的格式文本作为所述视觉文本提示。

36、其中,所述任务提示文本包括所述待定位视频的定位任务描述文本,所述确定模块还包括:

37、任务确定子模块,用于基于所述大语言模型的上下文学习能力,所述大语言模型通过所述定位任务描述文本确定需要完成的任务。

38、其中,通过所述时间边界感知提示策略使所述大语言模型在嘈杂的上下文中进行时序推理并完成所述视频定位任务,所述时间边界感知提示策略包括多尺度降噪思维链,所述多尺度降噪思维链约束所述大语言模型分步骤进行时序推理,输出定位结果,所述定位结果获取模块还包括:

39、第一提示子模块,用于通过第一提示文本使所述大语言模型全局理解本文档来自技高网...

【技术保护点】

1.一种基于多模态信息提示的视频定位方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于多模态信息提示的视频定位方法,其特征在于,对待定位视频的视频帧进行文本化处理,得到视觉提示文本,包括:

3.根据权利要求1或2所述的基于多模态信息提示的视频定位方法,其特征在于,对待定位视频的视频帧进行文本化处理,得到视觉提示文本,包括:

4.根据权利要求1所述的基于多模态信息提示的视频定位方法,其特征在于,所述任务提示文本包括所述待定位视频的定位任务描述文本;

5.根据权利要求1所述的基于多模态信息提示的视频定位方法,其特征在于,通过所述时间边界感知提示策略使所述大语言模型在嘈杂的上下文中进行时序推理并完成所述视频定位任务,所述时间边界感知提示策略包括多尺度降噪思维链,所述多尺度降噪思维链约束所述大语言模型分步骤进行时序推理,输出定位结果,具体包括以下步骤:

6.根据权利要求5所述的基于多模态信息提示的视频定位方法,其特征在于,所述时间边界感知提示策略还包括有效性准则,所述有效性准则提示所述大语言模型在执行所述视频定位任务过程中输入输出的文本格式,包括:

7.根据权利要求1所述的基于多模态信息提示的视频定位方法,其特征在于,所述时间边界感知提示策略还包括单样本上下文学习作为示例,所述单样本上下文学习为一个固定的学习样本,以使所述大语言模型遵循单样本的输入输出格式进行时序推理。

8.一种基于多模态信息提示的视频定位装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于多模态信息提示的视频定位方法。

...

【技术特征摘要】

1.一种基于多模态信息提示的视频定位方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于多模态信息提示的视频定位方法,其特征在于,对待定位视频的视频帧进行文本化处理,得到视觉提示文本,包括:

3.根据权利要求1或2所述的基于多模态信息提示的视频定位方法,其特征在于,对待定位视频的视频帧进行文本化处理,得到视觉提示文本,包括:

4.根据权利要求1所述的基于多模态信息提示的视频定位方法,其特征在于,所述任务提示文本包括所述待定位视频的定位任务描述文本;

5.根据权利要求1所述的基于多模态信息提示的视频定位方法,其特征在于,通过所述时间边界感知提示策略使所述大语言模型在嘈杂的上下文中进行时序推理并完成所述视频定位任务,所述时间边界感知提示策略包括多尺度降噪思维链,所述多尺度降噪思维链约束所述大语言模型分步骤进行时序推理,输...

【专利技术属性】
技术研发人员:王鑫贾珈朱文武陈厚伦
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1