System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能,尤其涉及一种视频片段检索方法、装置、电子设备及可读存储介质。
技术介绍
1、近年来,人工智能(ai)在众多领域取得了重大进步,特别是大语言模型(largelanguage models,简称llm),如openai的gpt系列。指导视频,即配有旁白解说的视频,旨在指引观众完成特定任务,这类视频内容丰富多样,涵盖从日常生活技巧到复杂专业操作的各个方面,例如烹饪教程、家居改善指南或各类设备的维修指导。在现代教育和自我学习领域,指导视频扮演着越来越重要的角色,不仅是人类学习新技能的有效工具,同时也为机器学习提供了丰富的视觉演示材料。现有存在大语言模型对指导视频的知识提取存在局限性,导致指导视频不能进行跨模态知识提取的问题。
2、现急需一种视频片段检索方法解决现有大语言模型对指导视频的跨模态知识提取的方面存在局限性,导致指导视频不能进行跨模态知识提取的问题。
技术实现思路
1、本专利技术实施例提供一种视频片段检索方法,旨在解决现有大语言模型对指导视频的跨模态知识提取的方面存在局限性,导致指导视频不能进行跨模态知识提取的问题。通过大语言模型对旁白音频进行处理,得到n个操作步骤文本,并根据n个操作步骤文本的起始时间戳和结束时间戳对待处理视频进行分割处理,得到n个视频片段,对于每个视频片段,通过对应的操作步骤文本进行逐帧相似度计算,在每个视频片段中确定出目标视频片段,并根据目标视频片段以及对应的操作步骤文本,从而构建指导视频的检索结构,检索结构用于根据输入内容
2、本专利技术实施例是这样实现的,提供一种视频片段检索方法,包括以下步骤:
3、获取指导视频的旁白音频和待处理视频,所述旁白音频和待处理视频具有对应的时间戳;
4、通过大语言模型对所述旁白音频进行处理,得到n个操作步骤文本,每个操作步骤文本对应一个第一起始时间戳以及一个第一结束时间戳;
5、根据n个操作步骤文本的所述起始时间戳和所述结束时间戳对所述待处理视频进行分割处理,得到n个视频片段,每个视频片段对应一个第二起始时间戳以及一个第二结束时间戳;
6、对于每个视频片段,通过对应的操作步骤文本进行逐帧相似度计算,在每个视频片段中确定出目标视频片段,一个目标视频片段对应一个操作步骤文本;
7、基于所述目标视频片段以及对应的操作步骤文本,构建所述指导视频的检索结构,所述检索结构用于根据输入内容在所述指导视频中检索到对应的目标视频片段。
8、可选的,所述获取指导视频的旁白音频和待处理视频的步骤包括:
9、通过音频提取工具对指导视频进行音频分离处理,得到旁白音频和待处理视频。
10、可选的,所述通过大语言模型对所述旁白音频进行处理,得到n个操作步骤文本的步骤包括:
11、对所述旁白音频进行文本转换处理,得到旁白文本和所述旁白文本对应的时间戳;
12、通过大语言模型对所述旁白文本和所述旁白文本对应的时间戳进行处理,得到n个操作步骤文本以及每个操作步骤文本对应的一个第一起始时间戳以及一个第一结束时间戳。
13、可选的,所述通过大语言模型对所述旁白文本和所述旁白文本对应的时间戳进行处理,得到n个操作步骤文本以及每个操作步骤文本对应的一个第一起始时间戳以及一个第一结束时间戳的步骤包括:
14、通过预设的提示词模板对所述旁白文本以及所述旁白文本对应的时间戳进行第一处理,得到待处理旁白文本,所述待处理旁白文本包括对所述旁白文本进行知识提取的提示词;
15、通过大语言模型对所述待处理旁白文本进行第二处理,得到n个操作步骤以及每个操作步骤文本对应的一个第一起始时间戳以及一个第一结束时间戳。
16、可选的,所述对于每个视频片段,通过对应的操作步骤文本进行逐帧相似度计算,在每个视频片段中确定出目标视频片段的步骤包括:
17、对每个视频片段进行第一特征提取处理,输出得到每个视频片段中每个帧图像对应的单帧图像特征向量;
18、对每个视频片段对应的操作步骤文本进行第二特征提取处理,输出得到每个视频片段对应的操作步骤文本的知识特征向量;
19、将所述每个视频片段中每帧图像对应的单帧图像特征向量和所述每个视频片段对应的操作步骤文本的知识特征向量进行逐帧相似度计算,得到每个视频片段中每个帧图像与每个视频片段对应的操作步骤文本之间的相似度计算结果;
20、基于所述相似度计算结果,在每个视频片段中确定出目标视频片段。
21、可选的,所述基于所述相似度计算结果,在每个视频片段中确定出目标视频片段的步骤包括:
22、在每个视频片段中,将所述相似度计算结果大于预设阈值的帧图像确定为有效帧图像;
23、根据每个视频片段中有效帧图像,在每个视频片段中确定出目标视频片段。
24、可选的,所述基于所述目标视频片段以及对应的操作步骤文本,构建所述指导视频的检索结构基于所述目标视频片段以及对应的操作步骤文本,构建所述指导视频的检索结构的步骤包括:
25、根据所述目标视频片段的起始时间戳和结束时间戳以及对应的操作步骤文本,构建所述指导视频的检索结构。
26、本专利技术实施例还提供一种视频片段检索装置,包括:
27、获取模块,用于获取指导视频的旁白音频和待处理视频,所述旁白音频和待处理视频具有对应的时间戳;
28、第一处理模块,用于通过大语言模型对所述旁白音频进行处理,得到n个操作步骤文本,每个操作步骤文本对应一个第一起始时间戳以及一个第一结束时间戳;
29、第二处理模块,用于根据n个操作步骤文本的所述起始时间戳和所述结束时间戳对所述待处理视频进行分割处理,得到n个视频片段,每个视频片段对应一个第二起始时间戳以及一个第二结束时间戳;
30、确定模块,用于对于每个视频片段,通过对应的操作步骤文本进行逐帧相似度计算,在每个视频片段中确定出目标视频片段,一个目标视频片段对应一个操作步骤文本;
31、构建模块,用于基于所述目标视频片段以及对应的操作步骤文本,构建所述指导视频的检索结构,所述检索结构用于根据输入内容在所述指导视频中检索到对应的目标视频片段。
32、本专利技术实施例还提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如任一实施例中所述的一种视频片段检索方法。
33、本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如任一实施例中所述的一种视频片段检索方法。
34、本专利技术所达到的有益效果,本申请通过获取指导视频的旁白音频和待处理视频,旁白音频和待处本文档来自技高网...
【技术保护点】
1.一种视频片段检索方法,其特征在于,包括以下步骤:
2.如权利要求1所述的视频片段检索方法,其特征在于,所述获取指导视频的旁白音频和待处理视频的步骤包括:
3.如权利要求2所述的视频片段检索方法,其特征在于,所述通过大语言模型对所述旁白音频进行处理,得到N个操作步骤文本的步骤包括:
4.如权利要求3所述的视频片段检索方法,其特征在于,所述通过大语言模型对所述旁白文本和所述旁白文本对应的时间戳进行处理,得到N个操作步骤文本以及每个操作步骤文本对应的一个第一起始时间戳以及一个第一结束时间戳的步骤包括:
5.如权利要求4所述的视频片段检索方法,其特征在于,所述对于每个视频片段,通过对应的操作步骤文本进行逐帧相似度计算,在每个视频片段中确定出目标视频片段的步骤包括:
6.如权利要求5所述的视频片段检索方法,其特征在于,所述基于所述相似度计算结果,在每个视频片段中确定出目标视频片段的步骤包括:
7.如权利要求6所述的视频片段检索方法,其特征在于,所述基于所述目标视频片段以及对应的操作步骤文本,构建所述指导视频的检索结
8.一种视频片段检索装置,其特征在于,所述视频片段检索装置包括:
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的一种视频片段检索方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的一种视频片段检索方法。
...【技术特征摘要】
1.一种视频片段检索方法,其特征在于,包括以下步骤:
2.如权利要求1所述的视频片段检索方法,其特征在于,所述获取指导视频的旁白音频和待处理视频的步骤包括:
3.如权利要求2所述的视频片段检索方法,其特征在于,所述通过大语言模型对所述旁白音频进行处理,得到n个操作步骤文本的步骤包括:
4.如权利要求3所述的视频片段检索方法,其特征在于,所述通过大语言模型对所述旁白文本和所述旁白文本对应的时间戳进行处理,得到n个操作步骤文本以及每个操作步骤文本对应的一个第一起始时间戳以及一个第一结束时间戳的步骤包括:
5.如权利要求4所述的视频片段检索方法,其特征在于,所述对于每个视频片段,通过对应的操作步骤文本进行逐帧相似度计算,在每个视频片段中确定出目标视频片段的步骤包括:
6.如权利要求5所述的视频片段检索方法,...
【专利技术属性】
技术研发人员:石峰,
申请(专利权)人:火离科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。